tugasss retrieval: Oktober 2012

Nama : Nurul Hidayati

Kelas : A

NIM : 09011328

Tahapan Text Processing

v Tokenizatoin adalah proses pemotongan sebuah dokumen menjadi bagian-bagian, yang disebut token.
Pada saat bersamaan, token juga membuang beberapa karakter tertentu yang dianggap sebagai tanda baca.

v Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran case folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil).

Sebagai contoh, user yang ingin mendapatkan informasi “ITS” dan mengetik “ITS”, “ItS”, atau “its”, tetap diberikan hasil retrieval yang sama yakni “ITS”.

v Selain itu, digunakan juga proses filtering berguna untuk menghilangkan karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan simbol).

v Stopping atau stoplist removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen (Yates dan Neto, 1999).

Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat mengurangi level noise.

v Stemming adalah suatu proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh, stemming pada kata “mempermainkan” akan menghasilkan kata “main”. Stemming adalah alat pemrosesan teks dasar yang sering digunakan untuk mendapatkan kinerja yang efektif dan efisien pada text retrieval dan text classification. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.

v Term Weighting

- Term Frequency & Weighting.

Bobot token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen. ( term frequency – tf )

term frequency dinotasikan dengan tf_(t,d), dimana t à token, dan d à dokumen

Salah satu cara untuk menghitung tf adalah dengan menggunakan tf normalisasi.

- tf-idf weighting

DOCUMENT FREQUENCY quency df , deﬁned to be the number of documents in the collection that contain a term t.

Berikut adalah pemrosesan korpus dimulai dari Text Processing hingga proses Term Weighting menggunakan verctor space model.

4 Documen (masing-masing dokumen ada 4 kalimat)

D1 Bahasa Indonesia berasal dari bahasa Melayu. Juminten pergi ke pasar. Bersama ibunya juminten pergi ke pasar. Hari ini ayah mencuci motor.

D2 Bapak memancing ikan. Ikan dipancing oleh bapak. Aku harus mengerjakan PR. PR harus kukerjakan.

D3 Nina menulis surat untuk bapak. Bapak tiba besok pagi. Antarkan surat ini ke kantor bapak. Aku menanam 10 pohon lengkeng di halaman.

D4 Edo rajin belajar. Aku berangkat ke jakarta besok sore. Belikan aku mobil baru. Malam ini aku harus belajar.

(D1)

D1	*tokenizatoin*	*case folding*	*filtering*	*stopword removal*	*steming*
Bahasa	Bahasa	bahasa	bahasa	bahasa	bahasa
Indonesia	Indonesia	indonesia	indonesia	indonesia	indonesia
Berasal	berasal	berasal	berasal	berasal	asal
dari	dari	dari	dari
Bahasa	bahasa	bahasa	bahasa	bahasa	bahasa
Melayu.	Melayu	melayu	melayu	melayu	melayu
Juminten	Juminten	juminten	juminten	juminten
Pergi	pergi	pergi	pergi	pergi	pergi
Ke	ke	ke	ke
pasar.	pasar	pasar	pasar	pasar	pasar
Bersama	Bersama	bersama	bersama	bersama	sama
ibunya	ibunya	ibunya	ibunya
juminten	juminten	juminten	juminten
pergi	pergi	pergi	pergi	pergi	pergi
ke	ke	ke	ke
pasar.	pasar	pasar	pasar	pasar	pasar
Hari	hari	hari	hari	hari	hari
ini	ini	ini	ini
ayah	ayah	ayah	ayah
memcuci	memcuci	memcuci	memcuci	memcuci	cuci
motor.	motor	motor	motor	motor	motor

Penjelasan

Ø Tokenization pada D1 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D1 setelah dilakukan Tokenization tanda baca itu dihilangkan dst.

Ø Case Folding pada D1 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D1 kata (Bahasa) dirubah menjadi (bahasa) dst. Perhatikan hurufnya!

Ø Filtering artinya menghilangkan angka. Pada kalimat D1 ada bebrapa angka yang harus di hilangkan sehingga kalimatnya berubah.

Ø Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi document. Contohnya pada kalimat D1 misalnya:dari,nama orang dst. Kata- kata seperti itu di hilangkan.

Ø Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh pada kalimat D1 misalnya: bersama menjadi sama.

(D2)

D2	*tokenizatoin*	*case folding*	*filtering*	*stopword removal*	*steming*
Bapak	bapak	bapak	bapak
memancing	memancing	memancing	memancing	memancing	pancing
ikan.	ikan	ikan	ikan	ikan	ikan
Ikan	Ikan	ikan	ikan	ikan	ikan
di	di	di	di
pancing	pancing	pancing	pancing	pancing	pancing
oleh	oleh	oleh	oleh
bapak.	bapak	bapak	bapak	bapak
Aku	Aku	aku	aku
harus	Harus	harus	harus
mengerjakan	Mengerjakan	mengerjakan	mengerjakan	mengerjakan	kerja
PR.	PR	pr	pr	Pr	pr
PR	PR	pr	pr	Pr	Pr
harus	harus	harus	harus
ku	ku	ku	ku
kerjakan.	kerjakan	kerjakan	kerjakan	Kerjakan	kerja

Penjelasan

Ø Tokenization pada D2 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D2 setelah dilakukan Tokenization tanda baca itu dihilangkan.

Ø Case Folding pada D2 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D2 kata (Bapak) dirubah menjadi (bapak) dst. Perhatikan hurufnya!

Ø Filtering artinya menghilangkan angka.pada D2 tidak ada angka sehingga kalimatnya tidak berubah.

Ø Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi document. Contohnya pada kalimat D2 misalnya: di, aku, bapak dst . Kata- kata seperti itu di hilangkan.

Ø Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). pada kalimat D2 misalnya:memancing menjadi pancing dst.

(D3)

D3	*tokenizatoin*	*case folding*	*filtering*	*stopword removal*	*steming*
Nina	Nina	nina	nina
menulis	Menulis	menulis	menulis	menulis	tulis
surat	Surat	surat	surat	surat	surat
untuk	untuk	untuk	untuk
bapak.	Bapak	bapak	bapak
Bapak	Bapak	bapak	bapak
tiba	Tiba	tiba	tiba	tiba	tiba
besok	Besok	besok	besok	besok	besok
pagi.	Pagi	pagi	pagi	pagi	pagi
Antarkan	Antarkan	antarkan	antarkan	antarkan	antar
surat	surat	surat	surat	surat	surat
ini	Ini	ini	ini
ke	Ke	ke	ke
kantor	kantor	kantor	kantor	kantor	kantor
bapak.	bapak	bapak	bapak
Aku	Aku	aku	aku
menanam	menanam	menanam	menanam	menanam	tanam
10	10	10
pohon	pohon	pohon	pohon	pohon	pohon
lengkeng	lengkeng	lengkeng	lengkeng	lengkeng	lengkeng
di	di	di	di
halaman.	halaman	halaman	halaman	halaman	halaman

Penjelasan

Ø Tokenization pada D3 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D3 setelah dilakukan Tokenization tanda baca itu dihilangkan.

Ø Case Folding pada D3 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D3 kata (Nina) dirubah menjadi (nina) dst . Perhatikan hurufnya!

Ø Filtering artinya menghilangkan angka. Pada kalimat D3 ada angka 10 sehingga kalimatnya tidak berubah.

Ø Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi document. Contohnya pada kalimat D3 misalnya: nina, bapak, aku. Kata- kata seperti itu di hilangkan.

Ø Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh pada kalimat D3 misalnya: menanam menjadi tanam.

(D4)

D4	*tokenizatoin*	*case folding*	*filtering*	*stopword removal*	*steming*
Edo	Edo	edo	edo
Rajin	rajin	rajin	rajin	rajin	rajin
belajar.	belajar	belajar	belajar	belajar	belajar
Aku	Aku	aku	aku
berangkat	berangkat	berangkat	berangkat	berangkat	angkat
Ke	ke	ke	ke
jakarta	jakarta	jakarta	jakarta	jakarta	jakarta
besok	besok	besok	besok	besok	besok
sore.	sore	sore	sore	sore	sore
Belikan	Belikan	belikan	belikan	belikan	beli
Aku	aku	aku	aku
mobil	mobil	mobil	mobil	mobil	mobil
baru.	baru	baru	baru	baru	baru
Malam	Malam	malam	malam	malam	malam
Ini	ini	ini	ini
Aku	aku	aku	aku
harus	harus	harus	harus
belajar.	belajar	belajar	belajar	belajar	belajar

Penjelasan

Ø Tokenization pada D4 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D4 setelah dilakukan Tokenization tanda baca itu dihilangkan.

Ø Case Folding pada D4 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D4 kata (Februari) dirubah menjadi (februari), (Saya) dirubah menjadi (saya). Perhatikan hurufnya!

Ø Filtering artinya menghilangkan angka. Pada kalimat D4 ada angka 4, 2012 sehingga kalimatnya berubah.

Ø Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi document. Contohnya pada kalimat D4 misalnya: saya,di, sangat, dan. Kata- kata seperti itu di hilangkan.

Ø Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh pada kalimat D4 misalnyaberulang menjadi ulang, mengundang menjadi undang, memesan menjadi pesan, mengesankan menjadi kesan .

term weighting	tf(D1)	tf(D2)	tf(D3)	tf(D4)	tfn(D1)	tfn(D2)	tfn(D3)	tfn(D4)
Bahasa	2	0	0	0	1	0	0	0
Indonesia	1	0	0	0	0.5	0	0	0
Asal	1	0	0	0	0.5	0	0	0
Melayu	1	0	0	0	0.5	0	0	0
Pergi	2	0	0	0	1	0	0	0
Pasar	2	0	0	0	1	0	0	0
Sama	1	0	0	0	0.5	0	0	0
Hari	1	0	0	0	0.5	0	0	0
Cuci	1	0	0	0	0.5	0	0	0
Motor	1	0	0	0	0.5	0	0	0
ikan	2	0	0	0	1	0	0	0
pancing	0	2	0	0	0	1	0	0
kerja	0	2	0	0	0	1	0	0
pr	0	2	0	0	0	1	0	0
tulis	0	0	1	0	0	0	0.5	0
surat	0	0	2	0	0	0	1	0
tiba	0	0	1	0	0	0	0.5	0
besok	0	0	1	0	0	0	0.5	0
pagi	0	0	1	0	0	0	0.5	0
antar	0	0	1	0	0	0	0.5	0
kantor	0	0	1	0	0	0	0.5	0
tanam	0	0	1	0	0	0	0.5	0
pohon	0	0	1	0	0	0	0.5	0
lengkeng	0	0	1	0	0	0	0.5	0
halaman	0	0	1	0	0	0	0.5	0
rajin	0	0	0	1	0	0	0	0.5
belajar	0	0	0	2	0	0	0	1
angkat	0	0	0	1	0	0	0	0.5
jakarta	0	0	0	1	0	0	0	0.5
besok	0	0	0	1	0	0	0	0.5
sore	0	0	0	1	0	0	0	0.5
beli	0	0	0	1	0	0	0	0.5
mobil	0	0	0	1	0	0	0	0.5
baru	0	0	0	1	0	0	0	0.5
malam	0	0	0	1	0	0	0	0.5

Penjelasan

Ø ( term frequency – tf )Bobot token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen.contoh di atas kemunculan token/kata bahasa berada di dalam D1, sehingga pada kolom tf(D1) pada baris bahasa tertulis 1. Begitu pula seterusnya pada adanya token/kata yang terdapat pada tf(D2), tf(D3),tf(D4).

Ø Mencari (tf_n)normalisasi dengan rumus berikut:

Contoh tabel di atas : tf_nD1(bahasa) = tf D1(bahasa)

nilai max yang berada pd colom( tfD1)

= 2 = 1

Dan seterusnya perhitungannya seperti itu untuk (tf_nD2),( tf_nD3), (tf_nD4).

term weighting	df	idf	Score D1	Score D2	Score D3	Score D4
Bahasa	1	0.60206	0.60206	0	0	0
Indonesia	1	0.60206	0.30103	0	0	0
Asal	1	0.60206	0.30103	0	0	0
Melayu	1	0.60206	0.30103	0	0	0
Pergi	1	0.60206	0.60206	0	0	0
Pasar	1	0.60206	0.60206	0	0	0
Sama	1	0.60206	0.30103	0	0	0
Hari	1	0.60206	0.30103	0	0	0
Cuci	1	0.60206	0.30103	0	0	0
Motor	1	0.60206	0.30103	0	0	0
ikan	1	0.60206	0.60206	0	0	0
pancing	1	0.60206	0	0.60206	0	0
kerja	1	0.60206	0	0.60206	0	0
pr	1	0.60206	0	0.60206	0	0
tulis	1	0.60206	0	0	0.30103	0
surat	1	0.60206	0	0	0.60206	0
tiba	1	0.60206	0	0	0.30103	0
besok	1	0.60206	0	0	0.30103	0
pagi	1	0.60206	0	0	0.30103	0
antar	1	0.60206	0	0	0.30103	0
kantor	1	0.60206	0	0	0.30103	0
tanam	1	0.60206	0	0	0.30103	0
pohon	1	0.60206	0	0	0.30103	0
lengkeng	1	0.60206	0	0	0.30103	0
halaman	1	0.60206	0	0	0.30103	0
rajin	1	0.60206	0	0	0	0.30103
belajar	1	0.60206	0	0	0	0.60206
angkat	1	0.60206	0	0	0	0.30103
jakarta	1	0.60206	0	0	0	0.30103
besok	1	0.60206	0	0	0	0.30103
sore	1	0.60206	0	0	0	0.30103
beli	1	0.60206	0	0	0	0.30103
mobil	1	0.60206	0	0	0	0.30103
baru	1	0.60206	0	0	0	0.30103
malam	1	0.60206	0	0	0	0.30103

Ø Mencari df :

Hitung banyaknya keberadaan token pada tiap baris dari tfD1 sampai tfD4. Contoh:

	tf(D1)	tf(D2)	tf(D3)	tf(D4)	df
bahasa	2	0	0	0	1

Ø Menghitung idf:

N : banyaknya dokumen

Idf (bahasa) =Log 4(dokumen D1,D2, D3,D4) = Log 4/1 = 0,60206

df (bahasa) 1

dan sterusnya pengerjaannya sama.

Ø Mencari nilai score :

Tf_n * idf

Contoh score D1 (bahasa) = tf_nbahasa* idf = 1 * 0,60206 = 0,60206

Ø Dan setrusnya......!!!

Query "bahasa , kerja"
D1 = bahasa + kerja = 0.30103 + 0 = 0.30103
D2 = bahasa + kerja = 0 + 0.60206 = 0.60206
D3 = bahasa + kerja = 0 + 0 = 0
D4 = bahasa + kerja = 0 + 0 = 0

Yang hasil score dari query nya berurutan: D2,D1,D3/D4

D2 Bapak memancing ikan. Ikan dipancing oleh bapak. Aku harus mengerjakan PR. PR harus kukerjakan.

D1 Bahasa Indonesia berasal dari bahasa Melayu. Juminten pergi ke pasar. Bersama ibunya juminten pergi ke pasar. Hari ini ayah mencuci motor.

D3 Nina menulis surat untuk bapak. Bapak tiba besok pagi. Antarkan surat ini ke kantor bapak. Aku menanam 10 pohon lengkeng di halaman.

D4 Edo rajin belajar. Aku berangkat ke jakarta besok sore. Belikan aku mobil baru. Malam ini aku harus belajar.

tugasss retrieval

Jumat, 19 Oktober 2012

Retrieval