Jumat, 19 Oktober 2012

Retrieval



Nama             : Nurul Hidayati
Kelas             : A
NIM                : 09011328
Tahapan Text Processing
v  Tokenizatoin  adalah proses pemotongan sebuah dokumen menjadi bagian-bagian, yang disebut token.
Pada saat bersamaan, token juga membuang beberapa karakter tertentu yang dianggap sebagai tanda baca.
v  Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran case folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil).
Sebagai contoh, user yang ingin mendapatkan informasi “ITS” dan mengetik “ITS”, “ItS”, atau “its”, tetap diberikan hasil retrieval yang sama yakni “ITS”.
v  Selain itu, digunakan juga proses filtering berguna untuk menghilangkan karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan simbol).
v  Stopping atau stoplist removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen (Yates dan Neto, 1999).
Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat mengurangi level noise.
v  Stemming adalah suatu proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh, stemming pada kata “mempermainkan” akan menghasilkan kata “main”. Stemming adalah alat pemrosesan teks dasar yang sering digunakan untuk mendapatkan kinerja yang efektif dan efisien pada text retrieval dan text classification. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.
v  Term Weighting
-          Term Frequency & Weighting.
Bobot token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen. ( term frequency – tf )
term frequency dinotasikan dengan tf(t,d), dimana t à token, dan d à dokumen
Salah satu cara untuk menghitung tf adalah dengan menggunakan tf normalisasi.
-          tf-idf weighting
DOCUMENT  FREQUENCY quency df , defined to be the number of documents in the collection that contain a term t.
Berikut adalah pemrosesan korpus dimulai dari Text Processing hingga proses Term Weighting menggunakan verctor space model.
4 Documen (masing-masing dokumen ada 4 kalimat)
D1        Bahasa Indonesia berasal dari bahasa Melayu. Juminten pergi ke pasar. Bersama ibunya juminten pergi ke pasar. Hari ini ayah mencuci motor.
D2        Bapak memancing ikan. Ikan dipancing oleh bapak. Aku harus mengerjakan PR. PR harus kukerjakan.
D3        Nina menulis surat untuk bapak. Bapak tiba besok pagi. Antarkan surat ini ke kantor bapak. Aku menanam 10 pohon lengkeng di halaman.
D4        Edo rajin belajar. Aku berangkat ke jakarta besok sore. Belikan aku mobil baru. Malam ini aku harus belajar.
 (D1)
D1
tokenizatoin
case folding
filtering
stopword removal
steming
Bahasa 
Bahasa 
bahasa 
bahasa 
bahasa 
bahasa 
Indonesia
Indonesia
indonesia
indonesia
indonesia
indonesia
Berasal
berasal
berasal
berasal
berasal
asal
dari
dari
dari
dari


Bahasa
bahasa
bahasa
bahasa
bahasa
bahasa
Melayu.
Melayu
melayu
melayu
melayu
melayu
Juminten 
Juminten 
juminten 
juminten 
juminten 

Pergi
pergi
pergi
pergi
pergi
pergi
Ke
ke
ke
ke


pasar.
pasar
pasar
pasar
pasar
pasar
Bersama 
Bersama 
bersama 
bersama 
bersama 
sama
ibunya
ibunya
ibunya
ibunya


juminten
juminten
juminten
juminten


pergi
pergi
pergi
pergi
pergi
pergi
ke
ke
ke
ke


pasar.
pasar
pasar
pasar
pasar
pasar
Hari 
hari 
hari 
hari 
hari 
hari 
ini
ini
ini
ini


ayah
ayah
ayah
ayah


memcuci
memcuci
memcuci
memcuci
memcuci
cuci
motor.
motor
motor
motor
motor
motor






Penjelasan
Ø  Tokenization pada D1 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D1 setelah dilakukan Tokenization tanda baca itu dihilangkan dst.
Ø  Case Folding pada D1 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D1 kata (Bahasa) dirubah menjadi (bahasa) dst. Perhatikan hurufnya!
Ø  Filtering  artinya menghilangkan angka. Pada kalimat D1 ada bebrapa angka yang harus di hilangkan sehingga kalimatnya berubah.
Ø  Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi document. Contohnya pada kalimat D1 misalnya:dari,nama orang dst.  Kata- kata seperti itu di hilangkan.
Ø  Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh pada kalimat D1 misalnya: bersama menjadi sama.
(D2)
D2
tokenizatoin
case folding
filtering
stopword removal
steming
Bapak 
bapak 
bapak 
bapak 


memancing
memancing
memancing
memancing
memancing
pancing
ikan.
ikan
ikan
ikan
ikan
ikan
Ikan
Ikan
ikan
ikan
ikan
ikan
di
di
di
di


pancing
pancing
pancing
pancing
pancing
pancing
oleh
oleh
oleh
oleh


bapak.
bapak
bapak
bapak
bapak

Aku
Aku
aku
aku


harus
Harus
harus
harus


mengerjakan
Mengerjakan
mengerjakan
mengerjakan
mengerjakan
kerja
PR.
PR
pr
pr
Pr
pr
PR 
PR 
pr
pr
Pr
Pr
harus
harus
harus
harus


ku
ku
ku
ku


kerjakan.
kerjakan
kerjakan
kerjakan
Kerjakan
kerja
Penjelasan
Ø  Tokenization pada D2 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D2 setelah dilakukan Tokenization tanda baca itu dihilangkan.
Ø  Case Folding pada D2 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D2 kata (Bapak) dirubah menjadi (bapak) dst. Perhatikan hurufnya!
Ø  Filtering  artinya menghilangkan angka.pada D2 tidak ada angka sehingga kalimatnya tidak berubah.
Ø  Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi document. Contohnya pada kalimat D2 misalnya: di, aku, bapak dst .  Kata- kata seperti itu di hilangkan.
Ø  Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). pada kalimat D2 misalnya:memancing menjadi pancing dst.
(D3)
D3
tokenizatoin
case folding
filtering
stopword removal
steming
Nina 
Nina 
nina 
nina 


menulis
Menulis
menulis
menulis
menulis
tulis
surat
Surat
surat
surat
surat
surat
untuk
untuk
untuk
untuk


bapak.
Bapak
bapak
bapak


Bapak
Bapak
bapak
bapak


tiba
Tiba
tiba
tiba
tiba
tiba
besok
Besok
besok
besok
besok
besok
pagi.
Pagi
pagi
pagi
pagi
pagi
Antarkan 
Antarkan 
antarkan 
antarkan 
antarkan 
antar
surat
surat
surat
surat
surat
surat
ini
Ini
ini
ini


ke
Ke
ke
ke


kantor
kantor
kantor
kantor
kantor
kantor
bapak.
bapak
bapak
bapak


Aku 
Aku 
aku 
aku 
 

menanam
menanam
menanam
menanam
menanam
tanam
10
10
10



pohon
pohon
pohon
pohon
pohon
pohon
lengkeng
lengkeng
lengkeng
lengkeng
lengkeng
lengkeng
di
di
di
di


halaman.
halaman
halaman
halaman
halaman
halaman
Penjelasan
Ø  Tokenization pada D3 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D3 setelah dilakukan Tokenization tanda baca itu dihilangkan.
Ø  Case Folding pada D3 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D3 kata (Nina) dirubah menjadi (nina) dst . Perhatikan hurufnya!
Ø  Filtering  artinya menghilangkan angka. Pada kalimat D3 ada angka 10 sehingga kalimatnya tidak berubah.
Ø  Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi document. Contohnya pada kalimat D3 misalnya: nina, bapak, aku.  Kata- kata seperti itu di hilangkan.
Ø  Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh pada kalimat D3 misalnya: menanam menjadi tanam.
(D4)
D4
tokenizatoin
case folding
filtering
stopword removal
steming
Edo 
Edo 
edo 
edo 


Rajin
rajin
rajin
rajin
rajin
rajin
belajar.
belajar
belajar
belajar
belajar
belajar
Aku 
Aku 
aku 
aku 


berangkat
berangkat
berangkat
berangkat
berangkat
angkat
Ke
ke
ke
ke


jakarta
jakarta
jakarta
jakarta
jakarta
jakarta
besok
besok
besok
besok
besok
besok
sore.
sore
sore
sore
sore
sore
Belikan 
Belikan 
belikan 
belikan 
belikan 
beli
Aku
aku
aku
aku


mobil
mobil
mobil
mobil
mobil
mobil
baru.
baru
baru
baru
baru
baru
Malam 
Malam 
malam 
malam 
malam 
malam 
Ini
ini
ini
ini


Aku
aku
aku
aku


harus
harus
harus
harus


belajar.
belajar
belajar
belajar
belajar
belajar
Penjelasan
Ø  Tokenization pada D4 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D4 setelah dilakukan Tokenization tanda baca itu dihilangkan.
Ø  Case Folding pada D4 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D4 kata (Februari) dirubah menjadi (februari), (Saya) dirubah menjadi (saya). Perhatikan hurufnya!
Ø  Filtering  artinya menghilangkan angka. Pada kalimat D4 ada angka 4, 2012 sehingga kalimatnya berubah.
Ø  Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi document. Contohnya pada kalimat D4 misalnya: saya,di, sangat, dan.  Kata- kata seperti itu di hilangkan.
Ø  Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh pada kalimat D4 misalnyaberulang  menjadi ulang, mengundang menjadi undang, memesan menjadi pesan, mengesankan menjadi kesan .
term weighting
tf(D1)
tf(D2)
tf(D3)
tf(D4)
tfn(D1)
tfn(D2)
tfn(D3)
tfn(D4)
Bahasa
2
0
0
0
1
0
0
0
Indonesia
1
0
0
0
0.5
0
0
0
Asal
1
0
0
0
0.5
0
0
0
Melayu
1
0
0
0
0.5
0
0
0
Pergi
2
0
0
0
1
0
0
0
Pasar
2
0
0
0
1
0
0
0
Sama
1
0
0
0
0.5
0
0
0
Hari
1
0
0
0
0.5
0
0
0
Cuci
1
0
0
0
0.5
0
0
0
Motor
1
0
0
0
0.5
0
0
0
ikan
2
0
0
0
1
0
0
0
pancing
0
2
0
0
0
1
0
0
kerja
0
2
0
0
0
1
0
0
pr
0
2
0
0
0
1
0
0
tulis
0
0
1
0
0
0
0.5
0
surat
0
0
2
0
0
0
1
0
tiba
0
0
1
0
0
0
0.5
0
besok
0
0
1
0
0
0
0.5
0
pagi
0
0
1
0
0
0
0.5
0
antar
0
0
1
0
0
0
0.5
0
kantor
0
0
1
0
0
0
0.5
0
tanam
0
0
1
0
0
0
0.5
0
pohon
0
0
1
0
0
0
0.5
0
lengkeng
0
0
1
0
0
0
0.5
0
halaman
0
0
1
0
0
0
0.5
0
rajin
0
0
0
1
0
0
0
0.5
belajar
0
0
0
2
0
0
0
1
angkat
0
0
0
1
0
0
0
0.5
jakarta
0
0
0
1
0
0
0
0.5
besok
0
0
0
1
0
0
0
0.5
sore
0
0
0
1
0
0
0
0.5
beli
0
0
0
1
0
0
0
0.5
mobil
0
0
0
1
0
0
0
0.5
baru
0
0
0
1
0
0
0
0.5
malam
0
0
0
1
0
0
0
0.5

Penjelasan
Ø  ( term frequency – tf )Bobot token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen.contoh di atas kemunculan token/kata bahasa berada di dalam D1, sehingga pada kolom tf(D1) pada baris bahasa tertulis 1. Begitu pula seterusnya pada adanya token/kata yang terdapat pada tf(D2), tf(D3),tf(D4).
Ø  Mencari (tfn)normalisasi dengan rumus berikut:
Contoh tabel di atas : tfnD1(bahasa) =                      tf D1(bahasa)
                                                                                                nilai max yang berada pd colom( tfD1)
                                                                                      =   2      =   1
                                                                                                2
                Dan seterusnya perhitungannya seperti itu untuk (tfnD2),( tfnD3), (tfnD4).

term weighting
df
idf
Score D1
Score D2
Score D3
Score D4
Bahasa
1
0.60206
0.60206
0
0
0
Indonesia
1
0.60206
0.30103
0
0
0
Asal
1
0.60206
0.30103
0
0
0
Melayu
1
0.60206
0.30103
0
0
0
Pergi
1
0.60206
0.60206
0
0
0
Pasar
1
0.60206
0.60206
0
0
0
Sama
1
0.60206
0.30103
0
0
0
Hari
1
0.60206
0.30103
0
0
0
Cuci
1
0.60206
0.30103
0
0
0
Motor
1
0.60206
0.30103
0
0
0
ikan
1
0.60206
0.60206
0
0
0
pancing
1
0.60206
0
0.60206
0
0
kerja
1
0.60206
0
0.60206
0
0
pr
1
0.60206
0
0.60206
0
0
tulis
1
0.60206
0
0
0.30103
0
surat
1
0.60206
0
0
0.60206
0
tiba
1
0.60206
0
0
0.30103
0
besok
1
0.60206
0
0
0.30103
0
pagi
1
0.60206
0
0
0.30103
0
antar
1
0.60206
0
0
0.30103
0
kantor
1
0.60206
0
0
0.30103
0
tanam
1
0.60206
0
0
0.30103
0
pohon
1
0.60206
0
0
0.30103
0
lengkeng
1
0.60206
0
0
0.30103
0
halaman
1
0.60206
0
0
0.30103
0
rajin
1
0.60206
0
0
0
0.30103
belajar
1
0.60206
0
0
0
0.60206
angkat
1
0.60206
0
0
0
0.30103
jakarta
1
0.60206
0
0
0
0.30103
besok
1
0.60206
0
0
0
0.30103
sore
1
0.60206
0
0
0
0.30103
beli
1
0.60206
0
0
0
0.30103
mobil
1
0.60206
0
0
0
0.30103
baru
1
0.60206
0
0
0
0.30103
malam
1
0.60206
0
0
0
0.30103

Ø  Mencari df :
Hitung banyaknya keberadaan token pada tiap baris dari tfD1 sampai tfD4. Contoh:

tf(D1)
tf(D2)
tf(D3)
tf(D4)
df
bahasa
2
0
0
0
1
Ø  Menghitung idf:
N : banyaknya dokumen
Idf (bahasa) =Log    4(dokumen D1,D2, D3,D4)    = Log   4/1 = 0,60206
                                                df (bahasa) 1
dan sterusnya pengerjaannya sama.
Ø  Mencari nilai score :
Tfn * idf
Contoh score D1 (bahasa) = tfnbahasa* idf = 1 * 0,60206 = 0,60206
Ø  Dan setrusnya......!!!

Query "bahasa , kerja"


D1 = bahasa + kerja = 0.30103 + 0 = 0.30103
D2 = bahasa + kerja = 0 + 0.60206 = 0.60206
D3 = bahasa + kerja = 0 + 0 = 0


D4 = bahasa + kerja = 0 + 0 = 0



Yang hasil score dari query nya berurutan: D2,D1,D3/D4
D2        Bapak memancing ikan. Ikan dipancing oleh bapak. Aku harus mengerjakan PR. PR harus kukerjakan.
D1        Bahasa Indonesia berasal dari bahasa Melayu. Juminten pergi ke pasar. Bersama ibunya juminten pergi ke pasar. Hari ini ayah mencuci motor.
D3        Nina menulis surat untuk bapak. Bapak tiba besok pagi. Antarkan surat ini ke kantor bapak. Aku menanam 10 pohon lengkeng di halaman.
D4        Edo rajin belajar. Aku berangkat ke jakarta besok sore. Belikan aku mobil baru. Malam ini aku harus belajar.