Nama :
Nurul Hidayati
Kelas : A
NIM : 09011328
Tahapan Text Processing
v Tokenizatoin adalah proses pemotongan sebuah dokumen
menjadi bagian-bagian, yang disebut token.
Pada saat bersamaan, token juga membuang beberapa karakter tertentu yang dianggap sebagai tanda baca.
Pada saat bersamaan, token juga membuang beberapa karakter tertentu yang dianggap sebagai tanda baca.
v Tidak semua
dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran case folding dibutuhkan dalam
mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar
(biasanya huruf kecil).
Sebagai contoh, user yang
ingin mendapatkan informasi “ITS” dan mengetik “ITS”, “ItS”, atau “its”, tetap
diberikan hasil retrieval yang sama yakni “ITS”.
v Selain itu,
digunakan juga proses filtering
berguna untuk menghilangkan karakter-karakter non-huruf yang dianggap tidak
valid (karakter angka dan simbol).
v Stopping atau stoplist removal adalah
proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi
dokumen (Yates dan Neto, 1999).
Kata-kata seperti “dari”, “yang”,
“di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan
dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword).
Penghilangan stopword ini dapat mengurangi ukuran index dan waktu
pemrosesan. Selain itu, juga dapat mengurangi level noise.
v Stemming adalah suatu
proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root).
Sebagai contoh, stemming pada kata “mempermainkan” akan menghasilkan kata “main”.
Stemming adalah alat pemrosesan teks dasar yang sering digunakan
untuk mendapatkan kinerja yang efektif dan efisien pada text
retrieval dan text classification. Namun, seperti halnya stopping, kinerja
stemming juga bervariasi dan sering tergantung pada domain
bahasa yang digunakan.
v Term Weighting
-
Term Frequency & Weighting.
Bobot
token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen. ( term
frequency – tf )
term
frequency dinotasikan dengan tf(t,d), dimana t à token, dan d à dokumen
Salah satu
cara untuk menghitung tf adalah dengan menggunakan tf normalisasi.
-
tf-idf weighting
DOCUMENT FREQUENCY
quency df , defined to be the number of documents in the collection that
contain a term t.
Berikut
adalah pemrosesan korpus dimulai dari Text Processing hingga proses Term
Weighting menggunakan verctor space model.
4 Documen (masing-masing
dokumen ada 4 kalimat)
D1 Bahasa Indonesia berasal dari
bahasa Melayu. Juminten pergi ke pasar. Bersama ibunya juminten pergi ke pasar.
Hari ini ayah mencuci motor.
D2 Bapak memancing ikan. Ikan
dipancing oleh bapak. Aku harus mengerjakan PR. PR harus kukerjakan.
D3 Nina menulis surat untuk bapak. Bapak
tiba besok pagi. Antarkan surat ini ke kantor bapak. Aku menanam 10 pohon
lengkeng di halaman.
D4 Edo rajin belajar. Aku berangkat ke
jakarta besok sore. Belikan aku mobil baru. Malam ini aku harus belajar.
(D1)
D1
|
tokenizatoin
|
case
folding
|
filtering
|
stopword
removal
|
steming
|
Bahasa
|
Bahasa
|
bahasa
|
bahasa
|
bahasa
|
bahasa
|
Indonesia
|
Indonesia
|
indonesia
|
indonesia
|
indonesia
|
indonesia
|
Berasal
|
berasal
|
berasal
|
berasal
|
berasal
|
asal
|
dari
|
dari
|
dari
|
dari
|
|
|
Bahasa
|
bahasa
|
bahasa
|
bahasa
|
bahasa
|
bahasa
|
Melayu.
|
Melayu
|
melayu
|
melayu
|
melayu
|
melayu
|
Juminten
|
Juminten
|
juminten
|
juminten
|
juminten
|
|
Pergi
|
pergi
|
pergi
|
pergi
|
pergi
|
pergi
|
Ke
|
ke
|
ke
|
ke
|
|
|
pasar.
|
pasar
|
pasar
|
pasar
|
pasar
|
pasar
|
Bersama
|
Bersama
|
bersama
|
bersama
|
bersama
|
sama
|
ibunya
|
ibunya
|
ibunya
|
ibunya
|
|
|
juminten
|
juminten
|
juminten
|
juminten
|
|
|
pergi
|
pergi
|
pergi
|
pergi
|
pergi
|
pergi
|
ke
|
ke
|
ke
|
ke
|
|
|
pasar.
|
pasar
|
pasar
|
pasar
|
pasar
|
pasar
|
Hari
|
hari
|
hari
|
hari
|
hari
|
hari
|
ini
|
ini
|
ini
|
ini
|
|
|
ayah
|
ayah
|
ayah
|
ayah
|
|
|
memcuci
|
memcuci
|
memcuci
|
memcuci
|
memcuci
|
cuci
|
motor.
|
motor
|
motor
|
motor
|
motor
|
motor
|
|
|
|
|
|
|
Penjelasan
Ø Tokenization
pada D1 menghilangkan tanda baca, misalnya titik (.) , sehingga pada kalimat D1
setelah dilakukan Tokenization tanda baca itu dihilangkan dst.
Ø Case Folding
pada D1 merubah huruf yang tadinya huruf besar di rubah menjadi huruf kecil.
Misalnya pada kalimat D1 kata (Bahasa) dirubah menjadi (bahasa) dst. Perhatikan
hurufnya!
Ø Filtering artinya menghilangkan angka. Pada kalimat D1
ada bebrapa angka yang
harus di hilangkan sehingga
kalimatnya berubah.
Ø Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak
pada isi document. Contohnya pada kalimat D1 misalnya:dari,nama orang dst. Kata- kata seperti itu di hilangkan.
Ø Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh pada
kalimat D1 misalnya: bersama menjadi sama.
(D2)
D2
|
tokenizatoin
|
case
folding
|
filtering
|
stopword
removal
|
steming
|
Bapak
|
bapak
|
bapak
|
bapak
|
|
|
memancing
|
memancing
|
memancing
|
memancing
|
memancing
|
pancing
|
ikan.
|
ikan
|
ikan
|
ikan
|
ikan
|
ikan
|
Ikan
|
Ikan
|
ikan
|
ikan
|
ikan
|
ikan
|
di
|
di
|
di
|
di
|
|
|
pancing
|
pancing
|
pancing
|
pancing
|
pancing
|
pancing
|
oleh
|
oleh
|
oleh
|
oleh
|
|
|
bapak.
|
bapak
|
bapak
|
bapak
|
bapak
|
|
Aku
|
Aku
|
aku
|
aku
|
|
|
harus
|
Harus
|
harus
|
harus
|
|
|
mengerjakan
|
Mengerjakan
|
mengerjakan
|
mengerjakan
|
mengerjakan
|
kerja
|
PR.
|
PR
|
pr
|
pr
|
Pr
|
pr
|
PR
|
PR
|
pr
|
pr
|
Pr
|
Pr
|
harus
|
harus
|
harus
|
harus
|
|
|
ku
|
ku
|
ku
|
ku
|
|
|
kerjakan.
|
kerjakan
|
kerjakan
|
kerjakan
|
Kerjakan
|
kerja
|
Penjelasan
Ø Tokenization
pada D2 menghilangkan
tanda baca, misalnya titik (.) , sehingga pada kalimat D2 setelah dilakukan Tokenization tanda
baca itu dihilangkan.
Ø Case Folding
pada D2 merubah huruf yang
tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D2 kata (Bapak) dirubah menjadi (bapak)
dst. Perhatikan hurufnya!
Ø Filtering artinya menghilangkan angka.pada D2 tidak ada angka sehingga kalimatnya
tidak berubah.
Ø Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak
pada isi document. Contohnya pada kalimat D2 misalnya: di, aku, bapak dst .
Kata- kata seperti itu di hilangkan.
Ø Stemming proses
pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). pada kalimat D2 misalnya:memancing menjadi
pancing dst.
(D3)
D3
|
tokenizatoin
|
case
folding
|
filtering
|
stopword
removal
|
steming
|
Nina
|
Nina
|
nina
|
nina
|
|
|
menulis
|
Menulis
|
menulis
|
menulis
|
menulis
|
tulis
|
surat
|
Surat
|
surat
|
surat
|
surat
|
surat
|
untuk
|
untuk
|
untuk
|
untuk
|
|
|
bapak.
|
Bapak
|
bapak
|
bapak
|
|
|
Bapak
|
Bapak
|
bapak
|
bapak
|
|
|
tiba
|
Tiba
|
tiba
|
tiba
|
tiba
|
tiba
|
besok
|
Besok
|
besok
|
besok
|
besok
|
besok
|
pagi.
|
Pagi
|
pagi
|
pagi
|
pagi
|
pagi
|
Antarkan
|
Antarkan
|
antarkan
|
antarkan
|
antarkan
|
antar
|
surat
|
surat
|
surat
|
surat
|
surat
|
surat
|
ini
|
Ini
|
ini
|
ini
|
|
|
ke
|
Ke
|
ke
|
ke
|
|
|
kantor
|
kantor
|
kantor
|
kantor
|
kantor
|
kantor
|
bapak.
|
bapak
|
bapak
|
bapak
|
|
|
Aku
|
Aku
|
aku
|
aku
|
|
|
menanam
|
menanam
|
menanam
|
menanam
|
menanam
|
tanam
|
10
|
10
|
10
|
|
|
|
pohon
|
pohon
|
pohon
|
pohon
|
pohon
|
pohon
|
lengkeng
|
lengkeng
|
lengkeng
|
lengkeng
|
lengkeng
|
lengkeng
|
di
|
di
|
di
|
di
|
|
|
halaman.
|
halaman
|
halaman
|
halaman
|
halaman
|
halaman
|
Penjelasan
Ø Tokenization
pada D3 menghilangkan
tanda baca, misalnya titik (.) , sehingga pada kalimat D3 setelah dilakukan Tokenization tanda
baca itu dihilangkan.
Ø Case Folding
pada D3 merubah huruf yang
tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D3 kata (Nina) dirubah menjadi (nina)
dst . Perhatikan
hurufnya!
Ø Filtering artinya menghilangkan angka. Pada kalimat D3 ada angka 10 sehingga kalimatnya
tidak berubah.
Ø Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak
pada isi document. Contohnya pada kalimat D3 misalnya: nina, bapak, aku. Kata- kata seperti itu di hilangkan.
Ø Stemming proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Sebagai contoh pada
kalimat D3 misalnya:
menanam menjadi tanam.
(D4)
D4
|
tokenizatoin
|
case
folding
|
filtering
|
stopword
removal
|
steming
|
Edo
|
Edo
|
edo
|
edo
|
|
|
Rajin
|
rajin
|
rajin
|
rajin
|
rajin
|
rajin
|
belajar.
|
belajar
|
belajar
|
belajar
|
belajar
|
belajar
|
Aku
|
Aku
|
aku
|
aku
|
|
|
berangkat
|
berangkat
|
berangkat
|
berangkat
|
berangkat
|
angkat
|
Ke
|
ke
|
ke
|
ke
|
|
|
jakarta
|
jakarta
|
jakarta
|
jakarta
|
jakarta
|
jakarta
|
besok
|
besok
|
besok
|
besok
|
besok
|
besok
|
sore.
|
sore
|
sore
|
sore
|
sore
|
sore
|
Belikan
|
Belikan
|
belikan
|
belikan
|
belikan
|
beli
|
Aku
|
aku
|
aku
|
aku
|
|
|
mobil
|
mobil
|
mobil
|
mobil
|
mobil
|
mobil
|
baru.
|
baru
|
baru
|
baru
|
baru
|
baru
|
Malam
|
Malam
|
malam
|
malam
|
malam
|
malam
|
Ini
|
ini
|
ini
|
ini
|
|
|
Aku
|
aku
|
aku
|
aku
|
|
|
harus
|
harus
|
harus
|
harus
|
|
|
belajar.
|
belajar
|
belajar
|
belajar
|
belajar
|
belajar
|
Penjelasan
Ø Tokenization
pada D4 menghilangkan
tanda baca, misalnya titik (.) , sehingga pada kalimat D4 setelah dilakukan Tokenization tanda
baca itu dihilangkan.
Ø Case Folding
pada D4 merubah huruf yang
tadinya huruf besar di rubah menjadi huruf kecil. Misalnya pada kalimat D4 kata (Februari) dirubah menjadi (februari), (Saya) dirubah menjadi (saya). Perhatikan hurufnya!
Ø Filtering artinya menghilangkan angka. Pada kalimat D4 ada angka 4, 2012 sehingga kalimatnya berubah.
Ø Stopword Removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak
pada isi document. Contohnya pada kalimat D4 misalnya: saya,di, sangat, dan.
Kata- kata seperti itu di hilangkan.
Ø Stemming
proses
pengembalian suatu kata berimbuhan ke
bentuk dasarnya (stem/root). Sebagai
contoh pada kalimat D4 misalnyaberulang menjadi ulang, mengundang menjadi undang, memesan
menjadi pesan, mengesankan menjadi kesan .
term weighting
|
tf(D1)
|
tf(D2)
|
tf(D3)
|
tf(D4)
|
tfn(D1)
|
tfn(D2)
|
tfn(D3)
|
tfn(D4)
|
Bahasa
|
2
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
Indonesia
|
1
|
0
|
0
|
0
|
0.5
|
0
|
0
|
0
|
Asal
|
1
|
0
|
0
|
0
|
0.5
|
0
|
0
|
0
|
Melayu
|
1
|
0
|
0
|
0
|
0.5
|
0
|
0
|
0
|
Pergi
|
2
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
Pasar
|
2
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
Sama
|
1
|
0
|
0
|
0
|
0.5
|
0
|
0
|
0
|
Hari
|
1
|
0
|
0
|
0
|
0.5
|
0
|
0
|
0
|
Cuci
|
1
|
0
|
0
|
0
|
0.5
|
0
|
0
|
0
|
Motor
|
1
|
0
|
0
|
0
|
0.5
|
0
|
0
|
0
|
ikan
|
2
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
pancing
|
0
|
2
|
0
|
0
|
0
|
1
|
0
|
0
|
kerja
|
0
|
2
|
0
|
0
|
0
|
1
|
0
|
0
|
pr
|
0
|
2
|
0
|
0
|
0
|
1
|
0
|
0
|
tulis
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
surat
|
0
|
0
|
2
|
0
|
0
|
0
|
1
|
0
|
tiba
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
besok
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
pagi
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
antar
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
kantor
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
tanam
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
pohon
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
lengkeng
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
halaman
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
0
|
rajin
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
belajar
|
0
|
0
|
0
|
2
|
0
|
0
|
0
|
1
|
angkat
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
jakarta
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
besok
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
sore
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
beli
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
mobil
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
baru
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
malam
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0.5
|
Penjelasan
Ø
( term frequency – tf )Bobot token
ditentukan dari jumlah kemunculan token tersebut di dalam dokumen.contoh di atas kemunculan token/kata bahasa berada di dalam D1, sehingga pada kolom tf(D1)
pada baris bahasa tertulis 1. Begitu pula
seterusnya pada adanya token/kata yang terdapat pada tf(D2), tf(D3),tf(D4).
Ø
Mencari
(tfn)normalisasi dengan rumus berikut:
Contoh tabel di atas : tfnD1(bahasa) = tf D1(bahasa)
nilai
max yang berada pd colom( tfD1)
= 2 = 1
2
Dan seterusnya perhitungannya
seperti itu untuk (tfnD2),( tfnD3), (tfnD4).
term weighting
|
df
|
idf
|
Score D1
|
Score D2
|
Score D3
|
Score D4
|
Bahasa
|
1
|
0.60206
|
0.60206
|
0
|
0
|
0
|
Indonesia
|
1
|
0.60206
|
0.30103
|
0
|
0
|
0
|
Asal
|
1
|
0.60206
|
0.30103
|
0
|
0
|
0
|
Melayu
|
1
|
0.60206
|
0.30103
|
0
|
0
|
0
|
Pergi
|
1
|
0.60206
|
0.60206
|
0
|
0
|
0
|
Pasar
|
1
|
0.60206
|
0.60206
|
0
|
0
|
0
|
Sama
|
1
|
0.60206
|
0.30103
|
0
|
0
|
0
|
Hari
|
1
|
0.60206
|
0.30103
|
0
|
0
|
0
|
Cuci
|
1
|
0.60206
|
0.30103
|
0
|
0
|
0
|
Motor
|
1
|
0.60206
|
0.30103
|
0
|
0
|
0
|
ikan
|
1
|
0.60206
|
0.60206
|
0
|
0
|
0
|
pancing
|
1
|
0.60206
|
0
|
0.60206
|
0
|
0
|
kerja
|
1
|
0.60206
|
0
|
0.60206
|
0
|
0
|
pr
|
1
|
0.60206
|
0
|
0.60206
|
0
|
0
|
tulis
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
surat
|
1
|
0.60206
|
0
|
0
|
0.60206
|
0
|
tiba
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
besok
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
pagi
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
antar
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
kantor
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
tanam
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
pohon
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
lengkeng
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
halaman
|
1
|
0.60206
|
0
|
0
|
0.30103
|
0
|
rajin
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
belajar
|
1
|
0.60206
|
0
|
0
|
0
|
0.60206
|
angkat
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
jakarta
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
besok
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
sore
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
beli
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
mobil
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
baru
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
malam
|
1
|
0.60206
|
0
|
0
|
0
|
0.30103
|
Ø Mencari df :
Hitung banyaknya keberadaan token pada tiap baris
dari tfD1 sampai tfD4. Contoh:
|
tf(D1)
|
tf(D2)
|
tf(D3)
|
tf(D4)
|
df
|
bahasa
|
2
|
0
|
0
|
0
|
1
|
Ø Menghitung idf:
N : banyaknya dokumen
Idf (bahasa) =Log 4(dokumen
D1,D2, D3,D4) = Log 4/1 = 0,60206
df (bahasa) 1
dan sterusnya pengerjaannya sama.
Ø Mencari nilai score :
Tfn * idf
Contoh score D1 (bahasa) = tfnbahasa* idf
= 1 * 0,60206 = 0,60206
Ø Dan setrusnya......!!!
Query "bahasa , kerja"
|
||
D1 = bahasa + kerja = 0.30103 +
0 = 0.30103
|
||
D2 = bahasa + kerja = 0 +
0.60206 = 0.60206
|
||
D3 = bahasa + kerja = 0 + 0 = 0
|
||
D4 = bahasa + kerja = 0 + 0 = 0
|
Yang hasil score dari query nya berurutan:
D2,D1,D3/D4
D2 Bapak memancing ikan. Ikan
dipancing oleh bapak. Aku harus mengerjakan PR. PR harus kukerjakan.
D1 Bahasa Indonesia berasal dari
bahasa Melayu. Juminten pergi ke pasar. Bersama ibunya juminten pergi ke pasar.
Hari ini ayah mencuci motor.
D3 Nina menulis surat untuk bapak. Bapak
tiba besok pagi. Antarkan surat ini ke kantor bapak. Aku menanam 10 pohon
lengkeng di halaman.
D4 Edo rajin belajar. Aku berangkat ke
jakarta besok sore. Belikan aku mobil baru. Malam ini aku harus belajar.