Newest Post
// Posted by :Unknown
// On :Jumat, 09 Mei 2014
PERANCANGAN ALGORITMA BAYESIAN
NETWORK UNTUK MEMFILTER WEBSITE TERLARANG
THE DESIGN OF THE ALGORITHM BAYESIAN
NETWORK IN ORDER TO FILTER THE ILLEGAL WEBSITE
Lukman
Syafie,Armin Lawi Suarga Bagian Matematika Terapan, Fakultas Matematika dan
Ilmu Pengetahuan Alam, Universitas Hasanuddin
ABSTRAK
Perkembangan
internet yang sangat pesat dapat berpotensi memberi dampak yang negatif
misalnya tersedianya material yang ilegal, berorientasi pornografi, kekerasan,
dan sebagainya, sehingga diperlukan adanya sistem filter yang efektif. Penelitian
ini bertujuan untuk: (1) membangun algoritma klasifikasi Bayesian Network, (2) merancang
simulasi filter content-type teks yang mampu mengklasifikasi website
berdasarkan algoritma klasifikasi yang dibuat, dan (3) menganalisis kinerja hasil
simulasi algoritma klasifikasi Bayesian Network untuk filter website. Metode
penelitian yang digunakan adalah metode eksperimen dengan bentuk penelitian kuantitatif.
Klasifikasi dilakukan dengan memperhitungkan peluang kemunculan kata-kata yang
tidak terdapat
pada data
pelatihan. Hasil penelitian menunjukkan bahwa akurasi hasil klasifikasi dapat
ditingkatkan
dengan teknik
penambahan nilai peluang dari kata-kata yang tidak terdapat pada data pelatihan.
Kata kunci :Naïve
Bayes, Jaringan Bayes, Klasifikasi Web, Algoritma.
PENDAHULUAN
Perkembangan
internet yang sangat pesat pada satu sisi menguntungkan dalam
kemudahan
memperoleh informasi, di sisi lain dapat berpotensi memberi dampak yang negatif.
Dampak negatif misalnya tersedianya material yang ilegal, berorientasi pornografi,
kekerasan, dan sebagainya
Untuk
mengantisipasi kasus di atas, diperlukan suatu sistem untuk memfilter website. Filter
website dapat diimplementasikan pada 2 tempat, yaitu filter pada komputer
pengguna (Client-side filters) dan filter pada komputer server (Server-side filters)
yang menyediakan akses internet.
Pada tipe
filter di komputer pengguna, bentuk filter yang umum digunakan adalah
berbasis
alamat URL atau alamat IP. Filter jenis ini didasarkan pada daftar URL atau IP
yang dibuat secara manual. Pada tipe filter di komputer server, bentuk filter
yang umum digunakan adalah berbasis proxy atau DNS. Filter jenis ini juga
didasarkan pada daftar URL atau alamat IP yang dibuat oleh administrator server
tersebut.
Karena
alasan tersebut, diusulkan suatu sistem filter website pada komputer pengguna (Client-side
filters) yang dapat meminimalkan keterlibatan pengguna dalam menganalisis dan mendeteksi
website untuk membuat sistem yang user-
friendly.
Beberapa
metode telah diajukan untuk menghambat pertumbuhan website terlarang,
Leedkk.(2002)
telah mengajukan teknik klasifikasi berdasarkan isi teks yang terdapat pada website
menggunakan metode Artificial Neural Networks(ANN). Pop(2006) mengajukan teknik
klasifikasi menggunakan Naive Bayesian Filtering,metode ini memanfaatkan
teorema probabilitas yaitu teorema Bayes. Selanjutnya Guermazi (2007)
mengkombinasikan filter berdasarkan URL dan analisa teks dan struktur dari website.
Metode filter yang lain menggunakan Version Space Support Vector Machine(Pasaribudkk.,2010),
sedang Urvoydkk. (2008) menggunakan metode analisis kesamaan bentuk HTML.
Dalam
tulisan ini, masalah website diperlakukan sebagai masalah klasifikasi yaitu
masalah
pengenalan pola. Pengguna hanya perlu memutuskan apakah sebuah website termasuk
dalam kategori boleh diakses (whitelist) atau tidak boleh diakses (blacklist).
Sistem kemudian akan belajar dari keputusan untuk memilah-milah apakah website
berikutnya yang masuk adalah blacklist atau tidak.
Salah satu
metode yang dapat digunakan adalah metode Bayesian Network. Metode ini
memanfaatkan teorema probabilitas yaitu teorema Bayes
Penelitian
ini bertujuan untuk: (1) membangun algoritma klasifikasi Bayesian
Network, (2) merancang simulasi
filter content-type teks yang mampu mengklasifikasi website berdasarkan
algoritma klasifikasi yang dibuat, dan (3) menganalisis kinerja hasil simulasi
algoritma klasifikasi Bayesian Network untuk filter website.
BAHAN DAN METODE
Secara umum
desain penelitian yang dilakukan adalah metode eksperimen dengan
bentuk
penelitian kuantitatif. Tahapan yang dilakukan adalah membangun algoritma klasifikasi
Bayesian Network, merancang simulasi filter content-type teks yang mampu mengklasifikasi
website berdasarkan klasifikasi yang dibuat, dan menganalisis kinerja hasil simulasi
algoritma klasifikasi Bayesian Network untuk filter website. Variabel atau
peubah yang diamati dan diukur dalam penulisan ini adalah halaman website yang
dilambangkan dengan atribut wj, yang mewakili website ke-j,kata-kata dalam
website dilambangkan dengan kp, yang mewakili kata ke-
p, dan
kategori dari website yang dilambangkan dengan ci, yaitu kategori ke-i
Kategori
pertama adalah website terlarang yang disebut Spam dilambangkan dengan S,
kategori kedua adalah website tidak terlarang yang disebut Ham dilambangkan dengan
H
Data yang
digunakan dalam penelitian ini adalah sekumpulan halaman website yang akandiklasifikasikan
berdasarkan konten atau isi teks. Data penelitian dikumpulkan dari beberapa
website yang diperoleh secara online kemudian disimpan sehingga diperoleh file format
html. Selain itu, data penelitian diperoleh juga dari dataset penelitian yang
dilakukan oleh Laode Sahlan (Sahlan, 2011). Daftar kata-kata umum (stoplist)
berjumlah 1.933 kata yang terdiri atas 1.154 kata bahasa Inggris (Lewis. 2000)
dan 779 kata bahasa Indonesia (Tala. 2003).
Alat bantu
komputasi yang digunakan pada penelitian ini adalahsoftware Delphi 2010 dengan
database Sqlite 3.
HASIL
Klasifikasi website
membutuhkan jumlah data pelatihan yang cukup besar untuk
mendapatkan
akurasi yang tinggi. Data pelatihan merupakan infomasi general yang mewakili suatu
kategori tertentu. Akan tetapi jumlah data pelatihan yang besar akan berimplikasi
meningkatkan kompleksitas perhitungan, sebaliknya jumlah data pelatihan yang
kecil dapat menurunkan tingkat akurasi karena adanya kemungkinan kata-kata yang
terdapat pada website uji tidak terdapat pada data pelatihan. Oleh karena itu dilakukan
klasifikasi dengan memperhitungkan peluang kemunculan kata-
kata yang
tidak terdapat pada data pelatihan.
Proses
klasifikasi dilakukan dengan menghitung nilai peluang menggunakan
persamaan:
.
.
PEMBAHASAN
Penelitian
ini menunjukkan bahwa akurasi hasil klasifikasi dapat ditingkatkan dengan teknik
penambahan nilai peluang dari kata-kata yang tidak terdapat pada data pelatihan.
Beberapa metode dan algoritma Bayesian Network telah dikaji sebelumnya. Campos (2002)
dalam penelitiannya menggunakan prosedur pencarian data dalam suatu jaringan Bayes
menggunakan teknik Ant Colony Optimization. Selanjutnya Sanghai dkk. (2003) mengusulkan
model Dynamic Probabilistic Relational Models(DPRMs), yang memungkinkan
penalaran dengan kelas, dan
objek dalam
lingkungan yang dinamis.Metode yang lain menggunakan teknik Linear Progrraming (LP)
untuk mencari nilai tertinggi suatu struktur Bayesian Network diajukan oleh Jaakkola
(2010)
Klasifikasi menggunakan
Teorema Bayes ini membutuhkan biaya komputasi yang mahal, karena kebutuhan
untuk menghitung nilai probabilitas nilai dari perkalian kartesius untuk tiap
nilai atribut dan tiap nilai kelas. Data pelatihan untuk Teorema Bayes membutuhkan
paling tidak perkalian kartesius dari seluruh kelompok atribut yang mungkin.Misalkan
terdapat16 atribut dengan jenis data masing-masing adalah
Boolean
tanpa missing value, maka data pelatihan minimal yang dibutuhkan oleh Teorema
Bayes untuk digunakan dalam klasifikasi adalah 216= 65.536 (Shadiq,2009). Sehingga
masalah utama yang dihadapi untuk menggunakan teorema Bayes dalam
pengklasifikasian yaitu kebanyakan data latih tidak memiliki varian klasifikasi
sebanyak itu,akibatnya jika suatu data pengujian tidak ada dalam data pelatihan,maka
data pengujian tersebut tidak dapat
diklasifikasikan
Pada
penelitian sebelumnya yang dilakukan oleh Sahlan (2011), klasifikasi menggunakan
Naïve Bayesian menghasilkan tingkat akurasi yang kurang akurat akibat jumlah data pelatihan yang sedikit. Atas dasar
itu, diajukan teknik penambahan nilai peluang dari kata-kata pada website
pengujian yang tidak terdapat pada data pelatihan. Teknik ini diharapkan dapat
menjadi solusi masalah klasifikasi dengan varian data pelatihan yang terbatas.
Berdasarkan
pengujian, nilai akurasi dari keseluruhan pengujian cenderung meningkat.
Meskipun terdapat kasus penurunan tingkat akurasi pada saat tertentu, hal ini disebabkan
oleh karena jumlah data pelatihan yang masih kecil. Dari keseluruhan pengujian,
tingkat akurasi cenderung naik seiring dengan penambahan jumlah data pelatihan
tersebut.
Nilai False
Negatif dari keseluruhan pengujian cenderung turun seiring dengan penambahan
jumlah data pelatihan, hal ini disebabkan karena adanya penambahan data pelatihan
yang merupakan infomasi general yang mewakili suatu kategori.
Nilai False
Positif turun secara drastis seiring dengan penambahan jumlah data
pelatihan.
Ini berarti informasi umum dari data pelatihan untuk website kategori Ham sudah
mampu mewakili kategori tersebut.Nilai False Positif lebih cepat stabil dibandingkan
nilai False Negatif, meskipun jumlah frekuensi kata dari data pelatihan untuk
website kategori Ham lebih kecil dibandingkan kategori Spam. Ini berarti banyak
website yang seharusnya termasuk dalam kategori Spam akan tetapi menggunakan
kata-kata yang umum digunakan dalam website kategori Ham sehingga informasi
data pelatihan untuk website kategori Spam menjadi bias.
KESIMPULAN DAN SARAN
Jumlah data
pelatihan berpengaruh secara signifikan terhadap hasil proses klasifikasi.Tingkat
akurasi hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai
peluang dari kata-kata website uji yang tidak terdapat pada data pelatihan.Penambahan
bentuk logaritma natural pada perhitungan awal prior probabilitymampu mengklasifikasi
website jika jumlah kata dalam data pelatihan bernilai besar sementara frekuensi
kemunculan setiap kata bernilai kecil.
Banyak
website kategori Spam yang menggunakan kata-kata yang umum digunakan
dalam
website kategori Ham, sehingga dapat melewati sistem filter website berbasis
content-text yang ada.
Untuk
kelanjutan penelitian ini, disarankan dilakukan penelitian lebih lanjut dengan
data
pelatihan yang lebih besar dan memiliki informasi yang akurat, yang dapat
mewakili suatu
kelas tertentu, dilakukan analisis terhadap content-type yang lain dari website,
serta mengkombinasikan sistem filter Bayesian Network dengan sistem filter yang
lain sehingga tingkat akurasi dapat lebih tinggi.
DAFTAR PUSTAKA
Campos, Luis
M. de., dkk. (2002). Ant Colony Optimization for Learning Bayesian Networks. International
Journal of Approximate Reasoning 31 (2002) 291–311 Guermazi, Radhouane, dkk. (2007).
Combining
Classifiers for Web Violent Content Detection and Filtering. ICCS 2007, Part
III, LNCS 4489, pp. 773–78.Jaakkola, Tommi, dkk. (2010).
Learning
Bayesian Network Structure using LP Relaxations.
Proceedings
of the 13th International Conference on Artificial Intelligence and Statistics
(AISTATS). Chia Laguna Resort,Sardinia, Italy.Volume 9 of JMLR: W&CP9.Lee,
Pui Y., dkk. (2002).
Neural
Networks for Web Content Filtering. Nanyang Technological University. Jurnal IEEE
Intelligent Systems. Lewis. David D. (2000). Stop word list of the Smart Information
Retrieval Project. http://jmlr.org/papers/volume5/lewis04a/a11-smart-stop-list/english.stop.
Diakses tanggal
30 Januari 2013 02:40Pasaribu, Hiskia E., dkk. (2010).
Klasifikasi
Dokumen Web Menggunakan Version Space Support Vector Machine. Fakultas
Informatika Institut Teknologi Telkom, Bandung. Konferensi Nasional Sistem dan
Informatika (2010). KNS I10-059Pop, Ioan. (2006). An approach of the Naive
Bayes classifier for the document classification. General Mathematics Vol. 14, No.
4 (2006), 135–138.Sahlan, La Ode. (2011).
Penerapan
Metode Naive Bayesian Dalam Pengklasifikasian Dokumen Web.
Makassar. Skripsi,
Jurusan Matematika Universitas Hasanuddin.Sanghai, Sumit.,dkk. (2003). Dynamic
probabilistic relational models. In Proceedings of the Eighteenth International
Joint Conference on Artificial Intelligence, pp. 992.1002, Shadiq, Muh. Ammar. (2009).
Keoptimalan
Naïve Bayes dalam Klasifikasi.
Program Studi
Ilmu Komputer Fakultas Pendidikan Matematika Dan Ilmu Pengetahuan Alam Universitas
Pendidikan Indonesia.
Tala,
Fadillah Z. (2003).
A Study of
Stemming Effects on Information Retrieval in Bahasa Indonesia. Master of Logic
Project, Institute for Logic,Language and Computation, Universiteit van Amsterdam, Netherlands. Urvoy,
Tangui, dkk. (2008).
Tracking Web
Spam with HTML Style Similarities. ACM Journal Name, Vol. V, No. N, Month 2006,
Pages 1–26.
ini adalah linknya:
http://pasca.unhas.ac.id/jurnal/files/0d3aa209118387e9dc6bd7eda474f817.pdf
Tugas kali Ini merupakan MID semester Pengantar Intelegensi Buatan tentang Teori Jurnal Bayes beserta contohnya..
Jurnal yang saya ambil ini adalah Perancangan Algoritma Bayesian Network Untuk memfilter website terlarang .
Jurnal ini sangat berguna agar diterapkan pada sistem untuk memfilter website dari situs-situs pornografi, kekerasan dan sebagainya. Sehingga fitur-fitur website lebih baik dari pada hal-hal seperti itu.dan anak-anak yang belum cukup umur bisa menggunakan fitur internet ini untuk belajar sehingga jauh dari hal-hal buruk.
Desain penelitian ini menggunakan metode experimen kuantitatif datanya menggunakan kumpulan website yang akan diklasifikasikan berdasarkan konten dan isi teks. Hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata yang tidak dapat dari penelitian. Berdasarkan pengujian nilai akurasinya meningkat tinggi jadi menurut saya musti ditambahkan lagi penelitian tentang ini.
Desain penelitian ini menggunakan metode experimen kuantitatif datanya menggunakan kumpulan website yang akan diklasifikasikan berdasarkan konten dan isi teks. Hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata yang tidak dapat dari penelitian. Berdasarkan pengujian nilai akurasinya meningkat tinggi jadi menurut saya musti ditambahkan lagi penelitian tentang ini.
ini menurut saya sekian dan terima kasih..^_^
.
.



