MID PENGANTAR INTELIGENSI BUATAN (PIB)

Newest Post

MID PENGANTAR INTELIGENSI BUATAN (PIB)

// Posted by :Unknown // On :Jumat, 09 Mei 2014

PERANCANGAN ALGORITMA BAYESIAN NETWORK UNTUK MEMFILTER WEBSITE TERLARANG

THE DESIGN OF THE ALGORITHM BAYESIAN NETWORK IN ORDER TO FILTER THE ILLEGAL WEBSITE

Lukman Syafie,Armin Lawi Suarga Bagian Matematika Terapan, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Hasanuddin

ABSTRAK

Perkembangan internet yang sangat pesat dapat berpotensi memberi dampak yang negatif misalnya tersedianya material yang ilegal, berorientasi pornografi, kekerasan, dan sebagainya, sehingga diperlukan adanya sistem filter yang efektif. Penelitian ini bertujuan untuk: (1) membangun algoritma klasifikasi Bayesian Network, (2) merancang simulasi filter content-type teks yang mampu mengklasifikasi website berdasarkan algoritma klasifikasi yang dibuat, dan (3) menganalisis kinerja hasil simulasi algoritma klasifikasi Bayesian Network untuk filter website. Metode penelitian yang digunakan adalah metode eksperimen dengan bentuk penelitian kuantitatif. Klasifikasi dilakukan dengan memperhitungkan peluang kemunculan kata-kata yang tidak terdapat

pada data pelatihan. Hasil penelitian menunjukkan bahwa akurasi hasil klasifikasi dapat ditingkatkan

dengan teknik penambahan nilai peluang dari kata-kata yang tidak terdapat pada data pelatihan.

Kata kunci :Naïve Bayes, Jaringan Bayes, Klasifikasi Web, Algoritma.

PENDAHULUAN

Perkembangan internet yang sangat pesat pada satu sisi menguntungkan dalam

kemudahan memperoleh informasi, di sisi lain dapat berpotensi memberi dampak yang negatif. Dampak negatif misalnya tersedianya material yang ilegal, berorientasi pornografi, kekerasan, dan sebagainya

Untuk mengantisipasi kasus di atas, diperlukan suatu sistem untuk memfilter website. Filter website dapat diimplementasikan pada 2 tempat, yaitu filter pada komputer pengguna (Client-side filters) dan filter pada komputer server (Server-side filters) yang menyediakan akses internet.

Pada tipe filter di komputer pengguna, bentuk filter yang umum digunakan adalah

berbasis alamat URL atau alamat IP. Filter jenis ini didasarkan pada daftar URL atau IP yang dibuat secara manual. Pada tipe filter di komputer server, bentuk filter yang umum digunakan adalah berbasis proxy atau DNS. Filter jenis ini juga didasarkan pada daftar URL atau alamat IP yang dibuat oleh administrator server tersebut.

Karena alasan tersebut, diusulkan suatu sistem filter website pada komputer pengguna (Client-side filters) yang dapat meminimalkan keterlibatan pengguna dalam menganalisis dan mendeteksi website untuk membuat sistem yang user-

friendly.

Beberapa metode telah diajukan untuk menghambat pertumbuhan website terlarang,

Leedkk.(2002) telah mengajukan teknik klasifikasi berdasarkan isi teks yang terdapat pada website menggunakan metode Artificial Neural Networks(ANN). Pop(2006) mengajukan teknik klasifikasi menggunakan Naive Bayesian Filtering,metode ini memanfaatkan teorema probabilitas yaitu teorema Bayes. Selanjutnya Guermazi (2007) mengkombinasikan filter berdasarkan URL dan analisa teks dan struktur dari website. Metode filter yang lain menggunakan Version Space Support Vector Machine(Pasaribudkk.,2010), sedang Urvoydkk. (2008) menggunakan metode analisis kesamaan bentuk HTML.

Dalam tulisan ini, masalah website diperlakukan sebagai masalah klasifikasi yaitu

masalah pengenalan pola. Pengguna hanya perlu memutuskan apakah sebuah website termasuk dalam kategori boleh diakses (whitelist) atau tidak boleh diakses (blacklist). Sistem kemudian akan belajar dari keputusan untuk memilah-milah apakah website berikutnya yang masuk adalah blacklist atau tidak.

Salah satu metode yang dapat digunakan adalah metode Bayesian Network. Metode ini memanfaatkan teorema probabilitas yaitu teorema Bayes

Penelitian ini bertujuan untuk: (1) membangun algoritma klasifikasi Bayesian

Network, (2) merancang simulasi filter content-type teks yang mampu mengklasifikasi website berdasarkan algoritma klasifikasi yang dibuat, dan (3) menganalisis kinerja hasil simulasi algoritma klasifikasi Bayesian Network untuk filter website.

BAHAN DAN METODE

Secara umum desain penelitian yang dilakukan adalah metode eksperimen dengan

bentuk penelitian kuantitatif. Tahapan yang dilakukan adalah membangun algoritma klasifikasi Bayesian Network, merancang simulasi filter content-type teks yang mampu mengklasifikasi website berdasarkan klasifikasi yang dibuat, dan menganalisis kinerja hasil simulasi algoritma klasifikasi Bayesian Network untuk filter website. Variabel atau peubah yang diamati dan diukur dalam penulisan ini adalah halaman website yang dilambangkan dengan atribut wj, yang mewakili website ke-j,kata-kata dalam website dilambangkan dengan kp, yang mewakili kata ke-

p, dan kategori dari website yang dilambangkan dengan ci, yaitu kategori ke-i

Kategori pertama adalah website terlarang yang disebut Spam dilambangkan dengan S, kategori kedua adalah website tidak terlarang yang disebut Ham dilambangkan dengan H

Data yang digunakan dalam penelitian ini adalah sekumpulan halaman website yang akandiklasifikasikan berdasarkan konten atau isi teks. Data penelitian dikumpulkan dari beberapa website yang diperoleh secara online kemudian disimpan sehingga diperoleh file format html. Selain itu, data penelitian diperoleh juga dari dataset penelitian yang dilakukan oleh Laode Sahlan (Sahlan, 2011). Daftar kata-kata umum (stoplist) berjumlah 1.933 kata yang terdiri atas 1.154 kata bahasa Inggris (Lewis. 2000) dan 779 kata bahasa Indonesia (Tala. 2003).

Alat bantu komputasi yang digunakan pada penelitian ini adalahsoftware Delphi 2010 dengan database Sqlite 3.

HASIL

Klasifikasi website membutuhkan jumlah data pelatihan yang cukup besar untuk

mendapatkan akurasi yang tinggi. Data pelatihan merupakan infomasi general yang mewakili suatu kategori tertentu. Akan tetapi jumlah data pelatihan yang besar akan berimplikasi meningkatkan kompleksitas perhitungan, sebaliknya jumlah data pelatihan yang kecil dapat menurunkan tingkat akurasi karena adanya kemungkinan kata-kata yang terdapat pada website uji tidak terdapat pada data pelatihan. Oleh karena itu dilakukan klasifikasi dengan memperhitungkan peluang kemunculan kata-

kata yang tidak terdapat pada data pelatihan.

Proses klasifikasi dilakukan dengan menghitung nilai peluang menggunakan

persamaan:

PEMBAHASAN

Penelitian ini menunjukkan bahwa akurasi hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata yang tidak terdapat pada data pelatihan. Beberapa metode dan algoritma Bayesian Network telah dikaji sebelumnya. Campos (2002) dalam penelitiannya menggunakan prosedur pencarian data dalam suatu jaringan Bayes menggunakan teknik Ant Colony Optimization. Selanjutnya Sanghai dkk. (2003) mengusulkan model Dynamic Probabilistic Relational Models(DPRMs), yang memungkinkan penalaran dengan kelas, dan

objek dalam lingkungan yang dinamis.Metode yang lain menggunakan teknik Linear Progrraming (LP) untuk mencari nilai tertinggi suatu struktur Bayesian Network diajukan oleh Jaakkola (2010)

Klasifikasi menggunakan Teorema Bayes ini membutuhkan biaya komputasi yang mahal, karena kebutuhan untuk menghitung nilai probabilitas nilai dari perkalian kartesius untuk tiap nilai atribut dan tiap nilai kelas. Data pelatihan untuk Teorema Bayes membutuhkan paling tidak perkalian kartesius dari seluruh kelompok atribut yang mungkin.Misalkan terdapat16 atribut dengan jenis data masing-masing adalah

Boolean tanpa missing value, maka data pelatihan minimal yang dibutuhkan oleh Teorema Bayes untuk digunakan dalam klasifikasi adalah 216= 65.536 (Shadiq,2009). Sehingga masalah utama yang dihadapi untuk menggunakan teorema Bayes dalam pengklasifikasian yaitu kebanyakan data latih tidak memiliki varian klasifikasi sebanyak itu,akibatnya jika suatu data pengujian tidak ada dalam data pelatihan,maka data pengujian tersebut tidak dapat diklasifikasikan

Pada penelitian sebelumnya yang dilakukan oleh Sahlan (2011), klasifikasi menggunakan Naïve Bayesian menghasilkan tingkat akurasi yang kurang akurat akibat jumlah data pelatihan yang sedikit. Atas dasar itu, diajukan teknik penambahan nilai peluang dari kata-kata pada website pengujian yang tidak terdapat pada data pelatihan. Teknik ini diharapkan dapat menjadi solusi masalah klasifikasi dengan varian data pelatihan yang terbatas.

Berdasarkan pengujian, nilai akurasi dari keseluruhan pengujian cenderung meningkat. Meskipun terdapat kasus penurunan tingkat akurasi pada saat tertentu, hal ini disebabkan oleh karena jumlah data pelatihan yang masih kecil. Dari keseluruhan pengujian, tingkat akurasi cenderung naik seiring dengan penambahan jumlah data pelatihan tersebut.

Nilai False Negatif dari keseluruhan pengujian cenderung turun seiring dengan penambahan jumlah data pelatihan, hal ini disebabkan karena adanya penambahan data pelatihan yang merupakan infomasi general yang mewakili suatu kategori.

Nilai False Positif turun secara drastis seiring dengan penambahan jumlah data

pelatihan. Ini berarti informasi umum dari data pelatihan untuk website kategori Ham sudah mampu mewakili kategori tersebut.Nilai False Positif lebih cepat stabil dibandingkan nilai False Negatif, meskipun jumlah frekuensi kata dari data pelatihan untuk website kategori Ham lebih kecil dibandingkan kategori Spam. Ini berarti banyak website yang seharusnya termasuk dalam kategori Spam akan tetapi menggunakan kata-kata yang umum digunakan dalam website kategori Ham sehingga informasi data pelatihan untuk website kategori Spam menjadi bias.

KESIMPULAN DAN SARAN

Jumlah data pelatihan berpengaruh secara signifikan terhadap hasil proses klasifikasi.Tingkat akurasi hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata website uji yang tidak terdapat pada data pelatihan.Penambahan bentuk logaritma natural pada perhitungan awal prior probabilitymampu mengklasifikasi website jika jumlah kata dalam data pelatihan bernilai besar sementara frekuensi kemunculan setiap kata bernilai kecil.

Banyak website kategori Spam yang menggunakan kata-kata yang umum digunakan

dalam website kategori Ham, sehingga dapat melewati sistem filter website berbasis content-text yang ada.

Untuk kelanjutan penelitian ini, disarankan dilakukan penelitian lebih lanjut dengan

data pelatihan yang lebih besar dan memiliki informasi yang akurat, yang dapat

mewakili suatu kelas tertentu, dilakukan analisis terhadap content-type yang lain dari website, serta mengkombinasikan sistem filter Bayesian Network dengan sistem filter yang lain sehingga tingkat akurasi dapat lebih tinggi.

DAFTAR PUSTAKA

Campos, Luis M. de., dkk. (2002). Ant Colony Optimization for Learning Bayesian Networks. International Journal of Approximate Reasoning 31 (2002) 291–311 Guermazi, Radhouane, dkk. (2007).

Combining Classifiers for Web Violent Content Detection and Filtering. ICCS 2007, Part III, LNCS 4489, pp. 773–78.Jaakkola, Tommi, dkk. (2010).

Learning Bayesian Network Structure using LP Relaxations.

Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS). Chia Laguna Resort,Sardinia, Italy.Volume 9 of JMLR: W&CP9.Lee, Pui Y., dkk. (2002).

Neural Networks for Web Content Filtering. Nanyang Technological University. Jurnal IEEE Intelligent Systems. Lewis. David D. (2000). Stop word list of the Smart Information Retrieval Project. http://jmlr.org/papers/volume5/lewis04a/a11-smart-stop-list/english.stop.

Diakses tanggal 30 Januari 2013 02:40Pasaribu, Hiskia E., dkk. (2010).

Klasifikasi Dokumen Web Menggunakan Version Space Support Vector Machine. Fakultas Informatika Institut Teknologi Telkom, Bandung. Konferensi Nasional Sistem dan Informatika (2010). KNS I10-059Pop, Ioan. (2006). An approach of the Naive Bayes classifier for the document classification. General Mathematics Vol. 14, No. 4 (2006), 135–138.Sahlan, La Ode. (2011).

Penerapan Metode Naive Bayesian Dalam Pengklasifikasian Dokumen Web.

Makassar. Skripsi, Jurusan Matematika Universitas Hasanuddin.Sanghai, Sumit.,dkk. (2003). Dynamic probabilistic relational models. In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence, pp. 992.1002, Shadiq, Muh. Ammar. (2009).

Keoptimalan Naïve Bayes dalam Klasifikasi.

Program Studi Ilmu Komputer Fakultas Pendidikan Matematika Dan Ilmu Pengetahuan Alam Universitas Pendidikan Indonesia.

Tala, Fadillah Z. (2003).

A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Master of Logic Project, Institute for Logic,Language and Computation, Universiteit van Amsterdam, Netherlands. Urvoy, Tangui, dkk. (2008).

Tracking Web Spam with HTML Style Similarities. ACM Journal Name, Vol. V, No. N, Month 2006, Pages 1–26.

ini adalah linknya:

http://pasca.unhas.ac.id/jurnal/files/0d3aa209118387e9dc6bd7eda474f817.pdf

Tugas kali Ini merupakan MID semester Pengantar Intelegensi Buatan tentang Teori Jurnal Bayes beserta contohnya..

Jurnal yang saya ambil ini adalah Perancangan Algoritma Bayesian Network Untuk memfilter website terlarang .

Jurnal ini sangat berguna agar diterapkan pada sistem untuk memfilter website dari situs-situs pornografi, kekerasan dan sebagainya. Sehingga fitur-fitur website lebih baik dari pada hal-hal seperti itu.dan anak-anak yang belum cukup umur bisa menggunakan fitur internet ini untuk belajar sehingga jauh dari hal-hal buruk.
Desain penelitian ini menggunakan metode experimen kuantitatif datanya menggunakan kumpulan website yang akan diklasifikasikan berdasarkan konten dan isi teks. Hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata yang tidak dapat dari penelitian. Berdasarkan pengujian nilai akurasinya meningkat tinggi jadi menurut saya musti ditambahkan lagi penelitian tentang ini.

ini menurut saya sekian dan terima kasih..^_^