World Wide Web adalah sumber sistem informasi yang luas, yang digunakan dengan menggunakan search engine untuk mencari informasi yang diperlukan. Situs yang muncul di bagian atas halaman hasil dari situs lebih sering dikunjungi. Situs-situs ini umumnya memiliki lebih banyak pengunjung karena memiliki konten yang lebih relevan. Untuk meningkatkan signifikansi suatu situs, optimisasi search engine digunakan oleh berbagai situs untuk meningkatkan peringkat halaman mereka secara legal. Namun, banyak situs menggunakan cara ilegal untuk meningkatkan peringkat halaman mereka dengan teknik Spam Web. Algoritma peringkat halaman dari mesin pencari diperdaya untuk memberikan bobot lebih ke situs yang tidak memiliki manfaat nyata. Hal ini mengakibatkan pengguna kehilangan kepercayaan pada hasil search engine. Dalam penulisan ini, menjelaskan teknik spamming web dan kemudian menyajikan perbandingan teknik data mining untuk mendeteksi Spam Web. Pada percobaan pertama nilai akurasi yang tertinggi yaitu dengan menggunakan algoritma Random Forest menggunakan metode klasifikasi dengan nilai akurasi 92.43% dan nilai ROC sebesar 0.981%. Pada percobaan kedua, nilai akurasi tertinggi menggunakan algoritma yang sama yaitu random forest menggunakan metode klasifikasi dan resemple dengan nilai akurasi sebesar 96.57% dan nilai ROC sebesar 0.996%.
Kata kunci: Algoritma Random Forest, Resample, Web Spam, Klasifikasi
Tesis_Muhammad Faittullah Akbar
Alarifi, A., & Alsaleh, M. (2012). Web Spam : A Study Of The Page Language Effect On The Spam Detection Features. Https://Doi.Org/10.1109/ICMLA.2012.229
Alton, L. (2017). The 7 Most Important Data Mining Techniques.
Andriani, A. (2013). Sistem Pendukung Keputusan Berbasis Decision Tree Dalam Pemberian Beasiswa Studi Kasus : Amik “ Bsi Yogyakarta .” Seminar Nasional Teknologi Informasi Dan Komunikasi 2013 (SENTIKA 2013), 2013(Sentika), 163–168.
Arundthathi, A., Vijayaselvi, M. K. G., & Savithri, V. (2017). Assessment Of Decision Tree Algorithms On Student ’ S Recital. International Research Journal Of Engineering And Technology(IRJET), 4(3), 2342–2348. Retrieved From Https://Irjet.Net/Archives/V4/I3/IRJET-V4I3615.Pdf
Asdaghi, F., & Soleimani, A. (2018). An Effective Feature Selection Method For Web Spam Detection. Knowledge-Based Systems. Https://Doi.Org/10.1016/J.Knosys.2018.12.026
Bifet, A., Frank, E., Holmes, G., & Pfahringer, B. (2011). Ensembles Of Restricted Hoeffding Trees 1. V(212). Https://Doi.Org/10.1145/0000000.0000000
Birant, D. (2011). Comparison Of Decision Tree Algorithms For Predicting Potential Air Pollutant Emissions With Data Mining Models. 17(1), 46–53. Https://Doi.Org/10.3808/Jei.201100186
Brid, R. S. (2018). Decision Trees A Simple Way To Visualize A Decision.
Chapple, M. (2019). The Use Of Classification In Data Mining.
Chen, W., Xie, X., Wang, J., Pradhan, B., Hong, H., & Tien, D. (2017). Catena A Comparative Study Of Logistic Model Tree , Random Forest , And Classi Fi Cation And Regression Tree Models For Spatial Prediction Of Landslide Susceptibility. Catena, 151, 147–160. Https://Doi.Org/10.1016/J.Catena.2016.11.032
Dai, N., Davison, B. D., & Qi, X. (2009). Looking Into The Past To Better Classify Web Spam. 1–8.
Ghani, M. A., & Subekti, A. (2018). Email Spam Filtering Dengan Algoritma Random Forest. 3(2), 216–221.
Jantan, A., Ghanem, W. A. H., & Ghaleb, S. A. A. (2017). USING MODIFIED BAT ALGORITHM TO TRAIN NEURAL. 95(24), 6788–6799.
Lorena, S., Zarman, W., & Hamidah, I. (2014). Analisis Dan Penerapan Algoritma C4.5 Dalam Data Mining Untuk Memprediksi Masa Studi Mahasiswa Berdasarkan Data Nilai Akademik. Prosiding Seminar Nasional Aplikasi Sains Dan Teknologi (SNAST), (November), 263–272. Https://Doi.Org/10.5829/Idosi.Weasj.2015.6.2.22162
Munitasri, I., Santosa, S., & Supriyanto, C. (2018). ALGORITMA NAIVE BAYES DENGAN SELEKSI. 14.
Rachmat, A., & Lukito, Y. (2016). SENTIPOL : DATASET SENTIMEN KOMENTAR PADA KAMPANYE PEMILU PRESIDEN INDONESIA 2014 DARI FACEBOOK PAGE SENTIPOL : DATASET SENTIMEN KOMENTAR PADA KAMPANYE PEMILU PRESIDEN INDONESIA 2014 DARI FACEBOOK PAGE. (December).
Sari, R. (2017). Komparasi Algoritma Support Vector Machine , Naïve. 2(2), 7–13.
Sastrawan, A. S., Studi, P., Informatika, T., Studi, P., Komputasi, I., Sains, F., … Batu, T. B. (2010). ANALISIS PENGARUH METODE COMBINE SAMPLING DALAM. 2010(Semnasif), 14–22.
Saxena, R. (2017). How Decision Tree Algorithm Works.
Wahono, R. S., Supriyanto, C., Komputer, F. I., & Nuswantoro, U. D. (2015). Penanganan Fitur Kontinyu Dengan Feature Discretization Berbasis Expectation Maximization Clustering Untuk Klasifikasi Spam Email Menggunakan Algoritma ID3. 1(2), 148–155.
Wahsheh, H. A., Al-Kabi, M. N., & Alsmadi, I. M. (2013). A Link And Content Hybrid Approach For Arabic Web Spam Detection. (December 2012), 30–43. Https://Doi.Org/10.5815/Ijisa.2013.01.03
Widayu, H., Nasution, S. D., Silalahi, N., & Mesran. (2017). DATA MINING UNTUK MEMPREDIKSI JENIS TRANSAKSI NASABAH PADA KOPERASI SIMPAN PINJAM DENGAN. 1(2), 32–37.
Yunus, M., Dahlan, H. S., & Santoso, P. B. (2014). SPK Pemilihan Calon Pendonor Darah Potensial Dengan Algoritma C4.5 Dan Fuzzy Tahani. Jurnal EECCIS, Vol. 8 No.(1), 47–54.
Zhao, Y., & Zhang, Y. (2008). Comparison Of Decision Tree Methods For Finding Active Objects. Advances In Space Research, 41(12), 1955–1959. Https://Doi.Org/10.1016/J.Asr.2007.07.020