Penerapan Features Selection Information Gain dan Principal Component Analysis pada Klasifikasi Sentimen Menggunakan Naive Bayes

research
  • 07 Nov
  • 2022

Penerapan Features Selection Information Gain dan Principal Component Analysis pada Klasifikasi Sentimen Menggunakan Naive Bayes

Analisis sentimen ialah proses memahami, mengekstrak dan mengolah data tekstual. Informasi yang dihasilkan dari proses analisis sentimen memiliki pengaruh dan manfaat yang besar, analisis sentimen akan mengklasifikasikan sentimen yang ditulis seseorang apakah positif atau negatif. Tantangan yang dihadapi dalam pengolahan data tekstual ialah data yang dihasilkan tidak terstruktur sehingga banyak data yang bising, multi bahasa, dimensi yang berukuran besar, fitur yang tumpang tindih serta tidak relevan. Model naive bayes dibuat tanpa estimasi parameter iteratif yang rumit yang membuatnya sangat berguna untuk dataset yang sangat besar. Dalam penelitian ini akan diterapkan algortima klasifikasi naive bayes dengan information gain dan principal componenet analysis ( untuk seleksi atribut dan reduksi data. Penelitian ini

diuji coba terhadap dataset ulasan produk , ulasan film dan ulasan

Pengujian dilakukan terhadap dua model yaitu algoritma naive bayes dan naive

bayes dengan information gain dan PCA, validasi dilakukan menggunakan 10 fold

cross validation dan akurasi diukur menggunak a n confusion matrix dan ROC

Curve Hasilnya menunjukan bahwa information gain dan PCA mampu meningkatkan akurasi naive bayes dengan akurasi masing-masing dataset yaitu ulasan produk 99,8% meningkat 24,2%, ulasan film 99,7% meningkat 28,5% dan ulasan restoran 99.5% meningkat 27,7%. Hasil evaluasi menggunakan AUC menunjukan nilai diagnosa excelent classification untuk ulasan produk dengan nilai AUC 0,996, excelent classification untuk ulasan produk dengan nilai AUC 0,999 dan excelent classification untuk ulasan restoran dengan nilai AUC 1. Dapat disimpulkan bahwa penggunaan seleksi fitur information gain dan PCA pada algoritma klasifikasi naive bayes dapat meningkatkan akurasi pada klasifikasi sentimen.

Unduhan

 

REFERENSI

Ahmad, S., Bakar, A. A., & Yaakub, M. R. (2015). Metaheuristic Algorithms for Feature Selection in Sentiment Analysis. Science and Information Conference , 1-6.

Akhtar, M. S., Gupta, D., Ekbal, A., & Bhattacharyya, P. (2017). Feature Selection and Ensemble Construction: A Two-step Method for Aspect Based Sentiment Analysis. Knowledge-Based Systems , 1-39.

Azhagusundar, B., & Thanamani, A. S. (2013). Feature Selection based on Information Gain. International Journal of Innovative Technology and Exploring Engineering , 18-21.

Blazquez, D., & Domenech, J. (2017). Big Data sources and methods for social and economic analyses. Technological Forecasting & Social Change , 1-15.

Buntoro, G. A. (2016). Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di Twitter. Integer Journal , 32-41.

Chianese, A., & Piccialli, F. (2016). A service oriented framework for analysing social network activities. Procedia Computer Science , 509 – 514.

Gao, L., Song, J., Liu, X., Shao, J., Liu, J., & Shao, J. (2017). Learning in High-Dimensional Multimedia Data: The State of The Art. Multimedia Systems , 1-11.

Gusti. (2018, Mei 15). UNIVERSITAS GADJAH MADA. Dipetik Juni 2, 2018, dari UNIVERSITAS GADJAH MADA: https://www.ugm.ac.id/id/news/16211-tahun.politik.akun.buzzer.di.media.sosial.bermunculan

Habernal, I., Ptácˇek, T., & Stein, J. (2015). Reprint of Supervised sentiment analysis in Czech social media. Information Processing and Management , 532–546.

Hamzah, A. (2014). Sentiment Abalysis Untuk Memanfaatkan Saran Kuesioner Dalam Evaluasi Pembelajaran Dengan Menggunakan Naive Bayes Classifier (NBC). Prosiding Seminar Nasional Aplikasi Sains & Teknologi (SNAST), (hal. 17-24). Yogyakarta.

Ibrahim, M., Abdillah, O., & Wicakson, A. F. (2015). Buzzer Detection and Sentiment Analysis for Predicting Presidential Election Results in A Twitter Nation. 2015 IEEE 15th International Conference on Data Mining Workshops (hal. 1348-1353). IEEE Computer Society.

Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: a review and recent developments. Philosophical Transactions , 1-16.

Joyce, B., & Deng, J. (2017). Sentiment Analysis of Tweets for the 2016 US Presidential Election. IEEE , 1-4.

Maas, A. L., Daly, R. E., Pham, P. T., Huang, D., Ng, A. Y., & Potts, C. (2011). LearningWord Vectors for Sentiment Analysis. the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (hal. 142-150 ). Oregon: Association for Computing Machinery.

Manek, A. S., Shenoy, P. D., & Mohan, C. M. (2016). Aspect term extraction for sentiment analysis in large movie reviews using Gini Index feature selection method and SVM classifier. Springer Science , 1-20.

Miranda, A. A., Borgne, Y.-A. L., & Bontempi, G. (2007). New Routes from Minimal Approximation Error to Principal Components. Neural Processing Letter , 1-14.

Morchid, M., Dufour, R., Bousquet, P. M., Linarès, G., & Moreno, J.-M. T. (2014). Feature selection using Principal Component Analysis for massive retweet detection. Pattern Recognition Letters , 33–39. BIBLIOGRAPHY \l 1057

Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up? Sentiment Classi¯cation using Machine Learning Techniques. Empirical Methods in Natural Language Processing (EMNLP) (hal. 79-86). Philadelphia: Association for Computational Linguistics.

Pratiwi, A. I., & Adiwijaya. (2018). On the Feature Selection and Classification Based on Information Gain for Document Sentiment Analysis. Computational Intelligence and Soft Computing , 1-5.

Press, O. U. (2018). English Oxford Living Dictionary. Dipetik Juli 15, 2018, dari Oxford University Press: https://en.oxforddictionaries.com/definition/sentiment_analysis

Pradhan, V. M., Vala, J., & Balani, P. (2016). A Survey on Sentiment Analysis Algorithms for Opinion Mining. International Journal of Computer Applications , 7-11.

Rasywir, E., & Purwarianti, A. (2015). Eksperimen pada Sistem Klasifikasi Berita Hoax Berbahasa Indonesia Berbasis Pembelajaran Mesin. Jurnal Cybermatika , 1-8.

Sahu, T. P., & Ahuja, S. (2016). Sentiment Analysis of Movie Reviews: A study on Feature Selection & Classification Algorithms. IEEE , 1-6.

Sayad, S. (2010). An Introduction to Data Science. Dipetik Juli 15, 2018, dari saedsayad.com: http://www.saedsayad.com/naive_bayesian.htm

Shlens, J. (2014). A Tutorial on Principal Component Analysis. arXiv preprint arXiv , 1-12.

Socrates, I. G., Akbar, A. L., & Akbar, M. S. (2016). Optimasi Naïve Bayes Dengan Pemilihan Fitur Dan Pembobotan Gain Ratio. Lontar Komputer , 22-30.

Soni, A. K. (2017). Multi-Lingual Sentiment Analysis of twitter data by using classification algorithms. IEEE , 1-5.

Utami, L. D., & Wahono, R. S. (2015). Integrasi Metode Information Gain Untuk Seleksi Fitur dan Adaboost Untuk Mengurangi Bias Pada Analisis Sentimen Review Restoran Menggunakan Algoritma Naïve Bayes. Journal of Intelligent Systems , 120-126.

Wawre, S. V., & Deshmukh, S. N. (2016). Sentiment Classification using Machine Learning Techniques. International Journal of Science and Research , 819-821.

Xhafa, F., Bogza, A., & Caballé, S. (2017). Performance Evaluation of Mahout Clustering Algorithms Using