STUDI INDEPENDEN BERSERTIFIKAT DI HACKTIV8 PREDIKSI JENIS KELAMIN BERDASARKAN NAMA ORANG INDONESIA MENGGUNAKAN ALGORITMA MULTINOMIAL NAIVE BAYES

research
  • 24 Oct
  • 2024

STUDI INDEPENDEN BERSERTIFIKAT DI HACKTIV8 PREDIKSI JENIS KELAMIN BERDASARKAN NAMA ORANG INDONESIA MENGGUNAKAN ALGORITMA MULTINOMIAL NAIVE BAYES

Banyak kumpulan data tidak memiliki bidang penting, seperti jenis kelamin, yang dapat membatasi kemampuan untuk menghasilkan wawasan analitis. Penulis membahas tantangan yang ditimbulkan oleh tidak adanya informasi jenis kelamin pada dataset dengan mengusulkan model machine learning dengan metode Multinomial naïve bayes untuk memprediksi jenis kelamin berdasarkan nama orang indonesia, Multinomial naïve bayes adalah salah satu algoritma machine learning untuk memproses klasifikasi teks dengan menggunakan nilai peluang suatu kategori dalam suatu dokumen. Data yang digunakan pada penelitian ini adalah data nama orang indonesia berjumlah 2062 data. Pengujian menggunakan 380 dataset pada Model machine learning dengan algoritma Multinomial naïve bayes menghasilkan Model machine learning dengan akurasi senilai 88.42% yang mana model tersebut didukung dengan tahapan data preprocessing, Diantaranya case folding, dan cleaning. Dapat diambil kesimpulan bahwa algoritma multinomial naive bayes dapat digunakan untuk klasifikasi jenis kelamin berdasarkan nama orang indonesia dengan akurasi yang cukup baik, Sehingga model machine learning mampu untuk melabeli data jenis kelamin dengan parameter nama orang indonesia.

Unduhan

 

  • cover.pdf

    cover

    •   diunduh 13x | Ukuran 141,990

REFERENSI

Ajinkya Jadhav, Antriksh Pandita, Ashok Pawar, Vijay Singh. (2016). Classification  of UnstructuredData using Naïve Bayes Classifier and Predictive Analysis for           RTI Application. ABHIYANTRIKI, An International Journal of Engineering  &Technology, Vol.3 No.6, Hlm 1–6.

Ari, N., & Ustazhanov, M. (2014). Matplotlib in python. 2014 11th International   Conference on Electronics, Computer and Computation (ICECCO), 1-6.

Alloghani, M., Al-Jumeily, D., Mustafina, J., Hussain, A., & Aljaaf, A. (2019). A         Systematic Review on Supervised and Unsupervised Machine Learning      Algorithms for Data Science. Unsupervised and Semi-Supervised Learning.

Dan Jurafsky, James H. Martin (2019). Speech and Language Processing. Chapter 4

Ekaba Bisong (2019). Building Machine Learning and Deep Learning Models on       Google Cloud Platform. Berkeley, Canada : Apress.

García, S., Luengo, J., & Herrera, F. (2015). Data preprocessing in data mining (Vol. 72, pp. 59-139). Cham, Switzerland: Springer International Publishing.

Wisudawati, Adiwijaya, S. Al Farabi (2017). Sentiment Classification Movie Review Using Multinomial Naïve Bayes Method. Vol. 4, no. 2, pp. 2978 2988.

Jordan, M., & Mitchell, T. (2015). Machine learning: Trends, perspectives, and        prospects. Science, 349, 255 - 260.

Han, J., Kamber, M., & Pei, J. (2011). Data Mining. Concepts and Techniques, 3rd            Edition (The Morgan Kaufmann Series in Data Management Systems).

K. Sahoo, A. K. Samal, J. Pramanik, S. K. Pani (2019). Exploratory Data Analysis using Python. ISSN: 2278-3075, Volume-8, Issue-12.

Oliphant, T. E. (2007). Python for Scientific Computing. Computing in Science &
Engineering, 9 (3), 10–20.

Pilcher, J. (2017). Names and “Doing Gender”: How Forenames and Surnames Contribute to Gender Identities, Difference, and Inequalities. Sex Roles, 77, 812 - 822.

Salla Ruuska, Wilhelmiina Hämäläinen, Sari Kajava, Mikaela Mughal, Pekka Matilainen, Jaakko Mononen (2019). Evaluation of the confusion matrix method in the validation of an automated system for measuring feeding behaviour of cattle. Behavioural Processes, Volume 148, 2018, Pages 56-62, ISSN 0376-6357

Umar Al Faruqi (2019). Survey Paper : Future Service in Industry 5.0. Jurnal Sistem Cerdas 2019 Volume 02 No 01 ISSN : 2622-8254 Hal : 67-79

Vicky Dasta (2017). Indonesian Name Gender Dataset. Diperoleh dari            https://github.com/vck/indonesian-name-gender-dataset.