Metoda Random Over-Under Sampling Random Forest Untuk Klasifikasi Penilaian Kredit

research
  • 30 Sep
  • 2022

Metoda Random Over-Under Sampling Random Forest Untuk Klasifikasi Penilaian Kredit

Penilaian kredit telah menjadi salah satu cara utama bagi sebuah lembaga keuangan untuk menilai resiko kredit,  meningkatkan arus kas, mengurangi kemungkinan resiko dan membuat keputusan manajerial. Salah satu permasalahan yang dihadapai pada penilaian kredit yaitu adanya ketidakseimbangan distribusi dataset. Metode untuk mengatasi ketidakseimbangan kelas yaitu dengan metode resampling, seperti menggunakan oversampling, undersampling dan hibrida yaitu dengan menggabungkan kedua pendekatan sampling. Metode yang diusulkan pada penelitian ini adalah penerapan metode Random Over-Under Sampling (ROUS) Random Forest untuk meningkatkan kinerja akurasi klasifikasi penilaian kredit pada dataset German Credit.  Hasil pengujian menunjukan bahwa klasifikasi tanpa melalui proses resampling menghasilkan kinerja akurasi rata-rata 70 % pada semua classifier. Metode Random Forest memiliki nilai akurasi yang lebih baik dibandingkan dengan beberapa metode lainnya dengan nilai akurasi sebesar 0,76 atau 76%. Sedangkan klasifikasi dengan penerapan metode Random Over-under sampling+Random Forest  dapat meningkatkan kinerja akurasi sebesar 14,1% dengan nilai akurasi sebesar 0,901 atau 90,1 %. Hasil penelitian menunjukan bahwa penerapan  resampling dengan metode Random Over-Under Sampling pada algoritma Random Forest dapat meningkatkan kinerja akurasi secara efektif pada klasifikasi  tidak seimbang untuk penilaian kredit pada dataset German Credit.


Unduhan

 

REFERENSI

Aci, M, Avci, M.2011. K nearest neighbor reinforced expectation maximization method. Expert Systems with Applications 38 12585-12591.

Agrawal, K., et all. (2017, Februari). A Comparison of Class Imbalance Techniques for Real-World Landslide  Predictions. International Conference on Machine learning and Data Science. IEEE. DOI 10.1109/MLDS.2017.21.

Asiyah dan Fithriasari (2016). Klasifikasi Berita Online Menggunakan Metode Support Vector Machine dan K-Nearest Neighbor. Jurnal Sains dan Seni ITS. Vol. 5 No.2:2337-3520.

Dawson, C. W. (2009). Projects in Computing and Information Systems A Student’s Guide (2nd ed.). Pearson Education Limited.

Dean, J. 2014. Big Data, Data Mining And Machine Learning. New Jersey. SAS Institute.

Han, J., Kamber, M., Pei, J. (2012). Data Minning Concept And Techniques. California: Morgan Kaufmann.

He, H., Zhang, W., Zhang, S. (2018). A novel ensemble method for credit scoring: adaption of different imbalance ratios. Expert Systems With Applications,  doi:10.1016/j.eswa.2018. 01.012.

Jian C., Gao J., Ao Y. (2016). A New Sampling Method for Classifying Imbalanced Data Based on Support Vector Machine Ensemble. Neurocomputing, http://dx.doi.org/10.1016/j.neucom.2016.02.006.

Koutanaei F , Sajedi h, Khanbabaei M. (2015). A hybrid data mining model of feature selection algorithms and ensemble learning classifiers for credit scoring. Journal of Retailing and Consumer Services, 27,11-23.

Lin L , Wang F , Xie X. (2017). Random forests-based extreme learning machine ensemble for multi-regime time series prediction. Expert Systems With Applications. doi:10.1016/j.eswa.2017.04.013.

Maimon, O., & Rokach, L. (2010). Data Mining and Knowledge Discovery Handbook Second Edition. New York: Springer.

Netti, K, Radika,Y.(2015, Juni). A Novel Method for Minimizing Loss of Accuracy in Naive Bayes Classifier.2015 IEEE International Conference on Computational Intelligence and Computing Research

Olson, D. L., & Delen, D. (2008). Advanced Data Mining Techniques. Berlin: Springer.

Prabowo, Sigit. (2013). Data Minig-Tahap Tahapan Knowledge Discovery In Database (KDD). Juli 10, 2018.http://www.sigitprabowo.id/2013/04/data-mining-tahap-tahapan-knowladge.html

Pratama,et.al (2018). Implementasi Algoritme Support Vector Machine (SVM) untuk Prediksi Ketepatan Waktu Kelulusan Mahasiswa. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer. Vol. 2 No. 4: 1704-1708.

Qian,Y., Liang,Y., Li,M., Feng, G., Shi, X. (2014). A resampling ensemble algorithm for classification of imbalance problems. Neurocomputing, 143, 57-67.

Rajesh, K., Dhuli, R. (2018). Classification Of Imbalanced ECG beats using re-sampling techniques And AdaBoost ensemble classifier. Biomedical Signal Processing and Control, 41, 242-254.

Ren, F.,   et all. (2016). Ensemble Based Adaptive over-sampling method for imbalanced data Learning aided detection of microaneurysm.  Comput Med Imaging Graph (2016), http://dx.doi.org/10.1016/j.compmedimag. 2016.07.011.

Saifudin, Aries., Wahono, Romi, S. (2015). Pendekatan Level Data untuk Menangani Ketidakseimbangan Kelas pada Prediksi Cacat Software. Journal of Software Engineering, Vol. 1, No. 2, 2356-39 74.

Sun, J ., Lang, J., Fujita, H., Li, H. (2018). Imbalanced enterprise credit evaluation with DTE-SBD: Decision tree ensemble based on SMOTE and bagging with  differentiated sam pling rates. Information Sciences, 425,76-91.

Wang, G., Hao, J., Ma, J., Jiang, H. (2011). A comparative assessment of ensemble learning for credit scoring. Expert System With Apllication. 38, 223-230.

Widiputra, harya Damar. (2016).Apa Itu Data Mining?.Juli 10,2018. https://dosen.perbanas.id/apa-itu-data-mining/

Xiao J., et all., (2012). Dynamic classifier ensemble model for customer classification with imbalanced class distribution. Expert Systems with Applications. 39, 3368-3675.

Yu, L., Zhou,R., Tang,L., Chen,R. (2018). A DBN-based resampling SVM ensemble learning paradigm for credit classification with imbalanced data, Applied Soft Computing Journal, https://doi.org/10.1016/j.asoc.2018.04.049.

Zhang, X., Yang Y., Zhou Z. (2018, Februari). A Novel Credit Scoring Model based on Optimized Random Forest. 2018 IEEE 8th Annual Computing and Communication Workshop and Conference (CCWC).60-65.