Variable Importance Kesehatan dan Pendidikan dalam Pembentukan IPM dengan Algoritme Machine Learning
DOI:
https://doi.org/10.22216/jsi.v8i2.1623Keywords:
IPM, pembelajaran mesin, kesehatan, pendidikan, variabel pentingAbstract
Pembelajaran mesin adalah bidang studi yang menggunakan algoritma komputasi untuk mengubah data empiris menjadi model yang dapat digunakan. Pada penelitian ini akan membandingkan lima pembelajaran mesin supervised, yaitu forward selection, LASSO, random forest, gradient boosting, dan extra trees dengan studi kasus mengetahui faktor-faktor infrastruktur kesehatan dan pendidikan di tingkat desa/kelurahan yang mempengaruhi skor IPM kabupaten/kota di Pulau Jawa. Pada penentuan variable importance, metode forward-selection dan LASSO menggunakan nilai absolut koefisien regresi, sedangkan random forest, extra trees dan gradient boosting menggunakan nilai Mean Decrease in Impurity (MDI). Metode bootstrap akan diterapkan pada semua metode pembelajaran mesin dengan tujuan untuk memperluas ruang sampel dan menghasilkan indikator yang lebih akurat. Berdasarkan hasil pemodelan dari lima pembelajaran mesin, jumlah dokter dan dokter gigi per 1000 penduduk merupakan faktor yang paling mempengaruhi besaran nilai IPM di Pulau Jawa karena memiliki koefisien tertinggi atau nilai MDI terbesar. Extra Trees merupakan pembelajaran mesin supervised terbaik karena menghasilkan nilai RMSE yang paling kecil serta interval yang juga lebih pendek dibandingkan model lainnya.
References
Charbuty, B., & Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2(01), 20–28. https://doi.org/10.38094/jastt20165
Pusporini, A. (2012). Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi.
Jiawei Han, Data Mining Concept And Technique, 2nd ed., Asma Stephan, Ed. Champaign, United States of America: Multiscience Press, 2007.
Natekin, A. Knoll, A. 2013. Gradient boosting machines, a tutorial. Frontiers in Neurorobotics.
Tamara, I. Kajian Kinerja Algoritme Klasifikasi Extra-Trees pada Permasalahan Data Kelas Tak Seimbang (Doctoral dissertation, IPB University).
Maulana, R., & Bowo, P. A. (2013). Pengaruh pertumbuhan ekonomi, pendidikan dan teknologi terhadap ipm provinsi di indonesia 2007-2011. Jejak, 6(2).
Lestari, W. W., & Sanar, V. E. (2018). Analysis indicator of factors affecting human development index (Ipm). Geosfera Indonesia, 2(1), 11-18.
Statistik, B. P. (2018). Indeks Pembangunan Manusia (IPM) Tahun 2018. Berita Resmi Statistik, available at: https://doi. org/4102002.
Pratiwia, I. A. A. S., & Wijayantoa, A. W. Klasifikasi Indeks Pembangunan Manusia dengan Metode K-Nearest Neighbor dan Support Vector Machine di Pulau Jawa.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.
Zhao, P., & Yu, B. (2006). On model selection consistency of Lasso. The Journal of Machine Learning Research, 7, 2541-2563.
Dewi, Y. S. 2010. OLS, LASSO dan PLS pada Data Mengandung Multikolinearitas. Jurnal Ilmu Dasar, Vol 11, Nomor 1, halaman: 83-91.
Wezel, M.V. dan Potharst, R. 2007. Improved Customer Choice Predictions using Ensemble Methods. European Journal of Operational Research, 181, 436-452.
Geurts, P., Ernst, D., & Wehenkel, L. (2006). Extremely randomized trees. Machine learning, 63(1), 3-42.
Shang, K., Yao, Y., Li, Y., Yang, J., Jia, K., Zhang, X., ... & Guo, X. (2020). Fusion of five satellite-derived products using extremely randomized trees to estimate terrestrial latent heat flux over Europe. Remote Sensing, 12(4), 687.
Christy, E., & Suryowati, K. (2021). ANALISIS KLASIFIKASI STATUS BEKERJA PENDUDUK DAERAH ISTIMEWA YOGYAKARTA MENGGUNAKAN METODE RANDOM FOREST. Jurnal Statistika Industri dan Komputasi, 6(01), 69-76.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2022 SAINS DAN INFORMATIKA : RESEARCH OF SCIENCE AND INFORMATIC
This work is licensed under a Creative Commons Attribution 4.0 International License.