Variable Importance Kesehatan dan Pendidikan dalam Pembentukan IPM dengan Algoritme Machine Learning

Authors

  • Cahya Alkahfi Prodi Statistika dan Sains Data, IPB University
  • Zein Rizky Santoso Prodi Statistika dan Sains Data, IPB University
  • Anwar Fitrianto Prodi Statistika dan Sains Data, IPB University
  • Sachnaz Desta Oktarin Prodi Statistika dan Sains Data, IPB University

DOI:

https://doi.org/10.22216/jsi.v8i2.1623

Keywords:

IPM, pembelajaran mesin, kesehatan, pendidikan, variabel penting

Abstract

Pembelajaran mesin adalah bidang studi yang menggunakan algoritma komputasi untuk mengubah data empiris menjadi model yang dapat digunakan. Pada penelitian ini akan membandingkan lima pembelajaran mesin supervised, yaitu forward selection, LASSO, random forest, gradient boosting, dan extra trees dengan studi kasus mengetahui faktor-faktor infrastruktur kesehatan dan pendidikan di tingkat desa/kelurahan yang mempengaruhi skor IPM kabupaten/kota di Pulau Jawa. Pada penentuan variable importance, metode forward-selection dan LASSO menggunakan nilai absolut koefisien regresi, sedangkan random forest, extra trees dan gradient boosting menggunakan nilai Mean Decrease in Impurity (MDI). Metode bootstrap akan diterapkan pada semua metode pembelajaran mesin dengan tujuan untuk memperluas ruang sampel dan menghasilkan indikator yang lebih akurat. Berdasarkan hasil pemodelan dari lima pembelajaran mesin, jumlah dokter dan dokter gigi per 1000 penduduk merupakan faktor yang paling mempengaruhi besaran nilai IPM di Pulau Jawa karena memiliki koefisien tertinggi atau nilai MDI terbesar. Extra Trees merupakan pembelajaran mesin supervised terbaik karena menghasilkan nilai RMSE yang paling kecil serta interval yang juga lebih pendek dibandingkan model lainnya.

References

Charbuty, B., & Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2(01), 20–28. https://doi.org/10.38094/jastt20165

Pusporini, A. (2012). Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi.

Jiawei Han, Data Mining Concept And Technique, 2nd ed., Asma Stephan, Ed. Champaign, United States of America: Multiscience Press, 2007.

Natekin, A. Knoll, A. 2013. Gradient boosting machines, a tutorial. Frontiers in Neurorobotics.

Tamara, I. Kajian Kinerja Algoritme Klasifikasi Extra-Trees pada Permasalahan Data Kelas Tak Seimbang (Doctoral dissertation, IPB University).

Maulana, R., & Bowo, P. A. (2013). Pengaruh pertumbuhan ekonomi, pendidikan dan teknologi terhadap ipm provinsi di indonesia 2007-2011. Jejak, 6(2).

Lestari, W. W., & Sanar, V. E. (2018). Analysis indicator of factors affecting human development index (Ipm). Geosfera Indonesia, 2(1), 11-18.

Statistik, B. P. (2018). Indeks Pembangunan Manusia (IPM) Tahun 2018. Berita Resmi Statistik, available at: https://doi. org/4102002.

Pratiwia, I. A. A. S., & Wijayantoa, A. W. Klasifikasi Indeks Pembangunan Manusia dengan Metode K-Nearest Neighbor dan Support Vector Machine di Pulau Jawa.

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.

Zhao, P., & Yu, B. (2006). On model selection consistency of Lasso. The Journal of Machine Learning Research, 7, 2541-2563.

Dewi, Y. S. 2010. OLS, LASSO dan PLS pada Data Mengandung Multikolinearitas. Jurnal Ilmu Dasar, Vol 11, Nomor 1, halaman: 83-91.

Wezel, M.V. dan Potharst, R. 2007. Improved Customer Choice Predictions using Ensemble Methods. European Journal of Operational Research, 181, 436-452.

Geurts, P., Ernst, D., & Wehenkel, L. (2006). Extremely randomized trees. Machine learning, 63(1), 3-42.

Shang, K., Yao, Y., Li, Y., Yang, J., Jia, K., Zhang, X., ... & Guo, X. (2020). Fusion of five satellite-derived products using extremely randomized trees to estimate terrestrial latent heat flux over Europe. Remote Sensing, 12(4), 687.

Christy, E., & Suryowati, K. (2021). ANALISIS KLASIFIKASI STATUS BEKERJA PENDUDUK DAERAH ISTIMEWA YOGYAKARTA MENGGUNAKAN METODE RANDOM FOREST. Jurnal Statistika Industri dan Komputasi, 6(01), 69-76.

http://publikasi.lldikti10.id/index.php/jsi/article/view/1623

Downloads

Published

2022-11-30

How to Cite

Cahya Alkahfi, Santoso, Z. R., Anwar Fitrianto, & Sachnaz Desta Oktarin. (2022). Variable Importance Kesehatan dan Pendidikan dalam Pembentukan IPM dengan Algoritme Machine Learning. SAINS DAN INFORMATIKA : RESEARCH OF SCIENCE AND INFORMATIC, 8(2), 77–85. https://doi.org/10.22216/jsi.v8i2.1623