Analisis Random Forest Menggunakan Principal Component Analysis Pada Data Berdimensi Tinggi

Farah Diba; Maya Silvi Lydia; Poltak Sihombing

doi:10.33022/ijcs.v12i4.3329

Authors

Farah Diba Universitas Sumatera Utara
Maya Silvi Lydia Universitas Sumatera Utara
Poltak Sihombing Universitas Sumatera Utara

DOI:

https://doi.org/10.33022/ijcs.v12i4.3329

Abstract

Data yang memiliki dimensi tinggi membutuhkan metode machine learning yang mampu bekerja lebih cepat dan efektif dalam proses klasifikasi. Salah satu algoritma yang mampu menangani data kompleks adalah Random Forest. Random Forest bekerja dengan membangun beberapa decision tree secara random sebagai acuan feature selection. Namun, data berdimensi tinggi membutuhkan ruang penyimpanan yang lebih besar sehingga mengakibatkan lamanya proses komputasi. Oleh karena itu, Principal Component Analysis merupakan salah satu metode reduksi dimensi dalam merepresentasikan data berdimensi tinggi. PCA akan membentuk beberapa Principal Component yang mengandung informasi penting dari data asli. Dataset yang digunakan pada penelitian ini bersumber dari kaggle repository terdiri atas 26 atribut dan 129880 intances. Hasil dari penelitian ini RF dengan dengan n_estimators = 7 setelah direduksi PCA memiliki akurasi terbaik yaitu 90,13% pada data water quality.. Hal ini membuktikan bahwa PCA mampu mereduksi dimensi dengan membentuk pohon n_estimators sebanyak 7.