Analisis Random Forest Menggunakan Principal Component Analysis Pada Data Berdimensi Tinggi
DOI:
https://doi.org/10.33022/ijcs.v12i4.3329Abstract
Data yang memiliki dimensi tinggi membutuhkan metode machine learning yang mampu bekerja lebih cepat dan efektif dalam proses klasifikasi. Salah satu algoritma yang mampu menangani data kompleks adalah Random Forest. Random Forest bekerja dengan membangun beberapa decision tree secara random sebagai acuan feature selection. Namun, data berdimensi tinggi membutuhkan ruang penyimpanan yang lebih besar sehingga mengakibatkan lamanya proses komputasi. Oleh karena itu, Principal Component Analysis merupakan salah satu metode reduksi dimensi dalam merepresentasikan data berdimensi tinggi. PCA akan membentuk beberapa Principal Component yang mengandung informasi penting dari data asli. Dataset yang digunakan pada penelitian ini bersumber dari kaggle repository terdiri atas 26 atribut dan 129880 intances. Hasil dari penelitian ini RF dengan dengan n_estimators = 7 setelah direduksi PCA memiliki akurasi terbaik yaitu 90,13% pada data water quality.. Hal ini membuktikan bahwa PCA mampu mereduksi dimensi dengan membentuk pohon n_estimators sebanyak 7.
Downloads
Published
Issue
Section
License
Copyright (c) 2023 Farah Diba

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.