DIGITAL LIBRARY



JUDUL:Penerapan SMOTE Untuk Mengatasi Ketidakseimbangan Kelas Pada Klasifikasi Penyakit Diabetes Menggunakan C5.0, Random Forest Dan SVM
PENGARANG:M. Khairul Rezki
PENERBIT:UNIVERSITAS LAMBUNG MANGKURAT
TANGGAL:2024-08-12


Penerapan metodologi kategorisasi dalam klasifikasi diabetes sering kali memberikan hasil yang tidak memuaskan sebagai akibat dari sifat dataset yang rumit dan distribusi kelas yang tidak seimbang di dalam data. Oleh karena itu, penerapan SMOTE untuk mengatasi ketidakseimbangan kelas dalam klasifikasi sering kali memberikan hasil yang tidak memuaskan karena kerumitan dataset dan banyaknya faktor yang terlibat. Akibatnya, serangkaian tes dilakukan untuk mengevaluasi ketepatan berbagai metode klasifikasi. Penelitian ini bertujuan untuk mengevaluasi ketepatan model klasifikasi C5.0, Random Forest, dan SVM dengan menggunakan pendekatan reguler dan berbasis SMOTE. Metodologi terdiri dari pemilihan dataset, tinjauan umum algoritma kategorisasi seperti C5.0, Random Forest, dan SVM, pemanfaatan teknik SMOTE, validasi melalui validasi terpisah, prapemrosesan yang menggabungkan normalisasi min-max, dan evaluasi eksekusi dengan menggunakan matriks kerancuan dan analisis AUC. Dataset ini diperoleh melalui Kaggle dengan tujuan untuk mengurangi distribusi kelas yang tidak seimbang dalam dataset diabetes dengan menggunakan SMOTE. Dataset ini terdiri dari total 768 contoh, dengan 268 sampel untuk individu dengan diabetes dan 500 sampel untuk individu tanpa diabetes. Sebelum menggunakan SMOTE, nilai presisi untuk kategorisasi menggunakan C5.0, Random Forest, dan SVM masing-masing adalah 0.714, 0.733, dan 0.746. Nilai AUC yang sesuai dengan data yang diberikan adalah 0,745, 0,824, dan 0,799. Teknik SMOTE menghasilkan nilai akurasi 0,603, 0,727, dan 0,727 untuk proses yang identik. Nilai AUC yang terkait adalah 0,734, 0,831, dan 0,794. Analisis menunjukkan bahwa penggunaan SMOTE memiliki efek yang terbatas pada tiga model kategorisasi. Hal ini dikarenakan adanya risiko overfitting pada dataset, yang mengakibatkan ketergantungan yang berlebihan pada data yang dihasilkan secara artifisial untuk kelas minoritas. Akibatnya, hal ini menyebabkan penurunan kinerja model, termasuk nilai presisi dan AUC.

Berkas PDF
NODOWNLOAD LINK
1FILE 1



File secara keseluruhan dapat di unduh DISINI