DIGITAL LIBRARY



JUDUL:EVALUASI PERFORMA EKSTRAKSI FITUR BERBASIS N-GRAM DAN WORD2VEC PADA DATA TWITTER ANALISIS SENTIMEN COVID-19
PENGARANG:MOHAMMAD RYAN FADHILLAH
PENERBIT:UNIVERSITAS LAMBUNG MANGKURAT
TANGGAL:2023-06-23


Data teks tidak dapat diproses langsung oleh algoritma pembelajaran mesin karena masih berupa data tidak terstruktur, sehingga perlu terlebih dahulu diubah menjadi data terstruktur melalui proses yang disebut ekstraksi fitur agar selanjutnya dapat dilakukan klasifikasi. Masih belum ada penelitian yang mencoba mengetahui pengaruh dari perubahan jumlah dataset yang digunakan pada tahap ekstraksi fitur tersebut terhadap hasil akurasi dari klasifikasi data. Oleh karena itu, perlu diketahui berapa besar pengaruh variasi jumlah data terhadap ekstraksi fitur dalam melakukan klasifikasi data. Evaluasi performa ekstraksi fitur dilakukan dengan menggunakan COVID-19 Indonesian Tweet Dataset. Variasi jumlah data yang digunakan adalah 400 data, 800 data, 1600 data, dan 3200 data. Penelitian ini menggunakan algoritma ekstraksi fitur N-Gram yaitu Unigram, Bigram, dan Trigram serta Word2Vec dengan algoritma klasifikasi Naïve Bayes Classifier. Algoritma klasifikasi membagi dataset tersebut menjadi dua kelas, yaitu positif dan negatif. Hasil penelitian menunjukkan hasil akurasi yang didapatkan tidak selalu bertambah seiring dengan bertambahnya jumlah data yang digunakan. Nilai akurasi tertinggi diperoleh ekstraksi fitur Unigram dengan menggunakan 3200 data yaitu sebesar 78.75%. Bigram dan Trigram juga memperoleh hasil akurasi tertinggi di 3200 data, sedangkan Word2Vec meraih hasil akurasi tertinggi di 800 data. Penelitian ini membuktikan bahwa variasi jumlah data yang lebih besar belum bisa menjamin bahwa nilai akurasi yang didapatkan akan lebih baik.

Berkas PDF
NODOWNLOAD LINK
1FILE 1



File secara keseluruhan dapat di unduh DISINI