DIGITAL LIBRARY



JUDUL:KLASIFIKASI EMAIL PHISHING MENGGUNAKAN METODE BERT DENGAN TEXT AUGMENTATION
PENGARANG:AHMAD ZAINI
PENERBIT:UNIVERSITAS LAMBUNG MANGKURAT
TANGGAL:2025-01-16


Serangan phishing melalui email merupakan ancaman serius dalam keamanan siber, menyebabkan pencurian data pribadi dan kerugian finansial. Identifikasi dan klasifikasi email phishing sangat penting untuk melindungi pengguna dari ancaman ini. Penelitian ini menggunakan metode Natural Language Processing (NLP), khususnya Bidirectional Encoder Representations from Transformers (BERT), karena kemampuannya memahami konteks bahasa secara mendalam untuk mengklasifikasikan teks email dan mengurangi ancaman keamanan digital. Dataset yang digunakan berasal dari Kaggle dan Jason Nazario, terdiri dari 11.126 safe email dan 2.161 phishing email, menghasilkan distribusi kelas yang tidak seimbang. Ketidakseimbangan data menjadi masalah karena model BERT cenderung bias terhadap kelas mayoritas, berpotensi mengklasifikasikan email secara salah. Untuk mengatasi hal ini, diterapkan teknik augmentasi teks seperti Easy Data Augmentation (EDA) Synonym Replacement, Back-Translation, dan GPT-2 untuk menghasilkan variasi teks baru. Dataset dibagi menjadi data training, validasi, dan testing dengan rasio 60:20:20. Pengujian sebelum dan sesudah augmentasi menunjukkan bahwa model BERT dengan Text Augmentation GPT-2 memberikan performa terbaik, dengan akurasi 99,75%, F1-score 99,75%, recall 99,78%, dan precision 99,73%. Selain itu, metode K-Fold dengan jumlah 5-Fold pada model terbaik menunjukkan akurasi rata-rata 99,75%. Evaluasi pada dua dataset eksternal menunjukkan bahwa model terbaik mampu mengklasifikasikan phishing dan safe email dengan akurasi 80% pada dataset pertama dan 79% pada dataset kedua. Penelitian ini membuktikan bahwa penerapan NLP dengan BERT, didukung oleh augmentasi teks, merupakan pendekatan efektif dalam klasifikasi email phishing.

Berkas PDF
NODOWNLOAD LINK
1FILE 1



File secara keseluruhan dapat di unduh DISINI