IMPLEMENTASI TEKNIK PENDEKATAN LEVEL DATA UNTUK MENYELESAIKAN KASUS DATA TIDAK SEIMBANG PADA KLASIFIKASI CACAT SOFTWARE

  • Hanif Rahardian ULM
  • Mohammad Reza Faisal ULM
  • Friska Abadi ULM
  • Radityo Adi Nugroho ULM
  • Rudy Herteno ULM

Abstrak

Cacat dapat menyebabkan pengerjaan ulang perangkat lunak secara signifikan, keterlambatan dan tingginya biaya, agar dapat melakukan pencegahan kecacatan maka harus dapat diprediksi kemungkinan terjadinya cacat. Untuk memprediksi kecacatan digunakanlah dataset software metrics. NASA MDP merupakan salah satu sofware metrics yang populer digunakan untuk memprediksi

cacat sofware dengan memiliki 13 dataset dan secara umum bersifat tidak seimbang. Ketidakseimbangan pada dataset dapat menyebabkan menurunnya prediksi cacat software karena data yang tidak seimbang lebih banyak menghasilkan kelas mayoritas. Ketidakseimbangan data dapat ditangani dengan 2 pendekatan, yaitu teknik pendekatan level data dan teknik pendekatan level algoritma. Teknik pendekatan level data bertujuan meperbaiki distribusi kelas dengan menggunakan teknik resampling dan sintesis data. Pada penelitian ini diusulkan teknik pendekatan level data dengan teknik resampling yaitu, Random Oversampling (ROS), Random Undersampling (RUS), Synthetic Minority Oversampling Technique (SMOTE), Tomek Link (TL) dan One-Sided Selection (OSS) yang diklasifikasi dengan Naïve Bayes serta divalidasi menggunakan 10 Fold Cross Validation, lalu dievaluasi dengan Area Under ROC Curve (AUC). Hasil prediksi berdasarkan dataset didapatkan nilai AUC terbaik pada MC2 dengan nilai 0,7277 menggunakan Synthetic Minority Oversampling Technique (SMOTE). Hasil prediksi berdasarkan teknik pendekatan level data didapatkan nilai rata – rata AUC terbaik menggunakan Tomek Link (TL) dengan nilai 0,62587.

Diterbitkan
2020-06-29
Bagian
Artikel