Bank adalah salah satu industri keuangan. Sebagai industri keuangan yang melayani
nasabah, ada risiko yang terjadi pada bank. Salah satu risiko yang sering terjadi dan
menyebabkan kerugian di bank adalah fraud dalam bentuk skimming pada transaksi tarik
tunai ATM. Penelitian ini dilakukan untuk mengetahui pemodelan data mining yang
dapat digunakan untuk mendeteksi fraud skimming di salah satu bank. Tujuan dari
penelitian ini adalah memberikan referensi dalam mencari pemodelan deteksi fraud.
Karakteristik data yang digunakan adalah imbalanced data karena data transaksi fraud
sangat kecil dibandingkan dengan data transaksi normal. Metode yang digunakan pada
penelitian ini adalah tinjauan pustaka, wawancara dan eksperimen terhadap teknik
machine learning. Pembentukan model pada penelitian ini dilakukan dengan
mengimplementasikan kombinasi dari penggunaan feature selection dan tanpa feature
selection, penggunaan SMOTE dan tanpa SMOTE, serta penggunaan feature engineering
dan tanpa feature engineering dengan jarak dan jeda transaksi sehingga diperoleh delapan
scenario dari hasil kombinasi. Hasil dari penelitian ini menunjukkan bahwa dari seluruh
skenario yang diuji coba, algoritma Extreme Gradient Boosting merupakan algoritma
terbaik dalam menghasilkan model deteksi fraud. Skenario terbaik yang dihasilkan adalah
skenario dengan mengimplementasikan ketiga teknik sekaligus yaitu feature selection,
SMOTE dan feature engineering dengan jarak dan jeda transaksi. Berdasarkan hasil
evaluasi model, pembentukan model dengan feature engineering dengan jarak dan jeda
transaksi dapat meningkatkan performa model klasifikasi.
Bank is one of financial industry. As a financial industry that serve customers, bank ispotentially exposed to risk. One of potentially risk that making loss in bank is fraud inform of skimming on ATM transaction. This study is conducted to know data miningmodelling that can be used to detect skimming fraud in a bank. The purpose of this studyis to provide reference in looking for fraud detection modelling. The characteristics of thedata used in this study is imbalanced data since fraud transaction data is very smallcompared to normal transaction data. The method used in this study is the literaturereview, semi-structured interviews, and experiments on machine learning techniques.Creating model on this study is conducted by implementing combination of three usedtechniques namely feature selection, SMOTE, and feature engineering with distance andtransaction lag. There are eight scenarios used in this study that were tested and analyzedthe results according to the needs of the case study research. The results of this studyindicate that the Extreme Gradient Boosting algorithm can identify fraudulenttransactions. The best scenario is a scenario by creating a model that implements featureselection, SMOTE to handle imbalanced data, and feature engineering with distance andtransaction lag. Based on model evaluation, model generation by implementing featureengineering with distance and transaction lag can improve performance of classificationmodel.