Pencurian identitas menjadi ancaman kejahatan di dunia maya pada masa kini, khususnya transaksi online. Untuk mengatasi masalah tersebut, voice biometrics dikembangkan untuk keamanan identitas. Penelitian ini mengusulkan skema voice biometrics pada algoritma deep learning Convolutional Neural Network (CNN) Residual dan CNN Depthwise Separable Convolution (DSC) dengan fitur ekstraksi \hybrid Discrete Wavelet Transform (DWT) dan Mel Frequency Cepstral Coefficients (MFCC) serta mengembangkan pembuatan data suara untuk pengguna ber-Bahasa Indonesia dalam waktu 25 menit. Skema tersebut ditargetkan untuk meningkatkan kinerja akurasi. Penelitian ini mengembangkan 2 model simulasi yang terpisah, yaitu model CNN Residual dan CNN DSC. Untuk setiap pengujian model, hasilnya dibandingkan dengan CNN Standard. Hasil pengujian pertama menunjukkan kinerja terbaik, model CNN Residual ini mampu meningkatkan kinerja validasi akurasi training voice biometrics 98.6345%, presisi 99,91% dan akurasi 99,47% pada speaker recognition (siapa yang bicara?), serta akurasi speech recognition (apa yang diucapkan?) 100%. Hasil pengujian kedua menunjukkan kinerja terbaik, model CNN DSC ini mampu mengurangi kinerja training parameter dan mampu mempercepat kinerja waktu proses training voice biometrics menjadi 5,12 detik. Sehingga hasil kinerja tersebut dapat mengurangi beban komputasi dan lebih baik dalam kinerja akurasinya. Dapat disimpulkan bahwa CNN Residual dan CNN DSC telah mengungguli CNN Standard. Sehingga pengembangan skema voice biometrics dapat diaplikasikan untuk identifikasi dan verifikasi/autentikasi suara user secara akurat, efisien dan cepat untuk aplikasi keamanan identitas dalam transaksi perbankan.
Theft of identity is a threat to cybercrime today, especially online transactions. To overcome this problem, voice biometrics was developed for identity security. This research proposes a voice biometrics scheme on deep learning algorithms the CNN Residual and CNN Depthwise Separable Convolution (DSC) with Hybrid of Discrete Wavelet Transform (DWT) and Mel Frequency Cepstral Coefficients (MFCC) Feature Extraction and develops voice data establishment for Indonesian users within a short period of time 25 minutes. The scheme is targeted to improve accuracy performance. This research developed 2 separate models, i.e. CNN Residual and CNN DSC model. For each model testing, the results are compared with the CNN Standard. The results of the first testing show the best performance, the CNN Residual model is able to improve the performance of training accuracy validation on voice biometrics of 98.6345%, precision of 99.91% and accuracy of 99.47% on speaker recognition (who is speaking?), and accuracy on speech recognition (What is uttered?) of 100%. The results of the second testing show the best performance, the CNN DSC model is able to reduce the performance of training parameters and is able to accelerate the performance of the voice biometrics training process time to 5.12 seconds. So that the performance results can reduce the computational load and and better in its accuracy performance. It can be concluded that CNN Residual and CNN DSC have outperformed CNN Standard. So that the development of voice biometrics schemes can be applied for identification and verification/authentication of the user's voice accurately, efficiently and quickly for identity security applications in banking transactions.