Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 11 dokumen yang sesuai dengan query
cover
Woro Sudaryanti
"Penelitian ini melakukan studi mengenai sistem identifikasi pembicara berbahasa Indonesia menggunakan SVM. Parameter sistem terdiri atas silence removal, PCA, nilai rata-rata dan varians MFCC. Ujicoba menggunakan data berita berbahasa Indonesia dari televisi dan radio yang disegmen dalam 5, 10, 15 detik dengan jumlah data 26 jam (715 pembicara).
Hasil penelitian ini menunjukkan ketepatan pengenalan pembicara sebesar 94-98% untuk kombinasi parameter silence removal dan rata-rata MFCC dengan akurasi terbaik pada segmen waktu 10 detik. Namun dengan bertambahnya jumlah pembicara, ketepatan pengenalan cenderung berkurang. Penelitian ini dapat dikembangkan untuk sistem perolehan informasi data speech berdasarkan siapa yang berbicara dalam suatu sesi data.

This research studies speaker identification system for Indonesian speech based on SVM. Parameters of this system are silence removal, PCA, average and varians values of MFCC. The experiments use 26 hours (715 speakers) Indonesian broadcast news from radio and television segmented into 5, 10, 15 seconds.
The results achieve 94-98% identification accuracy for combination of parameters silence removal and average of MFCC. The best accuracy comes from 10 seconds time segment. However, the accuracy falls when the number of speakers increases. This study could be used for speech retrieval system based on who speaks in a speech session.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
T-Pdf
UI - Tesis Open  Universitas Indonesia Library
cover
Fetty Amelia
"Metode Mel Frequency Cepstral Coefficient (MFCC) adalah metode yang paling populer dan memiliki kinerja yang baik sebagai metode feature extraction (pengekstraksi ciri) hingga saat ini. Namun berdasarkan hasil simulasi, diketahui bahwa speaker recognition system yang menggunakan MFCC sebagai metode feature extraction memiliki akurasi yang rendah ketika diterapkan pada sinyal suara yang mengandung noise.
Dalam penelitian ini, penulis mengusulkan metode Discrete Wavelet Transform - Mel Frequency Cepstral Coefficient (DWT-MFCC) untuk mengatasi masalah tersebut. Hasil simulasi menunjukkan bahwa metode DWT-MFCC memiliki akurasi lebih tinggi dibandingkan dengan metode MFCC konvensional apabila diterapkan sebagai metode feature extraction dalam sistem speaker recognition dengan tingkat SNR dari 15 hingga 40 dB.

The Mel-frequency Cepstral Coefficients (MFCC) method is the most popular method and has good performance as a feature extraction to date. But based on the simulation results, it is known that the speaker recognition system that uses MFCC as a feature extraction has low accuracy when applied to voice containing noise.
In this study, we propose the Discrete Wavelet Transform - Mel Frequency Cepstral Coefficient (DWT-MFCC) method to overcome this problem. The simulation results show that the DWT-MFCC method has higher accuracy compare with conventinal MFCC method when applied as feature extraction in the speaker recognition system with SNR from 15 to 40 dB.
"
Depok: Fakultas Teknik Universitas Indonesia, 2019
T53154
UI - Tesis Membership  Universitas Indonesia Library
cover
Woro Sudaryanti
"Penelitian ini melakukan studi mengenai sistem identifikasi pembicara berbahasa Indonesia menggunakan SVM. Parameter sistem terdiri atas silence removal, PCA, nilai rata-rata dan varians MFCC. Ujicoba menggunakan data berita berbahasa Indonesia dari televisi dan radio yang disegmen dalam 5, 10, 15 detik dengan jumlah data 26 jam (715 pembicara). Hasil penelitian ini menunjukkan ketepatan pengenalan pembicara sebesar 94-98% untuk kombinasi parameter silence removal dan rata-rata MFCC dengan akurasi terbaik pada segmen waktu 10 detik. Namun dengan bertambahnya jumlah pembicara, ketepatan pengenalan cenderung berkurang. Penelitian ini dapat dikembangkan untuk sistem perolehan informasi data speech berdasarkan siapa yang berbicara dalam suatu sesi data.
......This research studies speaker identification system for Indonesian speech based on SVM. Parameters of this system are silence removal, PCA, average and varians values of MFCC. The experiments use 26 hours (715 speakers) Indonesian broadcast news from radio and television segmented into 5, 10, 15 seconds. The results achieve 94-98% identification accuracy for combination of parameters silence removal and average of MFCC. The best accuracy comes from 10 seconds time segment. However, the accuracy falls when the number of speakers increases. This study could be used for speech retrieval system based on who speaks in a speech session."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
T25915
UI - Tesis Open  Universitas Indonesia Library
cover
Bayu G. Wundari
"Skripsi ini membahas tentang sistem Text-to-Speech (TTS) untuk Bahasa Indonesia dengan Unit Selection Synthesis sebagai metodenya untuk mensintesa ucapan. Unit yang yang digunakan pada sistem TTS ini berupa suku kata Bahasa Indonesia. Sistem TTS yang dibuat pada skripsi ini memiliki 2 modul utama, yaitu modul Natural Language Processing (NLP) dan modul Digital Signal Processing (DSP). Modul NLP bertugas untuk memroses input teks yang masuk guna mendapatkan informasi dari teks itu berupa unit suku kata dengan pitch dan ToBI (Tone and Break Indices) yang bersesuaian dengan kalimat pada teks masukan, Informasi ini kemudian digunakan oleh modul DSP untuk menghasilkan ucapan. Pada modul DSP ini, metode sintesa ucapan yang digunakan adalah Unit Selection Synthesis yang merupakan generasi ketiga setelah Concatenative Synthesis. Metode Unit Selection Synthesis menggunakan database yang sangat banyak sekali untuk dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi. Untuk tiap unit suku kata memiliki karakteristik seperti pitch, durasi, Mel Frequency Cepstrum Coefficient (MFCC), dan ToBI yang berbeda-beda dengan unit yang lain walaupun suku kata yang digunakan adalah sama. Suku kata dengan karakteristik yang berbeda tersebut diperoleh dari hasil pemotongan file wav suatu rekaman ucapan. Dari segi intellijibilitas, ucapan yang dihasilkan tidaklah baik. Hal ini disebabkan database yang dimiliki sangat kurang dan rekaman ucapan yang dijadikan sumber data memiliki banyak noise sehingga mengganggu proses pemotongan file wav untuk mendapatkan suku kata. Namun tingkat kealamian ucapan yang diperoleh dari sistem TTS ini dapat dikatakan cukup baik karena pitch dari suku kata yang cukup bervariasi sehingga intonasi yang terdengar tidak mendatar saja.

This undergraduate thesis discusses about a Text-to-Speech system with Unit Selection Synthesis as it's method to synthesize speech. Units which are used as the units for the synthesizer are Bahasa Indonesia syllables. In this study, the TTS system uses 2 main modules, they are Natural Language Processing module (NLP) and Digital Signal Processing Module (DSP). The NLP module processes input text for retrieving information from the input in the form of syllables with their pitch and ToBI (Tone and Break Indices) associated with the sentences in the text. The retrieved information then used by DSP module to produce speech. The third generation synthesizer after concatenative synthesis, Unit Selection Synthesis, is chosen as the speech synthesizer in the DSP module. To get speech with high naturalness, the synthesizer must uses a large speech database. Each and every syllable has it?s own characteristics such as pitch, duration, Mel Frequency Cepstrum Coefficient (MFCC), and ToBI that are different from other units eventhough the syllables are the same. The author get the syllables by trimming a wav file of recorded speech. From the intelligibility point of view, the quality of the produced speech is not good. It is because the quality of the possessed database is poor and the recorded speech chockablock with noise in such a way that unsettles the process of trimming the wav file in order to get the syllables. Yet, from the naturalness point of view, the quality of the speech could be accepted because of the variety of the pitch of the syllables so that the perceived speech is not monotone."
Depok: Fakultas Teknik Universitas Indonesia, 2009
S51375
UI - Skripsi Open  Universitas Indonesia Library
cover
Situmeang, Matra Prima
Universitas HKBP Nonmensen, 2017
050 VISI 25:3 (2017)
Artikel Jurnal  Universitas Indonesia Library
cover
Hariyanto
"ABSTRAK
Pada penelitian ini menjelaskan bagaimana pengenalan suara otomatis menggunakan bahasa daerah yang berasal indonesia yaitu bahasa sunda, yang dapat mengontrol alat-alat elektronik pada suatu rumah. Bahasa sunda merupakan bahasa daerah dengan penuturan terbanyak kedua di indonesia setelah bahasa jawa. Pengenalan suara menggunakan bahasa sunda dilakukan pada penelitian ini dengan tujuan dapat mengontrol beberapa alat elektronik didalam rumah secara langsung dengan akurasi yang baik. Adapun metode yang digunakan dalam pengenalan suara bahasa sunda adalah metode ekstraksi Mel Frequency Cepstral Coefficient (MFCC) dan metode classifikasi jaraingan saraf tiruan berbasis algoritma backpropagation. Ada 16 intruksi bahasa sunda yang digunakan dalam pengenalan suara sebagai input pada sistem, setiap instruksi memiliki 2 sampai 3 suku kata bahasa sunda. Output yang digunakan penulis dalam penelitian ini sebanyak 6 alat elektronik rumah tangga, untuk menghidupkan atau mematikan satu output dikontrol menggunakan 2 instruksi bahasa sunda. Data suara yang digunakan dalam proses pembelajaran algoritma backpropagation adalah sebanyak 480 data yang masing-masing instruksi bahasa sunda adalah 30 data suara yang sama, hasil dari proses pembelajaran adalah berupa bobot yang dapat digunakan untuk proses pengetesan hardware, berdasarkan hasil percobaan langsung didapat tingkat akurasi pengenalan sebesar 96.875% saat dilakukan testing terhadap sistem.

ABSTRACT
In this study explain how automatic speech recognition uses regional languages that originate from Indonesia, namely Sundanese language, which can control electronic devices in a home. Sundanese is the second most spoken local language in Indonesia after Javanese. Voice recognition using Sundanese language was carried out in this study to be able to directly control several electronic devices in the house with good accuracy. The method used in Sundanese speech recognition is the Mel Frequency Cepstral Coefficient (MFCC) extraction method and the artificial neural network classification method based on the backpropagation algorithm. There are 16 Sundanese language instructions used in speech recognition as input to the system; each instruction has 2 to 3 Sundanese language syllables. The output used by the author in this study was five household electronic devices, to turn on or turn off one output controlled using 2 Sundanese language instructions. Sound data used in the learning process of the backpropagation algorithm is 480 data, each Sundanese language instruction is 30 of the same sound data, the results of the learning process are in the form of weights that can be used for hardware testing, based on the results of direct experiments 96.875 % when testing the system."
2019
T53572
UI - Tesis Membership  Universitas Indonesia Library
cover
Shuoshuo Chen
"In this paper, we discuss about the design, implementation and assessment of a two-stage Arabic speaker recognition system, which aims to recognize a target Arabic speaker among several people. The first stage uses improved DTW (Dynamic Time Warping) algorithm and the second stage uses SA-KM-based GMM (Gaussian Mixture Model). MFCC (Mel Frequency Cepstral Coefficients) and its differences form, as acoustic feature, are extracted from the sample speeches. DTW provides three most possible speakers and then the recognition results are conveyed to GMM training processes. A specified similarity assessment algorithm, KL distance, is applied to find the best match with the target speaker. Experimental results show that text-independent recognition rate of the cascaded system reaches 90 percent.
Dalam paper ini, kami membahas desain, implementasi dan penilaian sistem pengenalan dua tahap untuk penutur Bahasa Arab, yang bertujuan untuk mengenali target penutur Bahasa Arab di antara beberapa orang. Tahap pertama menggunakan algoritma improved DTW (Dynamic Time Warping) dan tahap kedua menggunakan SA-KM berbasis GMM (Gaussian Mixture Model). MFCC (Mel Frequency Cepstral Coefficients) dan variasi perbedaannya, seperti fitur akustik, diekstrak dari sample suara. DTW menyediakan tiga penutur yang paling mungkin dan kemudian hasil pengenalan diteruskan ke proses pelatihan GMM. Sebuah algoritma penilaian kesamaan yaitu KL distance, diaplikasikan untuk menemukan pasangan yang paling cocok dengan penutur sasaran. Hasil penelitian menunjukkan bahwa tingkat pengenalan teks-independen dari sistem mencapai 90 persen."
School of Electronic Information Wuhan University, 2013
PDF
Artikel Jurnal  Universitas Indonesia Library
cover
Muhammad Rias Agnini Majdi
"Jenis-jenis alat musik yang digunakan dalam suatu musik adalah salah satu cara menjelaskan musik tersebut. Skripsi ini membahas penggunaan ekstraksi fitur MFCC dan metode klasifikasi k-NN untuk mengklasifikasi alat musik berdasarkan suara yang dihasilkannya. MFCC merupakan sebuah metode yang mampu mengolah sebuah data suara sehingga menghasilkan beberapa fitur yang bersifat numerik. k-NN merupakan sebuah metode klasifikasi yang menggunakan jarak dari fitur tiap-tiap observasi. Pengerjaan skripsi dilakukan dengan mengekstraksi fitur dari data-data suara yang tersedia dengan MFCC lalu menggunakan fitur-fitur yang diekstraksi tersebut untuk metode klasifikasi k-NN. Data yang digunakan adalah data suara alat musik yang tersedia pada dataset Philharmonia Orchestra Sound Samples. Hasil dari penerapan metode klasifikasi k-NN pada skripsi ini menunjukkan bahwa model k-NN mampu meraih nilai akurasi hingga 94,84%.



Instrumentation is one way to describe a music. This study discusses the use of MFCC feature extraction and k-NN classification method to classify instruments by the sound they produce. MFCC is a method capable of processing a sound data into a set of numeric features. k-NN is a classification method that uses the distance of the features of each observations. The process of this study uses MFCC to extract the features of available sound data and use these extracted features to fit a k-NN model. The data used in this study are the sound data available in the Philharmonia Orchestra Sound Samples dataset. The result of k-NN model fitting in this study shows that the model is capable of reaching an accuracy of 94.84%.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arvalinno
"

Kecerdasan buatan atau Artificial Intelligence (AI) banyak berkembang dalam sektor-sektor seperti: speech recognition, computer vision, Natural Language Processing, dll. Salah satu sektor penting yang banyak dikembangkan oleh peneliti adalah Speech Emotion Recognition atau pengenalan emosi berdasarkan suara manusia. Penelitian ini semakin berkembang karena timbul sebuah tantangan bagi manusia untuk memiliki interaksi mesin dan manusia yang lebih natural yaitu suatu mesin yang dapat merespon emosi manusia dengan memberikan balasan yang tepat juga. Perancangan Speech Emotion Recognition pada penelitian ini menggunakan dataset berupa fitur ekstraksi audio MFCC, Spectrogram, Mel Spectrogram, Chromagram, dan Tonnetz serta memanfaatkan metode Transfer Learning VGG-16 dalam pelatihan modelnya. Dataset yang digunakan diperoleh dari pemotongan audio dari beberapa film berbahasa Indonesia dan kemudian audio yang diperoleh diekstraksi fitur dalam kelima bentuk fitur yang disebut sebelumnya. Hasil akurasi model paling baik dalam penelitian ini adalah model transfer learning VGG-16 dengan dataset Mel Spectrogram yaitu dengan nilai akurasi 56.2%. Dalam pengujian model dalam pengenalan setiap emosi, f1-score terbaik diperoleh model transfer learning VGG-16 dengan dataset Mel Spectrogram dengan f1-score yaitu 55.5%. Skala mel yang diterapkan pada ekstraksi fitur mel spectrogram berpengaruh terhadap baiknya kemampuan model dalam mengenali emosi manusia.


Artificial Intelligence has been used in many sectors, such as speech recognition, computer vision, Natural Language Processing, etc. There was one more important sector that has been developed well by the scientists which are Speech Emotion Recognition. This research is developing because of the new challenge by human to have a better natural interaction between machines and humans where machines can respond to human’s emotions and give proper feedback. In this research, to create the speech emotion recognition system, audio feature extraction such as MFCC, Spectrogram, Mel Spectrogram, Chromagram, and Tonnetz were used as input, and using VGG-16 Transfer Learning Method for the model training. The datasets were collected from the trimming of audio from several Indonesian movies, the trimmed audio will be extracted to the 5 features mentioned before. The best model accuracy is VGG-16 with Mel Spectrogram dataset which has reached 56.2% of accuracy. In terms of recognizing the emotion, the best f1-score is reached by the model VGG-16 with Mel Spectrogram dataset which has 55.5% of f1-score. Mel scale that is applied to the feature extraction of mel spectrogram affected the model’s ability to recognize human emotion.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Agus Buono
"Suara merupakan suatu besaran yang memenuhi syarat sebagai ciri biometrik yang efektif dan efisien. Namun demikian, suara adalah fenomena yang merupakan perpaduan multidimensi serta dipengaruhi berbagai aspek, seperti karakteristik pembicara (dimensi titik artikularis, emosi, kesehatan, umur, jenis kelamin, dialek), bahasa, dan lingkungan (background dan media transmisi), sehingga sistem yang telah dikembangkan hingga sekarang belum bisa bekerja dengan baik pada situasi real. Hal inilah yang melatarbelakangi penelitian ini dilakukan.
Pada penelitian ini dilakukan kajian terhadap teknik higher order statistics (HOS) dan model Mel-Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri yang diintegrasikan dengan Hidden Markov Model (HMM) sebagai pengenal pola untuk menghasilkan sistem identifikasi pembicara yang lebih robust terhadap noise, khususnya Gaussian Noise. Penelitian yang dilakukan lebih difokuskan pada bagian ekstraksi Ciri dari sistem identifikasi pembicara. Sementara ini, bagian pengenal pola menggunakan teknik yang telah banyak dikaji pada berbagai riset pemrosesan suara dan memberikan hasil yang baik, yaitu HMM. Strategi yang dilakukan adalah melalui pendekatan empiris untuk menunjukkan kegagalan teknik ekstraksi ciri konvensional, yaitu ID-MFCC yang berbasis power spektrum, pada lingkungan ber-noise, dilanjutkan dengan mengkaji permsalahannya, dan diusulkan teknik ekstraksi berbasis HOS untuk mengatasi pemasalahan tersebut. Berikutnya adalah melakukan serangkaian percobaan untuk menunjukkan efektifitas teknik yang diusulkan, studi komparasi dan mengajukan suatu usulan rancangan sistem.
Berdasar bukti empiris, terlihat bahwa permasalahan 1D-MFCC adalah pada inputnya, yaitu power spektrum yang bersifat tidak stabil terhadap noise. Pada penelitian ini diusulkan untuk mengganti power spektrum dengan bispektrum yang secara teori lebih robust terhadap noise. Teknik yang diusulkan adalah suatu metodologi untuk mengekstrak nilai bispektrum sinyal suara dengan MFCC dan diintegrasikan dengan HMM untuk membentuk sistem identitikasi pembicara. Oleh karena itu, pada penelitian ini dilakukan perluasan teknik ID-MFCC menjadi 2D-MFCC. Untuk meningkatkan efektifitas sistem, diusulkan teknik kuantisasi sebagai cara merepresentasikan nilai bispektrum sehingga distribusi spasialnya terakomodasi, dan dilanjutkan dengan transformasi wrapping dan kosinus seperti pada MFCC.
Hasil percobaan menunjukkan bahwa teknik konvensional yang berbasis pada power spektrum dapat menangkap ciri suara tanpa penambahan noise dengan baik dan jika dipadukan dengan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri dan HMM sebagai pengenal pola, maka akan menghasilkan sistem dengan akurasi di atas 98.8%. Namun demikian, dengan penambahan noise 20 dB, nilai power spektnlm mengalami perubahan secara nyata, sehingga akurasi sistem jatuh hingga level di bawah 50%. Teknik penghapusan noise secara adoptive mampu meningkatkan akurasi menjadi 77.7%, namun dengan noise yang lebih besar, teknik ini gagal bekeqia dengan baik.
Sistem yang dikembangkan dengan menggunakan bispektrum sebagai penentu ciri dipadukan dengan MFCC yang diperluas ke dua dimensi berhasil memberikan akurasi 99.9% untuk sinyal suara asli. Namun untuk sinyal dengan noise 20 dB, akurasi sistem menjadi sekitar 70%. Optimasi pada bentuk Elter pada proses MFCC dengan algoritma genetika mampu meningkatkan alcurasi menjadi 88.8% Akan tetapi dengan noise yang lebih tinggi, sistem gagal bekerja dengan baik.
Teknik kuantisasi skalar terhadap nilai bispektrum yang dilanjutkan dengan proses wrapping dan transfomasi kosinus seperti yang dilakukan pada MFCC mampu meningkatkan robustness sistem terhadap noise dengan akurasi 99.5% dan 83% masing-rnasing untuk sinyal asli dan sinyal dengan penambahan noise 20 dB. Namun untuk noise 10 dB, teknik ini gagal bekerja dengan baik. Dari percobaan dengan teknik kuantisasi velctor, terlihat bahwa rata-rata nilai bispektrum di atas kuartil tiga adalah penduga terbaik bagi nilai bispektrum setiap channel dengan jumlah 400 channel. Selain itu nilai parameter yang optimum pada proses ekstraksi ciri dengan kuantisasi vektor dilanjutkan dengan proses wrapping dan transformasi kosinus pada sinyal dengan penambahan noise adalah jarak filter linear 75, jarak Elter logaritma 1.06 dan proporsi filter linear dan legaritma 30:20. Kinerja sistem menunjukkan peningkatan yang berarti dengan akurasi 88% dan 75.5% masing-masing untuk sinyal dengan penambahan noise 20 dB dan 10 dB. Namun demikian untuk sinyal asli justru lebih rendah, yaitu dengan akurasi maksimum hanya 94.5%. Hal ini berarti bahwa teknik ekstraksi ciri yang efektif tergantung dari kualitas sinyal masukan. Oleh karena itu sistem yang dikembangkan sebaiknya dilengkapi di bagian awalnya dengan kemampuan untuk menduga kualitas sinyal masukan.
Dari studi eksploratif terhadap nilai autokorelasi dan ragam sinyal suara, diperoleh bahwa kualitas sinyal dapat diidentifikasikasi dengan besaran yang dirumuskan sebagai negatif dari logaritma perkalian nilai absolut autokerelasi dari lag 1 hingga lag 21. Nilai ambang untuk membedakan sinyal sesuai kualitasnya dengan besaran tersebut adalah di antara 7 hingga 15. Jika nilai besaran tersebut kecil, maka teknik 1D-MFCC lebih sesuai untuk diterapkan. Sedangkan untuk hal lainnya, disarankan menggunakan teknik kuantisasi vektor terhadap nilai bispektrum sebagai pengekstraksi ciri. Berdasar nilai ambang inilah disusun prototipe sistem identifikasi pembicara menggunakan software Matlab.
......Mel-Frequency Cepstrum Coefficients (MFCC) as speech signal feature extraction technique and integrated with Hidden Markov Model (HMM) as classifier to form a speaker identification system that more robust to Gaussian Noise. The experiments is focused on the subsystem of feature extraction, whereas in the subsystem of classifier, we use the HMM. In this research, we show the ineffectiveness of lD-MFCC as feature extraction in the noisy environment empirically, analysis the problem and propose some techniques for feature extraction to handle the problem. Next, we conduct a series of experiments to show the effectiveness of the propose methods. Finally, we make a comparison among methods to capture the characteristics of each and propose a prototype of speaker identification system.
According to the result, the main problem with 1D-MFCC is in the aspect of its input, i.e. power spectrum. This quantity is not stable enough with existing noise. In this research we replace the power spectrum by bispectrum that more robust to noise. Then, the propose methods is focused on how to extract the bispectrum value and integrate with HMM to form the speaker identification system. Firstly, 1D-MFCC extended into 2D-MFCC, so the technique workable for bispectrum value as the input. In order to improve the system performance, we use scalar and vector quantization for bispectrum value representation and continue with wrapping and cosines transform prior to classifier process.
The experiments show that the conventional method based on power spectrum (ID-MFCC) gives a good result for signal without addition by Gaussian noise, with 98.8% of accuracy. Nevertheless, with noise only 20 dB, the system performance drop significantly with accuracy below 50%. The noise canceling technique can improve the accuracy up to 77.7%, but fails for noise more than 20 dB. The 2D-MFCC that developed using bispectrum as speech signal feature gives 99.9% of accuracy for original signal and 88.8% for signal corrupted by 20 dB of noise. Compare with ID-MFCC, this system performance is higher. Nevertheless, for noise more than 20 dB, the system fails.
In order to improve the system performance, we propose scalar and vector quantization for representation the bispectrum value, and continue with wrapping and cosines transform prior to classifier process. The vector quantization technique yield the system more stable with noise, and gives the highest recognition compare with others, especially for signal corrupted by noise. The accuracy for signal with addition by 20 dB and 10 dB of noise are 89% and 75.5%, respectively. But, for original signal, the accuracy is only around 90%. It means the effective technique for feature extraction depend on the quality of input signal.
According to the exploration of autocorrelation of speech signal, it is shown that the signal quality can be divided by the negative value of multiplication of absolute value of its autocorrelation from lag 1 until lag 21. The threshold lies between 7 and 15. If the value is small enough, it is better for use the lD-MFCC technique. Otherwise, we advise to use the system based on bispectrum represented by vector quantization and continue by the wrapping and cosines transform prior to the classifier process. By using this threshold, we propose a prototype for speaker identification system developed by Matlab software."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
D958
UI - Disertasi Open  Universitas Indonesia Library
<<   1 2   >>