Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 6 dokumen yang sesuai dengan query
cover
Situmeang, Matra Prima
Universitas HKBP Nonmensen, 2017
050 VISI 25:3 (2017)
Artikel Jurnal  Universitas Indonesia Library
cover
Hanifuddin Malik
"ABSTRAK
Penelitian ini melaporkan tingkat keberhasilan dari sistem speech recognition yang diimplementasikan ke dalam quadcopter sebagai kendali geraknya. Pada sistem speech recognition digunakan metode mel frequency cepstral coefficient MFCC sebagai feature extraction yang kemudian akan di-training menggunakan metode recursive neural network RNN . Metode MFCC sendiri merupakan salah satu metode feature extraction yang paling banyak digunakan untuk speech recognition. Metode tersebut memiliki tingkat keberhasilan yang cukup besar sekitar 80 - 95 . Pada penelitian ini akan digunakan database yang sudah ada dan database yang baru. Database yang sudah ada akan digunakan sebagai media pengukur tingkat keberhasilan metode RNN. Database yang baru akan dibuat menggunakan bahasa indonesia dan kemudian dibandingkan tingkat keberhasilannya dengan hasil dari database yang sudah ada. Suara yang masuk dari microphone akan diolah pada laptop yang telah memiliki modul DSP dengan metode MFCC untuk mendapatkan nilai karakteristiknya. Nilai karakteristik tersebut kemudian akan di-training menggunakan RNN yang hasilnya berupa perintah. Perintah tersebut akan menjadi input kendali bagi single board computer SBC yang hasilnya berupa pergerakan quadcopter.

ABSTRACT
This research reports a success rate of speech recognition systems that are implemented into quadcopter as motion control. Speech recognition system is using mel frequency cepstral coefficient method MFCC as feature extraction that will be trained using recursive neural network method RNN . MFCC method is one of the feature extraction method that most used for speech recognition. This method has a success rates about 80 95 . This research will use the existing database and the new database. Existing database will be used for measure the success rate of RNN method. The new database will be created using Indonesian language and then the success rate will be compared with results from an existing database. Sound input from the microphone will be processed on a laptop that has a DSP module with MFCC method to get the characteristic values. The characteristic values then will be trained using the RNN which result is command. The command will become a control input to the single board computer SBC which result is the movement of quadcopter."
2017
S67037
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhamad Bayu
"Kelapa kopyor merupakan kelapa yang mengalami kelainan genetik sehingga daging buahnya tidak menempel pada tempurung kelapa. Hal tersebut diakibatkan oleh defisiensi enzim ?-D-galaktosidase yang menyebabkan tekstur dari daging kelapa kopyor unik. Keunikan tersebut menjadikannya memiliki banyak peminat sehingga harganya lebih tinggi, mencapai 4-5 kali lipat dari harga kelapa biasa. Dari penampakan luarnya kelapa kopyor tidak berbeda dibanding kelapa biasa. Selama ini petani maupun penjual menggunakan cara tradisional dengan mendengarkan suara guncangan dari kelapa kopyor untuk membedakannya. Sayangnya, cara tersebut sangat bergantung pada pengalaman dan keterampilan dari pemilahnya.
Maka dari itu, pada penelitian ini diajukan metode deteksi kelapa kopyor berbasis pengenalan suara menggunakan Mel Frequency Cepstrum Coefficient MFCC sebagai metode ekstraksi fitur suara dan Dynamic Time Warping DTW sebagai metode pencocokan fitur suara. Objek yang akan dideteksi adalah kelapa kopyor dan kelapa biasa yang sudah tua. Dengan menggunakan kedua metode tersebut, sebuah program telah dibuat untuk dapat mendeteksi kelapa kopyor dengan akurasi sebesar 96.4.

Kopyor coconut is a coconut that has genetic abnormalities which cause the coconut meat to not stick to the coconut shell. It is caused by deficiency of enzyme D galactosidase which causes the texture of kopyor coconut meat to become unique. Its uniqueness attracts many enthusiasts resulting in a high economic value, 4 5 times that of the ordinary coconut. From its external appearance, kopyor coconut does not differ with ordinary coconut. To date, both farmers and sellers use a traditional method by listening to the sound of whisk from kopyor coconut to detect them. Unfortunately, it relies heavily on experience and expertise of the person.
Therefore, a new detection method is proposed based on sound recognition using Mel Frequency Cepstrum Coefficient MFCC as the method for feature extraction and Dynamic Time Warping DTW as the method for feature matching. Objects that will be detected are kopyor coconuts and ordinary coconut which has grown mature. By using both methods, a program has been developed to detect kopyor coconut with an accuracy 96.4.
"
Depok: Fakultas Teknik Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Rias Agnini Majdi
"Jenis-jenis alat musik yang digunakan dalam suatu musik adalah salah satu cara menjelaskan musik tersebut. Skripsi ini membahas penggunaan ekstraksi fitur MFCC dan metode klasifikasi k-NN untuk mengklasifikasi alat musik berdasarkan suara yang dihasilkannya. MFCC merupakan sebuah metode yang mampu mengolah sebuah data suara sehingga menghasilkan beberapa fitur yang bersifat numerik. k-NN merupakan sebuah metode klasifikasi yang menggunakan jarak dari fitur tiap-tiap observasi. Pengerjaan skripsi dilakukan dengan mengekstraksi fitur dari data-data suara yang tersedia dengan MFCC lalu menggunakan fitur-fitur yang diekstraksi tersebut untuk metode klasifikasi k-NN. Data yang digunakan adalah data suara alat musik yang tersedia pada dataset Philharmonia Orchestra Sound Samples. Hasil dari penerapan metode klasifikasi k-NN pada skripsi ini menunjukkan bahwa model k-NN mampu meraih nilai akurasi hingga 94,84%.



Instrumentation is one way to describe a music. This study discusses the use of MFCC feature extraction and k-NN classification method to classify instruments by the sound they produce. MFCC is a method capable of processing a sound data into a set of numeric features. k-NN is a classification method that uses the distance of the features of each observations. The process of this study uses MFCC to extract the features of available sound data and use these extracted features to fit a k-NN model. The data used in this study are the sound data available in the Philharmonia Orchestra Sound Samples dataset. The result of k-NN model fitting in this study shows that the model is capable of reaching an accuracy of 94.84%.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Agus Buono
"Suara merupakan suatu besaran yang memenuhi syarat sebagai ciri biometrik yang efektif dan efisien. Namun demikian, suara adalah fenomena yang merupakan perpaduan multidimensi serta dipengaruhi berbagai aspek, seperti karakteristik pembicara (dimensi titik artikularis, emosi, kesehatan, umur, jenis kelamin, dialek), bahasa, dan lingkungan (background dan media transmisi), sehingga sistem yang telah dikembangkan hingga sekarang belum bisa bekerja dengan baik pada situasi real. Hal inilah yang melatarbelakangi penelitian ini dilakukan.
Pada penelitian ini dilakukan kajian terhadap teknik higher order statistics (HOS) dan model Mel-Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri yang diintegrasikan dengan Hidden Markov Model (HMM) sebagai pengenal pola untuk menghasilkan sistem identifikasi pembicara yang lebih robust terhadap noise, khususnya Gaussian Noise. Penelitian yang dilakukan lebih difokuskan pada bagian ekstraksi Ciri dari sistem identifikasi pembicara. Sementara ini, bagian pengenal pola menggunakan teknik yang telah banyak dikaji pada berbagai riset pemrosesan suara dan memberikan hasil yang baik, yaitu HMM. Strategi yang dilakukan adalah melalui pendekatan empiris untuk menunjukkan kegagalan teknik ekstraksi ciri konvensional, yaitu ID-MFCC yang berbasis power spektrum, pada lingkungan ber-noise, dilanjutkan dengan mengkaji permsalahannya, dan diusulkan teknik ekstraksi berbasis HOS untuk mengatasi pemasalahan tersebut. Berikutnya adalah melakukan serangkaian percobaan untuk menunjukkan efektifitas teknik yang diusulkan, studi komparasi dan mengajukan suatu usulan rancangan sistem.
Berdasar bukti empiris, terlihat bahwa permasalahan 1D-MFCC adalah pada inputnya, yaitu power spektrum yang bersifat tidak stabil terhadap noise. Pada penelitian ini diusulkan untuk mengganti power spektrum dengan bispektrum yang secara teori lebih robust terhadap noise. Teknik yang diusulkan adalah suatu metodologi untuk mengekstrak nilai bispektrum sinyal suara dengan MFCC dan diintegrasikan dengan HMM untuk membentuk sistem identitikasi pembicara. Oleh karena itu, pada penelitian ini dilakukan perluasan teknik ID-MFCC menjadi 2D-MFCC. Untuk meningkatkan efektifitas sistem, diusulkan teknik kuantisasi sebagai cara merepresentasikan nilai bispektrum sehingga distribusi spasialnya terakomodasi, dan dilanjutkan dengan transformasi wrapping dan kosinus seperti pada MFCC.
Hasil percobaan menunjukkan bahwa teknik konvensional yang berbasis pada power spektrum dapat menangkap ciri suara tanpa penambahan noise dengan baik dan jika dipadukan dengan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri dan HMM sebagai pengenal pola, maka akan menghasilkan sistem dengan akurasi di atas 98.8%. Namun demikian, dengan penambahan noise 20 dB, nilai power spektnlm mengalami perubahan secara nyata, sehingga akurasi sistem jatuh hingga level di bawah 50%. Teknik penghapusan noise secara adoptive mampu meningkatkan akurasi menjadi 77.7%, namun dengan noise yang lebih besar, teknik ini gagal bekeqia dengan baik.
Sistem yang dikembangkan dengan menggunakan bispektrum sebagai penentu ciri dipadukan dengan MFCC yang diperluas ke dua dimensi berhasil memberikan akurasi 99.9% untuk sinyal suara asli. Namun untuk sinyal dengan noise 20 dB, akurasi sistem menjadi sekitar 70%. Optimasi pada bentuk Elter pada proses MFCC dengan algoritma genetika mampu meningkatkan alcurasi menjadi 88.8% Akan tetapi dengan noise yang lebih tinggi, sistem gagal bekerja dengan baik.
Teknik kuantisasi skalar terhadap nilai bispektrum yang dilanjutkan dengan proses wrapping dan transfomasi kosinus seperti yang dilakukan pada MFCC mampu meningkatkan robustness sistem terhadap noise dengan akurasi 99.5% dan 83% masing-rnasing untuk sinyal asli dan sinyal dengan penambahan noise 20 dB. Namun untuk noise 10 dB, teknik ini gagal bekerja dengan baik. Dari percobaan dengan teknik kuantisasi velctor, terlihat bahwa rata-rata nilai bispektrum di atas kuartil tiga adalah penduga terbaik bagi nilai bispektrum setiap channel dengan jumlah 400 channel. Selain itu nilai parameter yang optimum pada proses ekstraksi ciri dengan kuantisasi vektor dilanjutkan dengan proses wrapping dan transformasi kosinus pada sinyal dengan penambahan noise adalah jarak filter linear 75, jarak Elter logaritma 1.06 dan proporsi filter linear dan legaritma 30:20. Kinerja sistem menunjukkan peningkatan yang berarti dengan akurasi 88% dan 75.5% masing-masing untuk sinyal dengan penambahan noise 20 dB dan 10 dB. Namun demikian untuk sinyal asli justru lebih rendah, yaitu dengan akurasi maksimum hanya 94.5%. Hal ini berarti bahwa teknik ekstraksi ciri yang efektif tergantung dari kualitas sinyal masukan. Oleh karena itu sistem yang dikembangkan sebaiknya dilengkapi di bagian awalnya dengan kemampuan untuk menduga kualitas sinyal masukan.
Dari studi eksploratif terhadap nilai autokorelasi dan ragam sinyal suara, diperoleh bahwa kualitas sinyal dapat diidentifikasikasi dengan besaran yang dirumuskan sebagai negatif dari logaritma perkalian nilai absolut autokerelasi dari lag 1 hingga lag 21. Nilai ambang untuk membedakan sinyal sesuai kualitasnya dengan besaran tersebut adalah di antara 7 hingga 15. Jika nilai besaran tersebut kecil, maka teknik 1D-MFCC lebih sesuai untuk diterapkan. Sedangkan untuk hal lainnya, disarankan menggunakan teknik kuantisasi vektor terhadap nilai bispektrum sebagai pengekstraksi ciri. Berdasar nilai ambang inilah disusun prototipe sistem identifikasi pembicara menggunakan software Matlab.
......Mel-Frequency Cepstrum Coefficients (MFCC) as speech signal feature extraction technique and integrated with Hidden Markov Model (HMM) as classifier to form a speaker identification system that more robust to Gaussian Noise. The experiments is focused on the subsystem of feature extraction, whereas in the subsystem of classifier, we use the HMM. In this research, we show the ineffectiveness of lD-MFCC as feature extraction in the noisy environment empirically, analysis the problem and propose some techniques for feature extraction to handle the problem. Next, we conduct a series of experiments to show the effectiveness of the propose methods. Finally, we make a comparison among methods to capture the characteristics of each and propose a prototype of speaker identification system.
According to the result, the main problem with 1D-MFCC is in the aspect of its input, i.e. power spectrum. This quantity is not stable enough with existing noise. In this research we replace the power spectrum by bispectrum that more robust to noise. Then, the propose methods is focused on how to extract the bispectrum value and integrate with HMM to form the speaker identification system. Firstly, 1D-MFCC extended into 2D-MFCC, so the technique workable for bispectrum value as the input. In order to improve the system performance, we use scalar and vector quantization for bispectrum value representation and continue with wrapping and cosines transform prior to classifier process.
The experiments show that the conventional method based on power spectrum (ID-MFCC) gives a good result for signal without addition by Gaussian noise, with 98.8% of accuracy. Nevertheless, with noise only 20 dB, the system performance drop significantly with accuracy below 50%. The noise canceling technique can improve the accuracy up to 77.7%, but fails for noise more than 20 dB. The 2D-MFCC that developed using bispectrum as speech signal feature gives 99.9% of accuracy for original signal and 88.8% for signal corrupted by 20 dB of noise. Compare with ID-MFCC, this system performance is higher. Nevertheless, for noise more than 20 dB, the system fails.
In order to improve the system performance, we propose scalar and vector quantization for representation the bispectrum value, and continue with wrapping and cosines transform prior to classifier process. The vector quantization technique yield the system more stable with noise, and gives the highest recognition compare with others, especially for signal corrupted by noise. The accuracy for signal with addition by 20 dB and 10 dB of noise are 89% and 75.5%, respectively. But, for original signal, the accuracy is only around 90%. It means the effective technique for feature extraction depend on the quality of input signal.
According to the exploration of autocorrelation of speech signal, it is shown that the signal quality can be divided by the negative value of multiplication of absolute value of its autocorrelation from lag 1 until lag 21. The threshold lies between 7 and 15. If the value is small enough, it is better for use the lD-MFCC technique. Otherwise, we advise to use the system based on bispectrum represented by vector quantization and continue by the wrapping and cosines transform prior to the classifier process. By using this threshold, we propose a prototype for speaker identification system developed by Matlab software."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
D958
UI - Disertasi Open  Universitas Indonesia Library
cover
Philipus Kristian Renaldy
"

Emosi merupakan hal penting yang dimiliki oleh manusia. Banyak riset yang sudah dilakukan untuk menganalisis emosi seseorang secara langsung maupun tidak langsung. Salah satu topik dari machine learning yang berkembang adalah sistem yang mampu mempelajari isi suara manusia untuk menentukan emosi seseorang yang dinamakan speech emotion recognition. Banyak riset yang sudah dilakukan masih menggunakan dataset berbahasa Inggris, untuk itu diperlukan penelitian speech emotion recognition dengan menggunakan dataset berbahasa Indonesia. Pada penelitian ini dilakukan analisa speech emotion recognition menggunakan  4 model berbeda yaitu Convolutional Neural Network (CNN), Support Vector Machines (SVM), K-Nearest Neighbor (KNN), dan Logistic Regression (LR). Penelitian ini dilakukan dengan menggunakan hasil ekstraksi dari Mel-frequency Cepstral Coefficient (MFCC) yang dimasukkan ke dalam bentuk matriks 2D sebagai input menuju model percobaan. Dataset yang digunakan merupakan cuplikan dialog berbahasa Indonesia dengan karakteristik emosi tertentu yang sudah dikelompokkan terlebih dahulu. Dari percobaan yang telah dilakukan, didapatkan hasil bahwa model SVM memiliki tingkat rata-rata akurasi tertinggi jika dibandingkan dengan model lainnya, yaitu sebesar 59%. Sedangkan untuk model LR, KNN, dan CNN didapatkan tingkat akurasi rata-rata secara berurutan sebesar 54,5%; 53,5%; dan 47,7%.


Emotions are important things in human life. A lot of research had been done to analyze persons' emotions directly or indirectly. One of the topics of machine learning that is developing is a system that could understand the content of the human voice to determine a person's emotions called speech emotion recognition. Much of the research that had been done still uses English datasets. Therefore, speech emotion recognition research using Indonesian language datasets is needed. In this study, Speech Emotion Recognition analysis was performed using 4 different models, such as Convolutional Neural Network (CNN), Support Vector Machines (SVM), K-Nearest Neighbor (KNN), and Logistic Regression (LR). This study was conducted using the extraction outputs from the Mel-frequency Cepstral Coefficient (MFCC) which was converted into a 2D matrix. The output would be used as an input to the model. The dataset used was a snippet of Indonesian dialogue with several emotional characteristics that had been grouped. Based on this study, the results showed that the SVM model had the highest average level of accuracy around 59%. Meanwhile, for the LR, KNN, and CNN models, the average accuracy rate were 54.5%; 53.5%; and 47.7%.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library