Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 10 dokumen yang sesuai dengan query
cover
Martin Hizkia Parasi
"

Perkembangan teknologi pemrosesan ucapan sangat pesat akhir-akhir ini. Namun, fokus penelitian dalam Bahasa Indonesia masih terbilang sedikit, walaupun manfaat dan benefit yang dapat diperoleh sangat banyak dari pengembangan tersebut. Hal tersebut yang melatarbelakangi dilakukan penelitian ini. Pada penelitian ini digunakan model transfer learning (Inception dan ResNet) dan CNN untuk melakukan prediksi emosi terhadap suara manusia berbahasa Indonesia. Kumpulan data yang digunakan dalam penelitian ini, diperoleh dari berbagai film dalam Bahasa Indonesia. Film-film tersebut dipotong menjadi potongan yang lebih kecil dan dilakukan dua metode ekstraksi fitur dari potongan audio tersebut. Ekstraksi fitur yang digunakan adalah Mel-Spectrogram dan MelFrequency Cepstral Coefficient (MFCC). Data yang diperoleh dari kedua ekstraksi fitur tersebut dilatih pada tiga model yang digunakan (Inception, ResNet, serta CNN). Dari percobaan yang telah dilakukan, didapatkan bahwa model ResNet memiliki performa yang lebih baik dibanding Inception dan CNN, dengan rata-rata akurasi 49%. Pelatihan model menggunakan hyperparameter dengan batch size sebesar 16 dan dropout (0,2 untuk Mel-Spectrogram dan 0,4 untuk MFCC) demi mendapatkan performa terbaik.


Speech processing technology advancement has been snowballing for these several years. Nevertheless, research in the Indonesian language can be counted to be little compared to other technology research. Because of that, this research was done. In this research, the transfer learning models, focused on Inception and ResNet, were used to do the speech emotion recognition prediction based on human speech in the Indonesian language. The dataset that is used in this research was collected manually from several films and movies in Indonesian. The films were cut into several smaller parts and were extracted using the Mel-Spectrogram and Mel-frequency Cepstrum Coefficient (MFCC) feature extraction. The data, which is consist of the picture of Mel-spectrogram and MFCC, was trained on the models followed by testing. Based on the experiments done, the ResNet model has better accuracy and performance compared to the Inception and simple CNN, with 49% of accuracy. The experiments also showed that the best hyperparameter for this type of training is 16 batch size, 0.2 dropout sizes for Mel-spectrogram feature extraction, and 0.4 dropout sizes for MFCC to get the best performance out of the model used.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Tobing, Joseph H.
"ABSTRACT
Musik memiliki pengaruh yang besar dalam kehidupan manusia. Berbagai macam bunyi dapat memunculkan emosi tertentu dalam pendengarnya. Music Emotion Recognition MER adalah sebuah bidang yang bertujuan untuk mendeteksi emosi dalam sebuah karya musik. Proses untuk pendeteksian ini dilakukan menggunakan sistem-sistem terotomasi yang berkaitan dengan machine learning. MER sudah terbukti dalam menggolongkan berbagai jenis lagu kedalam kategori emosi tertentu dan juga dalam mendeteksi emosi yang terdapat dalam sebuah karya musik menggunakan berbagai macam algoritma machine learning. Pada penelitian ini, dilakukan analisis terhadap hubungan melodi dalam pendeteksian emosi dalam musik dengan mengamati nilai rata-rata not MIDI yang terdapat dalam sebuah lagu dan mengkomputasikan tingkat ketepatan yang dihasilkan dalam memprediksi tingkat emosi dalam karya musik tersebut menggunakan algoritma Support Vector Regression SVR . Sistem MER yang digunakan dalam penelitian ini adalah sistem dimensional yang memiliki nilai arousal dan valence. Hasil dari penelitian adalah bahwa terdapat hubungan antara melodi dengan emosi yang terdapat dalam sebuah lagu, yang dapat dilihat dari selisih data prediksi dan data referensi arousal dan valence. Nilai rata-rata dari selisih pengujian arousal adalah 0.00273 dan standar deviasinya adalah 1.15528, sementara itu nilai rata-rata dari selisih pengujian valence adalah -0.08 dan standar deviasi 0.96.

ABSTRACT
Music has a big influence in human life. A variation of sounds can evoke a certain emotion in the listener. Music Emotion Recognition MER is a field that is geared towards the detection of emotions in music. The process to for emotion detection is by using automated systems which are related with machine learning. MER has been proven capable to categorize various sorts of music by their emotional characteristics and also detecting emotion that is in a certain musical piece using various kinds of machine learning algorithms. In this study, we conduct an analysis towards a relation between the melody of a music piece by examining the average MIDI note value in a song and compute the accuracy rate in predicting the emotion contained in a song using the Support Vector Regression SVR algorithm. The result of this study is that there is a connection between the melody and the emotion that is contained in a song, which can be seen by the difference in the predicition value and the reference value in the arousal dan valence tests. The average of the difference in the arousal test is 0.00273 and the standard deviation is 1.15528, while the average of the difference in the arousal test is 0.08 and the standard deviation is 0.96. "
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Idham Ramadito
"Proses identifikasi dan pengenalan emosi seseorang selama ini hanya dapat dilakukan secara langsung dengan melihat raut wajahnya secara langsung dan mengolah raut wajah dari orang tersebut untuk mengerti emosi yang sedang dirasakan. Emosi dari raut wajah seseorang merupakan sesuatu yang paling susah dimengerti dan manfaat dari aplikasi yang dapat mengenali emosi ini dari raut wajah seseorang sangat tinggi. Untuk memenuhi minat yang tinggi atas pengenalan emosi pada raut wajah seseorang, penulis berniat untuk mengembangkan sebuah aplikasi yang dapat mengenali emosi seseorang dari raut wajahnya dengan menggunakan machine learning face recognition. Penulis berniat menggunakan framework CNN sebagai algoritma untuk melakukan machine learning face emotion recognition karena algoritma ini yang paling cocok dan mudah untuk digunakan, serta menggunakan arsitektur EfficientNet karena arsitektur ini merupakan arsitektur pengembangan dari Google yang bersifat opensource dan mudah digunakan karena sudah terintegrasi langsung dengan Keras. Program face emotion recognition ini menggunakan arsitektur EfficientNetB2 dan menggunakan dataset FER2013 berhasil mendapatkan akurasi training di angka 95.55% dan akurasi validasi sebesar 63.71%. Walaupun terjadinya overfitting karena perbedaan akurasi validasi dan training yang besar, akurasi testing dari program ini mendapatkan angka 88.21% dan berhasil mendeteksi 7 kategori emosi yang dihasilkan oleh raut wajah manusia
The process of identifying and recognizing a person's emotions so far can only be done directly by looking at his face directly and processing the facial expressions of the person to understand the emotions that are being felt. The emotion of a person's facial expression is something that is the most difficult to understand and the benefits of an application that can recognize this emotion from a person's facial expression is very high. To meet the high interest in recognizing emotions on a person's facial expression, the author intends to develop an application that can recognize a person's emotions from his facial expression using machine learning face recognition. The author intends to use the CNN framework as an algorithm to perform machine learning face emotion recognition because this algorithm is the most suitable and easy to use and uses the EfficientNet architecture because this architecture is a development architecture from Google that is open source and easy to use because it is integrated directly with Keras. This face emotion recognition program using the EfficientNetB2 architecture and using the FER2013 dataset managed to get a training accuracy of 95.55% and a validation accuracy of 63.71%. Despite the occurrence of overfitting due to the large difference in validation and training accuracy, the testing accuracy of this program scored 88.21% and succeeded in detecting 7 categories of emotions generated by human facial expressions.
"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mohammad Darrel Tristan Budiroso
"Penelitian ini menangani masalah pengenalan emosi dalam percakapan berbahasa Indonesia, yang penting untuk aplikasi seperti pengenalan ucapan, interaksi manusiamesin, dan analisis sentimen. Untuk mengatasi kompleksitas data suara dan teks, penelitian ini menggabungkan Word Embedding (Word2Vec) dan spektrum suara (MFCC) menggunakan Convolutional Neural Network (CNN). Word2Vec mengubah dataset suara menjadi representasi teks vektor, sementara MFCC digunakan untuk ekstraksi fitur dari spektrum suara. Model yang dikembangkan dievaluasi dengan dataset percobaan berbahasa Indonesia, dan pendekatan Weighted Average Ensemble yang mengintegrasikan kedua metode ini mencapai akurasi 70%. Hasil ini menunjukkan bahwa integrasi teknologi Word Embedding dan analisis spektrum suara dapat meningkatkan akurasi pengenalan emosi dalam bahasa Indonesia. Penelitian ini berkontribusi signifikan terhadap teknologi pengenalan emosi dan berpotensi meningkatkan interaksi manusia dengan teknologi serta aplikasi dalam analisis sentimen dan pengolahan bahasa alami.

This research addresses the issue of emotion recognition in Indonesian language conversations, which is crucial for applications such as speech recognition, humanmachine interaction, and sentiment analysis. To tackle the complexity of voice and text data, this study combines Word Embedding (Word2Vec) and sound spectrum analysis (MFCC) using Convolutional Neural Network (CNN). Word2Vec is used to convert voice datasets into vector text representations, while MFCC is employed for feature extraction from the sound spectrum. The developed models were evaluated using an experimental dataset in Indonesian, and the Weighted Average Ensemble approach, which integrates both methods, achieved an accuracy of 70%. These results indicate that integrating Word Embedding technology and sound spectrum analysis can significantly enhance the accuracy of emotion recognition in Indonesian conversations. This research contributes significantly to the development of emotion recognition technology and has the potential to improve human interaction with technology, as well as applications in sentiment analysis and natural language processing."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Prima Dewi Purnamasari
"Terdapat dua masalah besar yang diselesaikan dalam disertasi ini, yaitu masalah pemrosesan sinyal dan masalah aplikasi sinyal EEG dalam pengenalan keadaan emosi. Masalah tersebut diselesaikan dengan metode kecerdasan komputasional yang terdiri dari bagian utama, ekstraksi fitur dan klasifikasi. Pada bagian ekstraksi fitur, pada disertasi ini dibahas penggunaan metode konvensional ekstraksi fitur berbasis power spectrum yaitu dengan Discrete Wavelet Transform DWT , dan penggunaan metode baru ekstraksi fitur yang diajukan yaitu analisis bispektrum dengan filter piramida 3D, serta dengan Relative wavelet bispectrum RWB.
Untuk menyelesaikan permasalahan penerapannya pada sistem otomatis pengenal emosi, maka classifier dengan jenis Artificial Neural Network ANN digunakan.Penggunaan DWT dalam metode ekstraksi fitur menunjukkan bahwa fitur Relative Wavelet Energy DWT RWE memberikan recognition rate terbaik, konsep energi relatif ini kemudian digunakan pada metode baru yang diajukan. Pada metode baru ekstraksi fitur menggunakan analisis bispektrum dengan filter piramida 3D, diketahui bahwa persentase mean bispektrum memberikan recognition rate yang terbaik dengan kompleksitas yang lebih rendah 74.22 untuk arousal dan 77.58 untuk valence.
Filter non-overlap dengan ukuran alas yang bervariasi memberikan recognition rate tertinggi, khususnya secara signifikan terlihat untuk jenis emosi arousal. Penurunan jumlah channel EEG sampai dengan 8 channel dapat dilakukan untuk menurunkan biaya komputasi. Metode baru ekstraksi fitur yaitu RWB telah diajukan dalam disertasi ini dan menunjukkan pengenalan yang sangat baik mencapai 90 untuk data sinyal EEG orang alkoholik. Semakin besar lag yang digunakan dalam perhitungan korelasi, semakin tinggi recognition rate yang diperoleh.
Capaian dari penelitian ini membuktikan bahwa RWB cocok untuk digunakan sebagai metode ekstraksi fitur untuk klasifikasi orang alkoholik, dan dapat dipertimbangkan untuk digunakan pada aplikasi lainnya. Dari keempat classifier yang diujikan, dari segi recognition rate, PNN sedikit lebih unggul daripada BPNN, namun uji sensitivity, specificity dan PPV serta grafik ROC menunjukkan bahwa BPNN merupakan classifier yang lebih baik dibanding PNN. Di sisi lain, waktu komputasi PNN untuk mencapai recognition rate maksimum adalah sekitar 3,5 kali lebih cepat dibanding BPNN.

There are two major problems resolved in this dissertation, which are signal processing problem and the problem in EEG signal in the application of recognizing human emotional states. The problems were solved by applying a computational intelligence method consists of two main parts, the feature extraction and the classification. In the feature extraction sub system, this study improved a conventional methods using power spectrum from discrete wavelet transform DWT, and proposed a new method for feature extraction by using bispectrum analysis with 3D pyramid flter, as well as using relative wavelet bispectrum RWB.
To solve the problem in the application of EEG signal for automatic emotion recognition system, the artificial neural network ANN classifier was used.The use of DWT in the feature extraction method shows that the relative wavelet energy DWT RWE feature provides the best recognition rate, the relative energy concept was then used in the proposed new feature extraction methods. In the proposed feature extraction using bispectrum analysis with 3D pyramid filters, the mean percentage of bispectrum feature gave the best recognition rate with lower complexity i.e. 74.22 for arousal and 77.58 for valence.
Non overlap filters with varied base sizes provided the highest recognition rate, and significantly seen for the arousal emotion. The selection of eight EEG channels can be conducted to lower the cost of computing. A novel feature extraction method, the RWB, showed an excellent recognition for the alcoholic person. The larger the lag used in the correlation calculation in RWB, the higher the recognition rate obtained.
The achievements of this study proved that RWB is suitable as a feature extraction method for the classification of alcoholic subjects, and may be considered for use in other applications.Of the four classifiers tested, PNN is slightly superior to BPNN in terms of recognition rate however, the sensitivity, specificity and PPV tests and ROC graph shown that BPNN is a better classifier than PNN. On the other hand, the PNN computing time to reach the maximum recognition rate was about 3.5 times faster than BPNN."
Depok: Fakultas Teknik Universitas Indonesia, 2017
D2271
UI - Disertasi Membership  Universitas Indonesia Library
cover
Arvalinno
"

Kecerdasan buatan atau Artificial Intelligence (AI) banyak berkembang dalam sektor-sektor seperti: speech recognition, computer vision, Natural Language Processing, dll. Salah satu sektor penting yang banyak dikembangkan oleh peneliti adalah Speech Emotion Recognition atau pengenalan emosi berdasarkan suara manusia. Penelitian ini semakin berkembang karena timbul sebuah tantangan bagi manusia untuk memiliki interaksi mesin dan manusia yang lebih natural yaitu suatu mesin yang dapat merespon emosi manusia dengan memberikan balasan yang tepat juga. Perancangan Speech Emotion Recognition pada penelitian ini menggunakan dataset berupa fitur ekstraksi audio MFCC, Spectrogram, Mel Spectrogram, Chromagram, dan Tonnetz serta memanfaatkan metode Transfer Learning VGG-16 dalam pelatihan modelnya. Dataset yang digunakan diperoleh dari pemotongan audio dari beberapa film berbahasa Indonesia dan kemudian audio yang diperoleh diekstraksi fitur dalam kelima bentuk fitur yang disebut sebelumnya. Hasil akurasi model paling baik dalam penelitian ini adalah model transfer learning VGG-16 dengan dataset Mel Spectrogram yaitu dengan nilai akurasi 56.2%. Dalam pengujian model dalam pengenalan setiap emosi, f1-score terbaik diperoleh model transfer learning VGG-16 dengan dataset Mel Spectrogram dengan f1-score yaitu 55.5%. Skala mel yang diterapkan pada ekstraksi fitur mel spectrogram berpengaruh terhadap baiknya kemampuan model dalam mengenali emosi manusia.


Artificial Intelligence has been used in many sectors, such as speech recognition, computer vision, Natural Language Processing, etc. There was one more important sector that has been developed well by the scientists which are Speech Emotion Recognition. This research is developing because of the new challenge by human to have a better natural interaction between machines and humans where machines can respond to human’s emotions and give proper feedback. In this research, to create the speech emotion recognition system, audio feature extraction such as MFCC, Spectrogram, Mel Spectrogram, Chromagram, and Tonnetz were used as input, and using VGG-16 Transfer Learning Method for the model training. The datasets were collected from the trimming of audio from several Indonesian movies, the trimmed audio will be extracted to the 5 features mentioned before. The best model accuracy is VGG-16 with Mel Spectrogram dataset which has reached 56.2% of accuracy. In terms of recognizing the emotion, the best f1-score is reached by the model VGG-16 with Mel Spectrogram dataset which has 55.5% of f1-score. Mel scale that is applied to the feature extraction of mel spectrogram affected the model’s ability to recognize human emotion.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jonathan
"Emosi atau perasaan manusia adalah salah satu faktor yang tidak dapat dikendalikan dalam aktivitas apapun. Tidak sedikit juga pekerjaan yang seringkali berkaitan dengan emosi manusia terutama di industri hiburan dan juga kesehatan. Oleh karena itu, 1 dekade kebelakang banyak riset yang dilakukan untuk mempelajari emosi manusia secara langsung maupun menggunakan teknologi. Pengembangan model speech emotion recognition berbahasa Indonesia masih sangat sedikit dan oleh karena itu dibutuhkan perbandingan secara spesifik pada penelitian ini diantara dua model classifier yaitu Convolutional Neural Network (CNN) dan juga Multilayer Perceptron (MLP) untuk menentukan model yang menghasilkan akurasi terbaik dalam memprediksi emosi dari suara manusia.
Dalam speech recognition secara umum, salah satu faktor penting dalam mendapatkan model dengan akurasi terbaik adalah metode ekstraksi fiturnya. Oleh karena itu, penelitian ini menggunakan 3 fitur untuk melakukan pelatihan terhadap model yaitu Mel-frequency Cepstral Coefficients (MFCC), Mel-Spectrogram dan chroma. Dari 3 fitur ini, divariasikan dan menghasilkan 7 metode ekstraksi yang berbeda untuk digunakan sebagai input pelatihan model.
Terakhir, untuk memastikan bahwa model sudah menggunakan parameter terbaik, dilakukan eksperimen dengan membandingkan model yang menggunakan batch size serta activation function yang berbeda. Ditemukan bahwa dengan menggunakan CNN dan fitur gabungan antara MFCC, mel-spectrogram dan juga chroma menghasilkan model dengan skor akurasi 50.6% sedangkan menggunakan MLP dengan fitur yang sama menghasilkan model dengan skor akurasi 58.47%.

Emotions or human feelings are one of the factors that cannot be controlled in any activity. There are also many jobs that are often related to human emotions, especially in the entertainment and health industries. The development of speech emotion recognition models in Indonesian is still very little and therefore a specific comparison is needed in this study between two classifier models, namely Convolutional Neural Network (CNN) and Multilayer Perceptron (MLP) to determine the model that produces the best accuracy in predicting the emotion of the human voice.
In speech recognition in general, one of the important factors in acquiring a model with the best accuracy is the feature extraction method. Therefore, this study uses 3 features to train the model, namely Mel-frequency Cepstral Coefficients (MFCC), Mel-Spectrogram and chroma. From these 3 features, they were varied and resulted in 7 different extraction methods to be used as model training inputs.
Finally, to ensure that the model has used the best parameters, an experiment was conducted by comparing models using different batch sizes and activation functions. It was found that using CNN and the combined features of MFCC, mel-spectrogram and also chroma resulted in a model with an accuracy score of 50.6% while using MLP with the same features resulted in a model with an accuracy score of 58.47%.
"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yumna Pratista Tastaftian
"Speech Emotion Recognition adalah teknologi yang mampu bisa mendeteksi emosi lewat data suara yang diproses oleh sebuah mesin. Media yang sering digunakan untuk menjadi media interaksi antara 2 orang atau lebih yang saat ini sedang digunakan oleh banyak orang adalah Podcast, dan Talkshow. Seiring berkembangya SER, penelitian terakhir menunjukkan bahwa penggunaan metode Deep Learning dapat memberikan hasil yang memuaskan terhadap sistem SER. Pada penelitian ini akan diimplementasikan model Deep Learning yaitu dengan Recurrent Neural Network (RNN) variasi Long Short Term Memory (LSTM) untuk mengenali 4 kelas emosi (marah, netral, sedih, senang). Penelitian ini menguji model yang digunakan untuk mengenali emosi dari fitur akustik pada data secara sekuensial. Skenario training dan testing dilakukan dengan metode one-against-all dan mendapatkan hasil (1) Dataset talkshow mengungguli dataset podcast untuk tipe 1 dan 2 dan untuk semua emosi yang dibandingkan; (2) Untuk dataset podcast pada emosi marah, senang, dan sedih didapatkan akurasi optimal pada dataset tipe 1 yaitu 67.67%, 71.43%, dan 68,29%, sedangkan untuk emosi netral didapatkan akurasi terbaik pada dataset tipe 2 dengan 77.91%; (3) Untuk dataset talkshow pada emosi marah, netral, dan sedih didapatkan akurasi terbaik pada dataset tipe 2 yaitu 78.13%, 92.0%, dan 100%. Dapat disimpulkan bahwa dataset talkshow secara garis besar memberikan hasil yang lebih optimal namun memiliki variasi data yang lebih sedikit dari dataset podcast. Dari sisi panjang data, pada penelitian ini didapatkan akurasi yang lebih optimum pada dataset dengan tipe 2.

Speech Emotion Recognition is a technology that is able to detect emotions through voice data that is processed by a machine. Media that is often used to be a medium of interaction between two or more people who are currently being used by many people are Podcasts, and Talkshows. As SER develops, recent research shows that the use of the Deep Learning method can provide satisfactory results on the SER system. In this study a Deep Learning model will be implemented, this study uses Long Short Term Memory (LSTM) as one of the variation of Recurrent Neural Network (RNN) to recognize 4 classes of emotions (angry, neutral, sad, happy). This study examines the model used to recognize emotions from acoustic features in sequential data. Training and testing scenarios are conducted using the one-against-all method and get results (1) The talkshow dataset outperforms the podcast dataset for types 1 and 2 and for all emotions compared; (2) For the podcast dataset on angry, happy, and sad emotions, the optimal accuracy in type 1 dataset is 67.67%, 71.43%, and 68.29%, while for neutral emotions the best accuracy is obtained in type 2 dataset with 77.91%; (3) For the talkshow dataset on angry, neutral, and sad emotions the best accuracy is obtained for type 2 datasets, namely 78.13%, 92.0%, and 100%. It can be concluded that the talkshow dataset in general gives more optimal results but has fewer data variations than the podcast dataset. In terms of data length, this study found more optimum accuracy in dataset with type 2."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ali Alatas
"Dalam kehidupan sehari-hari, emosi memainkan peran penting dalam membentuk cara manusia berkomunikasi dan berinteraksi, baik dengan sesama maupun dengan teknologi. Dalam bidang Human-Computer Interaction (HCI), pengenalan emosi menjadi salah satu inovasi yang memungkinkan sistem komputer memahami perasaan manusia secara lebih mendalam. Penelitian ini bertujuan untuk mengembangkan sistem Speech Emotion Recognition (SER) berbasis suara percakapan berbahasa Indonesia menggunakan kombinasi model Convolutional Neural Network (CNN) dan Gated Recurrent Unit (GRU), dengan dukungan teknik augmentasi data untuk meningkatkan performa dan generalisasi model. Penelitian ini dilakukan melalui tiga tahap pengujian: pertama, eksperimen menggunakan benchmark dari TESS Dataset yang berbahasa Inggris; kedua, eksperimen terhadap jumlah augmentasi data untuk menentukan konfigurasi terbaik; dan ketiga, eksperimen membandingkan kinerja model CNN, GRU, dan CNN-GRU. CNN digunakan untuk mengekstraksi fitur suara utama, seperti MFCC, Chroma, Zero-Crossing Rate (ZCR), RMS, dan Spectral Contrast, sementara GRU menangkap pola temporal dalam data. Hasil penelitian menunjukkan bahwa kombinasi CNN-GRU dengan 6 jenis augmentasi data memberikan performa terbaik, dengan akurasi 94.49% dan loss 0.8136 pada dataset berbahasa Indonesia, serta akurasi 99.72% dan loss 0.1915 pada benchmark dari TESS Dataset yang berbahasa Inggris. Temuan ini menegaskan bahwa teknik augmentasi data efektif dalam meningkatkan stabilitas dan akurasi model, bahkan ketika dihadapkan pada variasi kualitas data. Penelitian ini berkontribusi pada pengembangan teknologi HCI yang lebih intuitif, dengan potensi penerapan dalam mendukung kesehatan mental, layanan berbasis suara, dan sistem pendidikan yang responsif terhadap emosi manusia.

In daily life, emotions play a crucial role in shaping how humans communicate and interact, both with each other and with technology. In the field of Human-Computer Interaction (HCI), emotion recognition has become one of the innovations that enable computer systems to deeply understand human feelings. This research aims to develop a Speech Emotion Recognition (SER) system based on Indonesian speech using a combination of Convolutional Neural Network (CNN) and Gated Recurrent Unit (GRU) models, supported by data augmentation techniques to improve the performance and generalization of the model. The research was conducted through three stages of testing: first, an experiment using the TESS Dataset benchmark in English; second, an experiment on the number of data augmentations to determine the optimal configuration; and third, an experiment comparing the performance of CNN, GRU, and CNN-GRU models. CNN was utilized to extract key audio features, such as MFCC, Chroma, Zero-Crossing Rate, RMS, and Spectral Contrast, while GRU captured temporal patterns in the data. The results showed that the combination of CNN-GRU with 6 types of data augmentation provided the best performance, achieving an accuracy of 94.49% and a loss of 0.8136 on the Indonesian dataset, as well as an accuracy of 99.72% and a loss of 0.1915 on the benchmark TESS Dataset in English. These findings affirm that data augmentation techniques are effective in improving model stability and accuracy, even when faced with variations in data quality. This research contributes to the development of more intuitive HCI technologies, with potential applications in supporting mental health, voice-based services, and educational systems that are responsive to human emotions."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Philipus Kristian Renaldy
"

Emosi merupakan hal penting yang dimiliki oleh manusia. Banyak riset yang sudah dilakukan untuk menganalisis emosi seseorang secara langsung maupun tidak langsung. Salah satu topik dari machine learning yang berkembang adalah sistem yang mampu mempelajari isi suara manusia untuk menentukan emosi seseorang yang dinamakan speech emotion recognition. Banyak riset yang sudah dilakukan masih menggunakan dataset berbahasa Inggris, untuk itu diperlukan penelitian speech emotion recognition dengan menggunakan dataset berbahasa Indonesia. Pada penelitian ini dilakukan analisa speech emotion recognition menggunakan  4 model berbeda yaitu Convolutional Neural Network (CNN), Support Vector Machines (SVM), K-Nearest Neighbor (KNN), dan Logistic Regression (LR). Penelitian ini dilakukan dengan menggunakan hasil ekstraksi dari Mel-frequency Cepstral Coefficient (MFCC) yang dimasukkan ke dalam bentuk matriks 2D sebagai input menuju model percobaan. Dataset yang digunakan merupakan cuplikan dialog berbahasa Indonesia dengan karakteristik emosi tertentu yang sudah dikelompokkan terlebih dahulu. Dari percobaan yang telah dilakukan, didapatkan hasil bahwa model SVM memiliki tingkat rata-rata akurasi tertinggi jika dibandingkan dengan model lainnya, yaitu sebesar 59%. Sedangkan untuk model LR, KNN, dan CNN didapatkan tingkat akurasi rata-rata secara berurutan sebesar 54,5%; 53,5%; dan 47,7%.


Emotions are important things in human life. A lot of research had been done to analyze persons' emotions directly or indirectly. One of the topics of machine learning that is developing is a system that could understand the content of the human voice to determine a person's emotions called speech emotion recognition. Much of the research that had been done still uses English datasets. Therefore, speech emotion recognition research using Indonesian language datasets is needed. In this study, Speech Emotion Recognition analysis was performed using 4 different models, such as Convolutional Neural Network (CNN), Support Vector Machines (SVM), K-Nearest Neighbor (KNN), and Logistic Regression (LR). This study was conducted using the extraction outputs from the Mel-frequency Cepstral Coefficient (MFCC) which was converted into a 2D matrix. The output would be used as an input to the model. The dataset used was a snippet of Indonesian dialogue with several emotional characteristics that had been grouped. Based on this study, the results showed that the SVM model had the highest average level of accuracy around 59%. Meanwhile, for the LR, KNN, and CNN models, the average accuracy rate were 54.5%; 53.5%; and 47.7%.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library