Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 6 dokumen yang sesuai dengan query
cover
Martin Hizkia Parasi
Abstrak :

Perkembangan teknologi pemrosesan ucapan sangat pesat akhir-akhir ini. Namun, fokus penelitian dalam Bahasa Indonesia masih terbilang sedikit, walaupun manfaat dan benefit yang dapat diperoleh sangat banyak dari pengembangan tersebut. Hal tersebut yang melatarbelakangi dilakukan penelitian ini. Pada penelitian ini digunakan model transfer learning (Inception dan ResNet) dan CNN untuk melakukan prediksi emosi terhadap suara manusia berbahasa Indonesia. Kumpulan data yang digunakan dalam penelitian ini, diperoleh dari berbagai film dalam Bahasa Indonesia. Film-film tersebut dipotong menjadi potongan yang lebih kecil dan dilakukan dua metode ekstraksi fitur dari potongan audio tersebut. Ekstraksi fitur yang digunakan adalah Mel-Spectrogram dan MelFrequency Cepstral Coefficient (MFCC). Data yang diperoleh dari kedua ekstraksi fitur tersebut dilatih pada tiga model yang digunakan (Inception, ResNet, serta CNN). Dari percobaan yang telah dilakukan, didapatkan bahwa model ResNet memiliki performa yang lebih baik dibanding Inception dan CNN, dengan rata-rata akurasi 49%. Pelatihan model menggunakan hyperparameter dengan batch size sebesar 16 dan dropout (0,2 untuk Mel-Spectrogram dan 0,4 untuk MFCC) demi mendapatkan performa terbaik.


Speech processing technology advancement has been snowballing for these several years. Nevertheless, research in the Indonesian language can be counted to be little compared to other technology research. Because of that, this research was done. In this research, the transfer learning models, focused on Inception and ResNet, were used to do the speech emotion recognition prediction based on human speech in the Indonesian language. The dataset that is used in this research was collected manually from several films and movies in Indonesian. The films were cut into several smaller parts and were extracted using the Mel-Spectrogram and Mel-frequency Cepstrum Coefficient (MFCC) feature extraction. The data, which is consist of the picture of Mel-spectrogram and MFCC, was trained on the models followed by testing. Based on the experiments done, the ResNet model has better accuracy and performance compared to the Inception and simple CNN, with 49% of accuracy. The experiments also showed that the best hyperparameter for this type of training is 16 batch size, 0.2 dropout sizes for Mel-spectrogram feature extraction, and 0.4 dropout sizes for MFCC to get the best performance out of the model used.

Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mohammad Darrel Tristan Budiroso
Abstrak :
Penelitian ini menangani masalah pengenalan emosi dalam percakapan berbahasa Indonesia, yang penting untuk aplikasi seperti pengenalan ucapan, interaksi manusiamesin, dan analisis sentimen. Untuk mengatasi kompleksitas data suara dan teks, penelitian ini menggabungkan Word Embedding (Word2Vec) dan spektrum suara (MFCC) menggunakan Convolutional Neural Network (CNN). Word2Vec mengubah dataset suara menjadi representasi teks vektor, sementara MFCC digunakan untuk ekstraksi fitur dari spektrum suara. Model yang dikembangkan dievaluasi dengan dataset percobaan berbahasa Indonesia, dan pendekatan Weighted Average Ensemble yang mengintegrasikan kedua metode ini mencapai akurasi 70%. Hasil ini menunjukkan bahwa integrasi teknologi Word Embedding dan analisis spektrum suara dapat meningkatkan akurasi pengenalan emosi dalam bahasa Indonesia. Penelitian ini berkontribusi signifikan terhadap teknologi pengenalan emosi dan berpotensi meningkatkan interaksi manusia dengan teknologi serta aplikasi dalam analisis sentimen dan pengolahan bahasa alami. ......This research addresses the issue of emotion recognition in Indonesian language conversations, which is crucial for applications such as speech recognition, humanmachine interaction, and sentiment analysis. To tackle the complexity of voice and text data, this study combines Word Embedding (Word2Vec) and sound spectrum analysis (MFCC) using Convolutional Neural Network (CNN). Word2Vec is used to convert voice datasets into vector text representations, while MFCC is employed for feature extraction from the sound spectrum. The developed models were evaluated using an experimental dataset in Indonesian, and the Weighted Average Ensemble approach, which integrates both methods, achieved an accuracy of 70%. These results indicate that integrating Word Embedding technology and sound spectrum analysis can significantly enhance the accuracy of emotion recognition in Indonesian conversations. This research contributes significantly to the development of emotion recognition technology and has the potential to improve human interaction with technology, as well as applications in sentiment analysis and natural language processing.
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arvalinno
Abstrak :

Kecerdasan buatan atau Artificial Intelligence (AI) banyak berkembang dalam sektor-sektor seperti: speech recognition, computer vision, Natural Language Processing, dll. Salah satu sektor penting yang banyak dikembangkan oleh peneliti adalah Speech Emotion Recognition atau pengenalan emosi berdasarkan suara manusia. Penelitian ini semakin berkembang karena timbul sebuah tantangan bagi manusia untuk memiliki interaksi mesin dan manusia yang lebih natural yaitu suatu mesin yang dapat merespon emosi manusia dengan memberikan balasan yang tepat juga. Perancangan Speech Emotion Recognition pada penelitian ini menggunakan dataset berupa fitur ekstraksi audio MFCC, Spectrogram, Mel Spectrogram, Chromagram, dan Tonnetz serta memanfaatkan metode Transfer Learning VGG-16 dalam pelatihan modelnya. Dataset yang digunakan diperoleh dari pemotongan audio dari beberapa film berbahasa Indonesia dan kemudian audio yang diperoleh diekstraksi fitur dalam kelima bentuk fitur yang disebut sebelumnya. Hasil akurasi model paling baik dalam penelitian ini adalah model transfer learning VGG-16 dengan dataset Mel Spectrogram yaitu dengan nilai akurasi 56.2%. Dalam pengujian model dalam pengenalan setiap emosi, f1-score terbaik diperoleh model transfer learning VGG-16 dengan dataset Mel Spectrogram dengan f1-score yaitu 55.5%. Skala mel yang diterapkan pada ekstraksi fitur mel spectrogram berpengaruh terhadap baiknya kemampuan model dalam mengenali emosi manusia.


Artificial Intelligence has been used in many sectors, such as speech recognition, computer vision, Natural Language Processing, etc. There was one more important sector that has been developed well by the scientists which are Speech Emotion Recognition. This research is developing because of the new challenge by human to have a better natural interaction between machines and humans where machines can respond to human’s emotions and give proper feedback. In this research, to create the speech emotion recognition system, audio feature extraction such as MFCC, Spectrogram, Mel Spectrogram, Chromagram, and Tonnetz were used as input, and using VGG-16 Transfer Learning Method for the model training. The datasets were collected from the trimming of audio from several Indonesian movies, the trimmed audio will be extracted to the 5 features mentioned before. The best model accuracy is VGG-16 with Mel Spectrogram dataset which has reached 56.2% of accuracy. In terms of recognizing the emotion, the best f1-score is reached by the model VGG-16 with Mel Spectrogram dataset which has 55.5% of f1-score. Mel scale that is applied to the feature extraction of mel spectrogram affected the model’s ability to recognize human emotion.

Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jonathan
Abstrak :
Emosi atau perasaan manusia adalah salah satu faktor yang tidak dapat dikendalikan dalam aktivitas apapun. Tidak sedikit juga pekerjaan yang seringkali berkaitan dengan emosi manusia terutama di industri hiburan dan juga kesehatan. Oleh karena itu, 1 dekade kebelakang banyak riset yang dilakukan untuk mempelajari emosi manusia secara langsung maupun menggunakan teknologi. Pengembangan model speech emotion recognition berbahasa Indonesia masih sangat sedikit dan oleh karena itu dibutuhkan perbandingan secara spesifik pada penelitian ini diantara dua model classifier yaitu Convolutional Neural Network (CNN) dan juga Multilayer Perceptron (MLP) untuk menentukan model yang menghasilkan akurasi terbaik dalam memprediksi emosi dari suara manusia. Dalam speech recognition secara umum, salah satu faktor penting dalam mendapatkan model dengan akurasi terbaik adalah metode ekstraksi fiturnya. Oleh karena itu, penelitian ini menggunakan 3 fitur untuk melakukan pelatihan terhadap model yaitu Mel-frequency Cepstral Coefficients (MFCC), Mel-Spectrogram dan chroma. Dari 3 fitur ini, divariasikan dan menghasilkan 7 metode ekstraksi yang berbeda untuk digunakan sebagai input pelatihan model. Terakhir, untuk memastikan bahwa model sudah menggunakan parameter terbaik, dilakukan eksperimen dengan membandingkan model yang menggunakan batch size serta activation function yang berbeda. Ditemukan bahwa dengan menggunakan CNN dan fitur gabungan antara MFCC, mel-spectrogram dan juga chroma menghasilkan model dengan skor akurasi 50.6% sedangkan menggunakan MLP dengan fitur yang sama menghasilkan model dengan skor akurasi 58.47%.
Emotions or human feelings are one of the factors that cannot be controlled in any activity. There are also many jobs that are often related to human emotions, especially in the entertainment and health industries. The development of speech emotion recognition models in Indonesian is still very little and therefore a specific comparison is needed in this study between two classifier models, namely Convolutional Neural Network (CNN) and Multilayer Perceptron (MLP) to determine the model that produces the best accuracy in predicting the emotion of the human voice. In speech recognition in general, one of the important factors in acquiring a model with the best accuracy is the feature extraction method. Therefore, this study uses 3 features to train the model, namely Mel-frequency Cepstral Coefficients (MFCC), Mel-Spectrogram and chroma. From these 3 features, they were varied and resulted in 7 different extraction methods to be used as model training inputs. Finally, to ensure that the model has used the best parameters, an experiment was conducted by comparing models using different batch sizes and activation functions. It was found that using CNN and the combined features of MFCC, mel-spectrogram and also chroma resulted in a model with an accuracy score of 50.6% while using MLP with the same features resulted in a model with an accuracy score of 58.47%.
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yumna Pratista Tastaftian
Abstrak :
Speech Emotion Recognition adalah teknologi yang mampu bisa mendeteksi emosi lewat data suara yang diproses oleh sebuah mesin. Media yang sering digunakan untuk menjadi media interaksi antara 2 orang atau lebih yang saat ini sedang digunakan oleh banyak orang adalah Podcast, dan Talkshow. Seiring berkembangya SER, penelitian terakhir menunjukkan bahwa penggunaan metode Deep Learning dapat memberikan hasil yang memuaskan terhadap sistem SER. Pada penelitian ini akan diimplementasikan model Deep Learning yaitu dengan Recurrent Neural Network (RNN) variasi Long Short Term Memory (LSTM) untuk mengenali 4 kelas emosi (marah, netral, sedih, senang). Penelitian ini menguji model yang digunakan untuk mengenali emosi dari fitur akustik pada data secara sekuensial. Skenario training dan testing dilakukan dengan metode one-against-all dan mendapatkan hasil (1) Dataset talkshow mengungguli dataset podcast untuk tipe 1 dan 2 dan untuk semua emosi yang dibandingkan; (2) Untuk dataset podcast pada emosi marah, senang, dan sedih didapatkan akurasi optimal pada dataset tipe 1 yaitu 67.67%, 71.43%, dan 68,29%, sedangkan untuk emosi netral didapatkan akurasi terbaik pada dataset tipe 2 dengan 77.91%; (3) Untuk dataset talkshow pada emosi marah, netral, dan sedih didapatkan akurasi terbaik pada dataset tipe 2 yaitu 78.13%, 92.0%, dan 100%. Dapat disimpulkan bahwa dataset talkshow secara garis besar memberikan hasil yang lebih optimal namun memiliki variasi data yang lebih sedikit dari dataset podcast. Dari sisi panjang data, pada penelitian ini didapatkan akurasi yang lebih optimum pada dataset dengan tipe 2. ......Speech Emotion Recognition is a technology that is able to detect emotions through voice data that is processed by a machine. Media that is often used to be a medium of interaction between two or more people who are currently being used by many people are Podcasts, and Talkshows. As SER develops, recent research shows that the use of the Deep Learning method can provide satisfactory results on the SER system. In this study a Deep Learning model will be implemented, this study uses Long Short Term Memory (LSTM) as one of the variation of Recurrent Neural Network (RNN) to recognize 4 classes of emotions (angry, neutral, sad, happy). This study examines the model used to recognize emotions from acoustic features in sequential data. Training and testing scenarios are conducted using the one-against-all method and get results (1) The talkshow dataset outperforms the podcast dataset for types 1 and 2 and for all emotions compared; (2) For the podcast dataset on angry, happy, and sad emotions, the optimal accuracy in type 1 dataset is 67.67%, 71.43%, and 68.29%, while for neutral emotions the best accuracy is obtained in type 2 dataset with 77.91%; (3) For the talkshow dataset on angry, neutral, and sad emotions the best accuracy is obtained for type 2 datasets, namely 78.13%, 92.0%, and 100%. It can be concluded that the talkshow dataset in general gives more optimal results but has fewer data variations than the podcast dataset. In terms of data length, this study found more optimum accuracy in dataset with type 2.
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Philipus Kristian Renaldy
Abstrak :

Emosi merupakan hal penting yang dimiliki oleh manusia. Banyak riset yang sudah dilakukan untuk menganalisis emosi seseorang secara langsung maupun tidak langsung. Salah satu topik dari machine learning yang berkembang adalah sistem yang mampu mempelajari isi suara manusia untuk menentukan emosi seseorang yang dinamakan speech emotion recognition. Banyak riset yang sudah dilakukan masih menggunakan dataset berbahasa Inggris, untuk itu diperlukan penelitian speech emotion recognition dengan menggunakan dataset berbahasa Indonesia. Pada penelitian ini dilakukan analisa speech emotion recognition menggunakan  4 model berbeda yaitu Convolutional Neural Network (CNN), Support Vector Machines (SVM), K-Nearest Neighbor (KNN), dan Logistic Regression (LR). Penelitian ini dilakukan dengan menggunakan hasil ekstraksi dari Mel-frequency Cepstral Coefficient (MFCC) yang dimasukkan ke dalam bentuk matriks 2D sebagai input menuju model percobaan. Dataset yang digunakan merupakan cuplikan dialog berbahasa Indonesia dengan karakteristik emosi tertentu yang sudah dikelompokkan terlebih dahulu. Dari percobaan yang telah dilakukan, didapatkan hasil bahwa model SVM memiliki tingkat rata-rata akurasi tertinggi jika dibandingkan dengan model lainnya, yaitu sebesar 59%. Sedangkan untuk model LR, KNN, dan CNN didapatkan tingkat akurasi rata-rata secara berurutan sebesar 54,5%; 53,5%; dan 47,7%.


Emotions are important things in human life. A lot of research had been done to analyze persons' emotions directly or indirectly. One of the topics of machine learning that is developing is a system that could understand the content of the human voice to determine a person's emotions called speech emotion recognition. Much of the research that had been done still uses English datasets. Therefore, speech emotion recognition research using Indonesian language datasets is needed. In this study, Speech Emotion Recognition analysis was performed using 4 different models, such as Convolutional Neural Network (CNN), Support Vector Machines (SVM), K-Nearest Neighbor (KNN), and Logistic Regression (LR). This study was conducted using the extraction outputs from the Mel-frequency Cepstral Coefficient (MFCC) which was converted into a 2D matrix. The output would be used as an input to the model. The dataset used was a snippet of Indonesian dialogue with several emotional characteristics that had been grouped. Based on this study, the results showed that the SVM model had the highest average level of accuracy around 59%. Meanwhile, for the LR, KNN, and CNN models, the average accuracy rate were 54.5%; 53.5%; and 47.7%.

Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library