Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query
cover
Agung Santosa
"[ABSTRAK
Pesatnya perkembangan Deep Learning akhir-akhir ini juga menyentuh ASR
berbasis HMM, sehingga memunculkan teknik hibrid HMM-ANN. Salah satu
teknik Deep Learning yang cukup menjanjikan adalah penggunaan arsitektur
CNN. CNN yang memiliki kemampuan mendeteksi local correlation sesuai
untuk digunakan pada data spectrum suara. Spectrogram memiliki karakteristik
local correlation yang nampak secara visual. Penelitian ini adalah eksperimen
penggunaan spectrogram sebagai fitur untuk HMM-CNN untuk meningkatkan
kinerja ASR berbasis HMM. Penelitian menyimpulkan spectogram dapat
digunakan sebagai fitur untuk HMM-CNN untuk meningkatkan kinerja ASR
berbasis HMM.

ABSTRACT
The latest surge in Deep Learning affecting HMM based ASR, which give birth to
hybrid HMM-ANN technique. One of the promising Deep Learning technique is
the implementation of CNN architecture. The ability of CNN to detect local
correlation make it suitable to be used for speech spectral data. Spectrogram as a
speech spectral data has local correlation characteristic which is visually
observable. This research is an experiment to use spectrogram as a feature for
HMM-CNN to add to the performance of HMM based ASR. This research found
that spectrogram is indeed can be used as a feature for CNN to add to the
performance of HMM based ASR., The latest surge in Deep Learning affecting HMM based ASR, which give birth to
hybrid HMM-ANN technique. One of the promising Deep Learning technique is
the implementation of CNN architecture. The ability of CNN to detect local
correlation make it suitable to be used for speech spectral data. Spectrogram as a
speech spectral data has local correlation characteristic which is visually
observable. This research is an experiment to use spectrogram as a feature for
HMM-CNN to add to the performance of HMM based ASR. This research found
that spectrogram is indeed can be used as a feature for CNN to add to the
performance of HMM based ASR.]"
2015
T43862
UI - Tesis Membership  Universitas Indonesia Library
cover
Ery Safrianti
"Keberhasilan kerja suatu sentral telepon dapal dilihat dari nisi ASR (Answered Seizure Ratio) sentral tersebut setiap bulannya ASR merupakan salah satu tolak ukur yang menunjukkan kelancaran hubungan telekomunikasi dan kehandalon perwMomt j m ingon. Oleh karena itu PT. TELKOM selaku penyelenggara jasa telekomuaikasi terus berupaya dalam meningkatkan perolehan ASR, salah saatunya adalah dengan cara melakukan pengamatan dan pengawasan terhadap faktor-fWdor yang mempengmuhi nilai ASR, baik faktor internal yaitu: kongesti (CONG), kesalahan pensinyalan (CSRFG) den kesalahan teknis (CUT) maupun eksternal seperti; CSRBG (B Busy), CSUG (RNA) dan CSIG Identifikasi terhadap faktor dominan yapg mempengaluhi nilai ASR sangat diperlukan. Hal ini dapat dilakukan dengan mencari suatu pola hubungan antara ASR dan beberapa faktor kegagalen panggilan, sehingga dapat diketahui pengumb/kontribusi serta kuat hubungan antara masing-masing faktor kegagalan tersebut terhadap ASR, yaitu dengan menggunakan pendekatan metoda statistik regresi linier berganda.
Dari hasil analisis dengan melihat dan melakukan pengujian terhadap koefisien korelasi dan determinasi pwsial serta koefisien regresi dari persamaan regmsi linier berganda dapat diidentifikasikan bahwa CSRBG (B Busy) mempunyai kontribusi dan kuat hubungan terbesar terhadap nilai ASR. Selanjutnya hasil identifikasi ini digunakan dalam mencari upaya untuk menekan faktor-faktor kegagalan panggilan, terutama faktor yang dominan, sehingga diharapksn peroleban ASR semakin meningkat."
Depok: Fakultas Teknik Universitas Indonesia, 1997
S38884
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arief Saferman
"

Selama masa pandemi COVID-19, teknologi Automatic Speech Recognition (ASR) menjadi salah satu fitur yang sering digunakan pada komputer untuk mencatat di kelas online secara realtime. Teknologi ini akan bekerja dimana setiap suara yang muncul akan langsung dikenali dan dicatat pada halaman terminal. Dalam penelitian ini, model ASR Wav2Letter akan digunakan menggunakan CNN (Convolution Neural Network) dengan loss function CTC (Connectionist Temporal Classification) dan ASG (Auto Segmentation Criterion). Selama proses pembuatannya, berbagai hyperparameter acoustic model dan language model dari model ASR Wav2Letter terkait dengan implementasi batch normalization¸ learning-rate, window type, window size, n-gram language model, dan konten language model diuji pengaruh variasinya terhadap performa model Wav2Letter. Dari pengujian tersebut, ditemukan bahwa model ASR Wav2Letter menunjukkan performa paling baik ketika acoustic model menggunakan metode ASG dengan learning-rate 9 × 10−5 , window size 0.1, window type Blackman, serta 6-gram language model. Berdasarkan hasil akurasi WER CTC unggul 1,2% dengan 40,36% berbanding 42,11% dibandingkan ASG, namun jika dilihat lamanya epoch dan ukuran file model, loss function ASG memiliki keunggulan hampir dua kalinya CTC, dimana ASG hanya membutuhkan setengah dari jumlah epoch yang dibutuhkan oleh CTC yakni 24 epoch berbanding dengan 12 epoch dan ukuran file model ASG setengah lebih kecil dibandingkan CTC yakni 855,2 MB berbanding dengan 427,8 MB. Pada pengujian terakhir, model ASR Wav2Letter dengan loss function ASG mendapatkan hasil terbaik dengan nilai WER 29,30%. Berdasarkan hasil tersebut, model ASR Wav2Letter dengan loss function ASG menunjukkan perfoma yang lebih baik dibandingkan dengan CTC.


During the COVID-19 pandemic, Automatic Speech Recognition technology (ASR) became one of features that most widely used in computer to note down online class in real-time. This technology works by writing down every word in terminal from voice that is recognized by the system. ASR Wav2Letter model will use CNN (Convolutional Neural Network) with loss function CTC (Connectionist Temporal Classification) and ASG (Auto Segmentation Criterion). While developing Wav2Letter, various hyperparameter from acoustic model and language model is implemented such as batch normalization, learning rate, window type, window size, n-gram language model, and the content of language model are examined against the performance of Wav2Letter model. Based on those examination, Wav2Letter shows best performance when it uses ASG loss function learning rate 9 × 10−5 , window size 0.1, window type Blackman, and 6-gram language model. With that configuration, WER of CTC outplay ASG around 1.2% with 40.36% compare to 42,11%, but another parameter shows ASG are way more superior than CTC with less time epoch training which are 24 epoch for CTC against 12 epoch for ASG and the size of memory model shows CTC has bigger size than ASG with 855.2 MB against 427.8 MB. In the last test, ASR Wav2Letter model with ASG loss function get the best WER value around 29.3%. Based on those results, ASR Wav2Letter Model shows its best performance with ASG loss function than CTC.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Valentino Herdyan Permadi
"Perkembangan teknologi saat ini sudah mampu menunjang kegiatan belajar mengajar secara daring. Salah satu metode yang digunakan untuk melakukan kegiatan tersebut adalah secara asinkronus. Umumnya, materi yang disampaikan secara asinkronus menggunakan video pemelajaran. Pengajar mengunggah video pemelajaran pada sebuah layanan Learning Management System (LMS) dan siswa menggunakan video tersebut sebagai bahan belajar. Siswa tunarungu mengalami kesulitan mengikuti kegiatan pemelajaran dengan media tersebut karena kurangnya fitur aksesibilitas pada LMS yang digunakan. Fasilkom UI sebelumnya sudah mengembangkan modul pengubah suara menjadi teks dengan Automatic Speech Recognition (ASR) dan pengubah teks menjadi animasi bahasa isyarat (Text-to-Gesture). LMS yang digunakan adalah Moodle. Pada penelitian ini, dikembangkan suatu layanan yang bisa mengintegrasikan modul ASR dengan aplikasi Text-to-Gesture. Penelitian ini mengembangkan sebuah Application Programming Interface (API) yang bisa menerima hasil ASR dan mengirimkannya ke aplikasi Text-to-Gesture. Animasi dibangkitkan dengan aplikasi Text-to-Gesture yang di saat bersamaan direkam dan kemudian diproses menggunakan FFmpeg. Hasil prosesnya kemudian dikirimkan kembali ke Moodle untuk disajikan sebagai bahan ajar. Pada penelitian ini disimpulkan pengembang dapat membuat sebuah API yang bisa menghubungkan modul ASR pada Moodle dengan aplikasi Text-to-Gesture. API yang dibuat juga bisa dihubungkan dengan aplikasi lain selain Moodle selama mengikuti format yang sama dengan modul ASR.
......The current technology development has been able to support online learning activities. One of the methods used for such activities is asynchronous learning. Typically, asynchronous learning materials utilize instructional videos. Educators upload instructional videos to a Learning Management System (LMS), and students use these videos as learning materials. Deaf students face difficulties in following the learning activities with these media due to the lack of accessibility features in the LMS being used. Previously, Fasilkom UI has developed modules to convert speech into text using Automatic Speech Recognition (ASR) and to convert text into sign language animations (Text-to-Gesture). The LMS used in this research is Moodle. In this study, a service was developed to integrate the ASR module with the Text-to-Gesture application. An Application Programming Interface (API) was developed to receive ASR results and send them to the Text-to-Gesture application. The animations that are generated using the Text-to-Gesture application are recorded and then processed using FFmpeg. The processed results are then sent back to Moodle to be presented as teaching materials. This research concludes that developers can create an API to connect the ASR module in Moodle with the Text-to-Gesture application. The created API can also be connected to other applications as long as they follow the same format as the ASR module."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Amalia Zahra
"Dengan adanya internet, media televisi, dan radio, data yang tersedia sangat banyak, termasuk data suara. Oleh karena itu, dibutuhkan suatu cara untuk mengorganisasikannya, yakni dengan mengubah data suara menjadi teks terlebih dahulu. Pengolahan selanjutnya cukup dilakukan terhadap teks. Proses konversi data suara menjadi teks inilah yang dikenal dengan sistem pengenalan suara (SPS) otomatis.
Saat ini, SPS untuk berbagai bahasa di dunia telah berkembang pesat, seperti Bahasa Inggris, Perancis, Jepang, Thai, dan lain-lain, sedangkan penelitian SPS untuk Bahasa Indonesia sudah dimulai, namun masih dalam tahap awal. Adanya kebutuhan akan SPS dan perkembangan SPS bahasa lain yang pesat memotivasi penulis untuk melakukan penelitian SPS untuk Bahasa Indonesia.
Fokus penelitian ini adalah pembuatan model akustik yang berkaitan erat dengan kamus fonetik yang digunakan. Oleh karena itu, penulis melakukan eksperimen menggunakan enam jenis kamus fonetik, yaitu IPA, SAMPA, ARPABET, Lestari [LEST06], Sakti [SAKT08], dan kamus yang dikembangkan oleh penulis (kamus Zahra). Eksperimen terbagi menjadi dua proses besar, yaitu pelatihan, dengan menggunakan 1.000 data suara rekaman telepon, dan pengujian terhadap 250 data suara rekaman telepon.
Hasil eksperimen menunjukkan bahwa akurasi SPS tertinggi diperoleh saat menggunakan kamus Zahra, yakni sebesar 73,5%. Dengan menggunakan kamus fonetik yang sama, pengujian terhadap 100 berkas rekaman berita RRI menghasilkan akurasi maksimum sebesar 71,6% dengan OOV (Out of Vocabulary) sebesar 8,92%. Kamus tersebut merupakan kamus fonetik yang paling tepat untuk mendefinisikan bunyi dalam Bahasa Indonesia, dengan total simbol yang digunakan adalah 33 simbol."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library