Salah satu teknologi berbasis kecerdasan buatan yang kini semakin dibutuhkan adalah ASR (Automatic Speech Recognition), atau lebih sering disebut sebagai speech-to-text. Teknologi ini memiliki potensi untuk diterapkan di berbagai bidang, salah satunya adalah mentranskripsi naskah rapat atau persidangan. Tujuan dari penelitian ini adalah untuk mengembangkan sistem transkripsi otomatis Bahasa Indonesia yang dapat berjalan secara luring dan dapat memproses masukan dari beberapa mikrofon secara bersamaan. Penelitian ini berhasil mengembangkan sistem transkripsi otomatis dengan mengkombinasikan teknologi ASR, pemrograman Python, aplikasi word editor seperti Microsoft Word, dan komputer yang terhubung dengan banyak mikrofon. Teknologi ASR pada sistem ini terdiri dari acoustic model yang dibuat menggunakan DeepSpeech dengan metode fine-tuning dan language model yang dibuat menggunakan KenLM. Sistem transkripsi otomatis dapat dijalankan pada komputer 64-bit dengan sistem operasi Windows yang di dalamnya terdapat Microsoft Word tanpa memerlukan spesifikasi hardware minimum tertentu. Hasil pengujian terhadap performa sistem menunjukkan bahwa sistem hanya bersifat CPU-intensive, dan ini hanya terjadi apabila seluruh pembicara berbicara pada mikrofon secara sekaligus, yang mengakibatkan tingginya jumlah thread yang aktif. Hasil pengujian terhadap acoustic model menunjukkan bahwa model tersebut dapat menghasilkan WER terbaik sebesar 73,33% dan CER terbaik sebesar 23,59% apabila dilatih menggunakan learning rate sebesar 0,01 dan dropout rate sebesar 0,3. Hasil pengujian terhadap language model menunjukkan bahwa model yang dibuat dengan dataset teks bertopik umum dan berukuran besar dapat membantu acoustic model menghasilkan WER dan CER yang lebih baik lagi, yaitu 28,76% dan 14,68%. ......One of the artificial intelligence-based technologies that is increasingly needed is ASR (Automatic Speech Recognition), or more commonly referred to as speech-to-text. This technology has the potential to be applied in various fields, one of which is generating transcripts for meetings or trials. The purpose of this research is to develop an Indonesian automatic transcription system that can run offline and can process input from multiple microphones simultaneously. This study succeeded in developing an automatic transcription system by combining ASR technology, Python programming, word editor applications such as Microsoft Word, and computers connected to multiple microphones. The ASR technology in this system consists of an acoustic model created using DeepSpeech with a fine-tuning method and a language model created using KenLM. The automatic transcription system can be run on 64-bit computers with Windows operating system that has Microsoft Word installed on it. It does not require certain minimum hardware specifications. Test results on system performance show that the system is only CPU-intensive, and this only occurs when all participants are speaking into all microphones at once, resulting in a high number of active threads. The test results on the acoustic model show that the model can produce the best WER of 73.33% and the best CER of 23.59% when trained using a learning rate of 0.01 and a dropout rate of 0.3. The test results on the language model show that the model made with a text dataset that has a large size and no particular topic can help the acoustic model produce better WER and CER, which are 28.76% and 14.68%, respectively.
Dengan berkembangnya pengetahuan di bidang teknologi, kegiatan belajar mengajar tidak hanya dapat dilakukan secara tatap muka. Kegiatan belajar mengajar ini dapat didukung dengan memanfaatkan suatu learning management system (LMS) berbasis web. LMS biasanya mampu untuk menyimpan video pemelajaran baik itu rekaman kelas maupun rekaman materi yang disampaikan oleh pengajar. Video pemelajaran pada LMS ini dapat diakses oleh semua orang termasuk para pelajar tunarungu. Video pemelajaran biasanya terdiri atas kumpulan gambar dan suara. Suara ini sulit didengar oleh penyandang tunarungu sehingga mereka mengalami kesulitan dalam memahami isi video pemelajaran. Untuk melawan keterbatasan pendengaran, penyandang tunarungu kerap menggunakan komunikasi total dalam keseharian mereka. Komunikasi total adalah komunikasi yang tidak hanya melibatkan mulut dan telinga namun juga mata, gerakan bibir, gerakan tangan, dan lain-lain. Untuk menghadirkan komunikasi total pada video pemelajaran, dibutuhkan suatu sistem yang dapat mengubah video menjadi gerakan animasi bahasa isyarat. Fasilkom UI telah mengembangkan modul untuk mengubah teks menjadi animasi bahasa isyarat. Dengan demikian, diperlukan suatu sistem yang dapat mengubah video menjadi teks. Pada penelitian ini, dikembangkan sistem pengubah video menjadi teks yang dapat diintegrasikan dengan LMS khususnya Moodle. Pada penelitian ini juga dibahas mengenai perbandingan dua model Automatic Speech Recogniton (ASR), yakni: Google Speech-to-Text dan Wav2Vec2-Large-XLSRIndonesian. Pada penelitian ini didapatkan kesimpulan bahwa pengembang dapat membuat sebuah modul aktivitas Moodle yang dapat diintegrasikan dengan LMS Moodle dan layanan lain di luar LMS. Tak hanya itu, berdasarkan hasil analisis yang dilakukan pada penelitian ini, model Google Speech-to-Text terbukti mampu memberikan rata-rata hasil transkripsi video pemelajaran yang lebih akurat dan lebih cepat daripada model Wav2Vec2-Large-XLSR-Indonesian. ......With the growth of technology, teaching and learning activities are no longer limited to classroom. Now teaching and learning activities can be supported by utilizing Learning Management System (LMS). LMS often have the feature to store recordings, be it class session recordings or learning materials video. These recordings could be accessed by anyone, from normal students to students with hearing impairment. These learning videos are composed of images and sounds. Students with hearing impairment would have trouble with hearing those sounds. To combat their hearing problems, students with hearing impairment would use total communication in their everyday lives. Total communication is a communication that not only involves the mouth and the ears, but also eyes, lips, hand movements, and so on. To bring this total communication into the video, a system that could convert the video into sign language animation is needed. Fasilkom UI have developed a system that could convert text into a sign language animation. And so, a system that could convert the video into a text. In this research a system that could convert video into text that could be integrated with LMS, especially Moodle, will be developed. This research also discusses the comparison between two Automatic Speech Recognition (ASR) models, one from Google, and one being a community-developed open-source project. This research managed to develop a Moodle activity module that could be integrated with the LMS itself and other remote services. And also, this research founds that, based on our analysis, the Google Speech-to-text model could give better and faster transcription results of the learning videos compared to Wav2Vec2-Large-XLSR-Indonesian model.