Hasil Pencarian

Ditemukan 84583 dokumen yang sesuai dengan query

Evando Wihalim

Pengembangan Plugin Platform MOOC Untuk Pembangkit Subtitle Video Pemelajaran, Studi Kasus SCeLE Fasilkom UI = MOOC Platform Plugin Development For Learning Video Subtitle Generator, Case Study: SCeLE Fasilkom UI

"Dengan berkembangnya pengetahuan di bidang teknologi, kegiatan belajar mengajar tidak hanya dapat dilakukan secara tatap muka. Kegiatan belajar mengajar ini dapat didukung dengan memanfaatkan suatu learning management system (LMS) berbasis web. LMS biasanya mampu untuk menyimpan video pemelajaran baik itu rekaman kelas maupun rekaman materi yang disampaikan oleh pengajar. Video pemelajaran pada LMS ini dapat diakses oleh semua orang termasuk para pelajar tunarungu. Video pemelajaran biasanya terdiri atas kumpulan gambar dan suara. Suara ini sulit didengar oleh penyandang tunarungu sehingga mereka mengalami kesulitan dalam memahami isi video pemelajaran. Untuk melawan keterbatasan pendengaran, penyandang tunarungu kerap menggunakan komunikasi total dalam keseharian mereka. Komunikasi total adalah komunikasi yang tidak hanya melibatkan mulut dan telinga namun juga mata, gerakan bibir, gerakan tangan, dan lain-lain. Untuk menghadirkan komunikasi total pada video pemelajaran, dibutuhkan suatu sistem yang dapat mengubah video menjadi gerakan animasi bahasa isyarat. Fasilkom UI telah mengembangkan modul untuk mengubah teks menjadi animasi bahasa isyarat. Dengan demikian, diperlukan suatu sistem yang dapat mengubah video menjadi teks. Pada penelitian ini, dikembangkan sistem pengubah video menjadi teks yang dapat diintegrasikan dengan LMS khususnya Moodle. Pada penelitian ini juga dibahas mengenai perbandingan dua model Automatic Speech Recogniton (ASR), yakni: Google Speech-to-Text dan Wav2Vec2-Large-XLSRIndonesian. Pada penelitian ini didapatkan kesimpulan bahwa pengembang dapat membuat sebuah modul aktivitas Moodle yang dapat diintegrasikan dengan LMS Moodle dan layanan lain di luar LMS. Tak hanya itu, berdasarkan hasil analisis yang dilakukan pada penelitian ini, model Google Speech-to-Text terbukti mampu memberikan rata-rata hasil transkripsi video pemelajaran yang lebih akurat dan lebih cepat daripada model Wav2Vec2-Large-XLSR-Indonesian.

With the growth of technology, teaching and learning activities are no longer limited to classroom. Now teaching and learning activities can be supported by utilizing Learning Management System (LMS). LMS often have the feature to store recordings, be it class session recordings or learning materials video. These recordings could be accessed by anyone, from normal students to students with hearing impairment. These learning videos are composed of images and sounds. Students with hearing impairment would have trouble with hearing those sounds. To combat their hearing problems, students with hearing impairment would use total communication in their everyday lives. Total communication is a communication that not only involves the mouth and the ears, but also eyes, lips, hand movements, and so on. To bring this total communication into the video, a system that could convert the video into sign language animation is needed. Fasilkom UI have developed a system that could convert text into a sign language animation. And so, a system that could convert the video into a text. In this research a system that could convert video into text that could be integrated with LMS, especially Moodle, will be developed. This research also discusses the comparison between two Automatic Speech Recognition (ASR) models, one from Google, and one being a community-developed open-source project. This research managed to develop a Moodle activity module that could be integrated with the LMS itself and other remote services. And also, this research founds that, based on our analysis, the Google Speech-to-text model could give better and faster transcription results of the learning videos compared to Wav2Vec2-Large-XLSR-Indonesian model."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Evando Wihalim

Pengembangan Plugin Platform MOOC untuk Pembangkit Subtitle Video Pemelajaran, Studi Kasus SCeLE Fasilkom UI = MOOC Platform Plugin Development for Learning Video Subtitle Generator, Case Study: SCeLE Fasilkom UI

Dengan berkembangnya pengetahuan di bidang teknologi, kegiatan belajar mengajar tidak hanya dapat dilakukan secara tatap muka. Kegiatan belajar mengajar ini dapat didukung dengan memanfaatkan suatu learning management system (LMS) berbasis web. LMS biasanya mampu untuk menyimpan video pemelajaran baik itu rekaman kelas maupun rekaman materi yang disampaikan oleh pengajar. Video pemelajaran pada LMS ini dapat diakses oleh semua orang termasuk para pelajar tunarungu. Video pemelajaran biasanya terdiri atas kumpulan gambar dan suara. Suara ini sulit didengar oleh penyandang tunarungu sehingga mereka mengalami kesulitan dalam memahami isi video pemelajaran. Untuk melawan keterbatasan pendengaran, penyandang tunarungu kerap menggunakan komunikasi total dalam keseharian mereka. Komunikasi total adalah komunikasi yang tidak hanya melibatkan mulut dan telinga namun juga mata, gerakan bibir, gerakan tangan, dan lain-lain. Untuk menghadirkan komunikasi total pada video pemelajaran, dibutuhkan suatu sistem yang dapat mengubah video menjadi gerakan animasi bahasa isyarat. Fasilkom UI telah mengembangkan modul untuk mengubah teks menjadi animasi bahasa isyarat. Dengan demikian, diperlukan suatu sistem yang dapat mengubah video menjadi teks. Pada penelitian ini, dikembangkan sistem pengubah video menjadi teks yang dapat diintegrasikan dengan LMS khususnya Moodle. Pada penelitian ini juga dibahas mengenai perbandingan dua model Automatic Speech Recogniton (ASR), yakni: Google Speech-to-Text dan Wav2Vec2-Large-XLSRIndonesian. Pada penelitian ini didapatkan kesimpulan bahwa pengembang dapat membuat sebuah modul aktivitas Moodle yang dapat diintegrasikan dengan LMS Moodle dan layanan lain di luar LMS. Tak hanya itu, berdasarkan hasil analisis yang dilakukan pada penelitian ini, model Google Speech-to-Text terbukti mampu memberikan rata-rata hasil transkripsi video pemelajaran yang lebih akurat dan lebih cepat daripada model Wav2Vec2-Large-XLSR-Indonesian.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Yusuf Fakhri Aldrian

Pengembangan Plug-In Pembentukan Subtitle Animasi Gerakan Sistem Isyarat Bahasa Indonesia (SIBI) Pada Video Pemelajaran = Development of an Animated Sistem Isyarat Bahasa Indonesia (SIBI) Subtitle Formation Plug-In for Educational Videos

"Sesuai dengan ketentuan hukum, setiap warga negara berhak atas informasi dan kemudahan akses informasi, termasuk individu dengan disabilitas tunarungu. Bahasa isyarat menjadi sarana komunikasi utama bagi penyandang disabilitas tunarungu. Bahasa isyarat sering dijumpai pada komunitas tunarungu yang melibatkan penerjemah, teman, dan keluarga serta para penyandang tunarungu itu sendiri. Sistem Isyarat Bahasa Indonesia (SIBI) merupakan sistem bahasa isyarat yang dipakai dalam pemelajaran di sekolah luar biasa. Penelitian yang dilakukan penulis merupakan lanjutan dari penelitian sebelumnya yang bertujuan untuk mengintegrasikan plug-in modul pada Moodle dengan pembangkit teks subtitle dari video pemelajaran untuk diteruskan ke layanan pembangkit animasi 3D bahasa isyarat. plug-in yang dibuat secara umum dibangun dengan Moodle, Python, Redis, dan Unity. Aplikasi Moodle memiliki dua laman, yaitu laman utama yang berisi daftar subtitle menerima status pembentukan subtitle dari database di Python serta laman formulir mengirim HTTP Request yang berisi input berisi video untuk pembentukan subtitle ke aplikasi Python. Aplikasi Python akan menerima HTTP Request yang dikirim dari Moodle dan melakukan deretan perintah yang digunakan untuk penambahan subtitle dan menambahkan subtitle yang dijalankan secara asinkronus ke server Redis. Setelah itu, video dan subtitle akan dikirim melalui Redis untuk pengantrian penambahan animasi bahasa isyarat SIBI. Data tersebut dikirim secara asinkronus ke Unity untuk pembentukan animasi bahasa isyarat. Setelah pembuatan animasi bahasa isyarat selesai, video akan dikirim kembali ke Moodle dan statusnya akan ditambahkan ke database di aplikasi Python. Penulis melakukan percobaan untuk menguji performa masing-masing ASR dengan metrik evaluasi durasi dan Word Error Rate. Percobaan membuktikan jenis ASR Wav2Vec memiliki rata-rata Word Error Rate paling besar yaitu 42,64% dan membutuhkan waktu yang paling lama yaitu 32 menit 3 detik untuk membuat transkripsi audio, disusul jauh oleh Google (WER 1,43% dan durasi 2 menit 27 detik) dan Azure (WER 2,57% dan durasi 1 menit 16 detik). Menurut penulis, Wav2Vec memiliki performa yang buruk sehingga tidak bagus untuk digunakan di kasus umumnya, sehingga sebaiknya model ASR yang dipakai adalah Google dan Azure.

In accordance with legal provisions, every citizen has the right to information and ease of access to information, including individuals with hearing disabilities. Sign language is the primary communication method for those with hearing disabilities and is commonly encountered within the deaf community, involving interpreters, friends, family, and the hearing impaired themselves. Sistem Isyarat Bahasa Indonesia (SIBI) is the official sign language used in special educations in Indonesia. The research conducted by the author builds upon a previous study aiming to integrate a module plug-in on Moodle with text subtitle generation from learning videos to be transferred to a 3D sign language animation service. The plug-in was primarily developed using Moodle, Python, Redis, and Unity. The Moodle application contains two main pages: one with a list of subtitles receiving the subtitle creation status from a Python database and another with a form page for sending HTTP requests containing video input for subtitle creation to the Python application. The Python application receives the HTTP requests sent from Moodle and executes a series of commands used for adding subtitles and synchronously adding subtitles to the Redis server. Afterward, the video and subtitles are sent through Redis for queueing and adding SIBI sign language animations. This data is sent asynchronously to Unity for creating sign language animations. Once the sign language animation is complete, the video is sent back to Moodle, and its status is updated in the Python application database. The author conducted experiments to test the performance of each ASR using evaluation metrics such as duration and Word Error Rate. Experiments demonstrated that the Wav2Vec ASR model has the highest Word Error Rate (42,64%) and requires the longest time to create audio transcription (32 minutes 3 seconds), followed by Google (1,43% WER, 2 minutes and 27 seconds) and Azure (2,57% WER, 1 minute and 16 seconds), which performed better. According to the author, Wav2Vec is not suitable for general cases, so the ASR models preferred should be Google and Azure."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Valentino Herdyan Permadi

Pengembangan Plugin Moodle untuk Penambahan Subtitle Bahasa Isyarat pada Video Pemelajaran = Development of Moodle Plugin for Adding Sign Language Subtitles to Lesson Videos

"Perkembangan teknologi saat ini sudah mampu menunjang kegiatan belajar mengajar secara daring. Salah satu metode yang digunakan untuk melakukan kegiatan tersebut adalah secara asinkronus. Umumnya, materi yang disampaikan secara asinkronus menggunakan video pemelajaran. Pengajar mengunggah video pemelajaran pada sebuah layanan Learning Management System (LMS) dan siswa menggunakan video tersebut sebagai bahan belajar. Siswa tunarungu mengalami kesulitan mengikuti kegiatan pemelajaran dengan media tersebut karena kurangnya fitur aksesibilitas pada LMS yang digunakan. Fasilkom UI sebelumnya sudah mengembangkan modul pengubah suara menjadi teks dengan Automatic Speech Recognition (ASR) dan pengubah teks menjadi animasi bahasa isyarat (Text-to-Gesture). LMS yang digunakan adalah Moodle. Pada penelitian ini, dikembangkan suatu layanan yang bisa mengintegrasikan modul ASR dengan aplikasi Text-to-Gesture. Penelitian ini mengembangkan sebuah Application Programming Interface (API) yang bisa menerima hasil ASR dan mengirimkannya ke aplikasi Text-to-Gesture. Animasi dibangkitkan dengan aplikasi Text-to-Gesture yang di saat bersamaan direkam dan kemudian diproses menggunakan FFmpeg. Hasil prosesnya kemudian dikirimkan kembali ke Moodle untuk disajikan sebagai bahan ajar. Pada penelitian ini disimpulkan pengembang dapat membuat sebuah API yang bisa menghubungkan modul ASR pada Moodle dengan aplikasi Text-to-Gesture. API yang dibuat juga bisa dihubungkan dengan aplikasi lain selain Moodle selama mengikuti format yang sama dengan modul ASR.

The current technology development has been able to support online learning activities. One of the methods used for such activities is asynchronous learning. Typically, asynchronous learning materials utilize instructional videos. Educators upload instructional videos to a Learning Management System (LMS), and students use these videos as learning materials. Deaf students face difficulties in following the learning activities with these media due to the lack of accessibility features in the LMS being used. Previously, Fasilkom UI has developed modules to convert speech into text using Automatic Speech Recognition (ASR) and to convert text into sign language animations (Text-to-Gesture). The LMS used in this research is Moodle. In this study, a service was developed to integrate the ASR module with the Text-to-Gesture application. An Application Programming Interface (API) was developed to receive ASR results and send them to the Text-to-Gesture application. The animations that are generated using the Text-to-Gesture application are recorded and then processed using FFmpeg. The processed results are then sent back to Moodle to be presented as teaching materials. This research concludes that developers can create an API to connect the ASR module in Moodle with the Text-to-Gesture application. The created API can also be connected to other applications as long as they follow the same format as the ASR module."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Amalia Zahra

Penyusunan kamus fonetik dalam pengembangan sistem pengenalan suara otomatis untuk bahasa Indonesia

"Dengan adanya internet, media televisi, dan radio, data yang tersedia sangat banyak, termasuk data suara. Oleh karena itu, dibutuhkan suatu cara untuk mengorganisasikannya, yakni dengan mengubah data suara menjadi teks terlebih dahulu. Pengolahan selanjutnya cukup dilakukan terhadap teks. Proses konversi data suara menjadi teks inilah yang dikenal dengan sistem pengenalan suara (SPS) otomatis.

Saat ini, SPS untuk berbagai bahasa di dunia telah berkembang pesat, seperti Bahasa Inggris, Perancis, Jepang, Thai, dan lain-lain, sedangkan penelitian SPS untuk Bahasa Indonesia sudah dimulai, namun masih dalam tahap awal. Adanya kebutuhan akan SPS dan perkembangan SPS bahasa lain yang pesat memotivasi penulis untuk melakukan penelitian SPS untuk Bahasa Indonesia.

Fokus penelitian ini adalah pembuatan model akustik yang berkaitan erat dengan kamus fonetik yang digunakan. Oleh karena itu, penulis melakukan eksperimen menggunakan enam jenis kamus fonetik, yaitu IPA, SAMPA, ARPABET, Lestari [LEST06], Sakti [SAKT08], dan kamus yang dikembangkan oleh penulis (kamus Zahra). Eksperimen terbagi menjadi dua proses besar, yaitu pelatihan, dengan menggunakan 1.000 data suara rekaman telepon, dan pengujian terhadap 250 data suara rekaman telepon.

Hasil eksperimen menunjukkan bahwa akurasi SPS tertinggi diperoleh saat menggunakan kamus Zahra, yakni sebesar 73,5%. Dengan menggunakan kamus fonetik yang sama, pengujian terhadap 100 berkas rekaman berita RRI menghasilkan akurasi maksimum sebesar 71,6% dengan OOV (Out of Vocabulary) sebesar 8,92%. Kamus tersebut merupakan kamus fonetik yang paling tepat untuk mendefinisikan bunyi dalam Bahasa Indonesia, dengan total simbol yang digunakan adalah 33 simbol."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Arief Saferman

Rancang Bangun Sistem Automatic Speech Recognition untuk Bahasa Indonesia Berbasis Wav2Letter dengan Loss Function CTC dan ASG = Development of Automatic Speech Recognition System for Indonesian Language Based on Wav2Letter with Loss Function CTC and ASG

Selama masa pandemi COVID-19, teknologi Automatic Speech Recognition (ASR) menjadi salah satu fitur yang sering digunakan pada komputer untuk mencatat di kelas online secara realtime. Teknologi ini akan bekerja dimana setiap suara yang muncul akan langsung dikenali dan dicatat pada halaman terminal. Dalam penelitian ini, model ASR Wav2Letter akan digunakan menggunakan CNN (Convolution Neural Network) dengan loss function CTC (Connectionist Temporal Classification) dan ASG (Auto Segmentation Criterion). Selama proses pembuatannya, berbagai hyperparameter acoustic model dan language model dari model ASR Wav2Letter terkait dengan implementasi batch normalization¸ learning-rate, window type, window size, n-gram language model, dan konten language model diuji pengaruh variasinya terhadap performa model Wav2Letter. Dari pengujian tersebut, ditemukan bahwa model ASR Wav2Letter menunjukkan performa paling baik ketika acoustic model menggunakan metode ASG dengan learning-rate 9 × 10−5 , window size 0.1, window type Blackman, serta 6-gram language model. Berdasarkan hasil akurasi WER CTC unggul 1,2% dengan 40,36% berbanding 42,11% dibandingkan ASG, namun jika dilihat lamanya epoch dan ukuran file model, loss function ASG memiliki keunggulan hampir dua kalinya CTC, dimana ASG hanya membutuhkan setengah dari jumlah epoch yang dibutuhkan oleh CTC yakni 24 epoch berbanding dengan 12 epoch dan ukuran file model ASG setengah lebih kecil dibandingkan CTC yakni 855,2 MB berbanding dengan 427,8 MB. Pada pengujian terakhir, model ASR Wav2Letter dengan loss function ASG mendapatkan hasil terbaik dengan nilai WER 29,30%. Berdasarkan hasil tersebut, model ASR Wav2Letter dengan loss function ASG menunjukkan perfoma yang lebih baik dibandingkan dengan CTC.

During the COVID-19 pandemic, Automatic Speech Recognition technology (ASR) became one of features that most widely used in computer to note down online class in real-time. This technology works by writing down every word in terminal from voice that is recognized by the system. ASR Wav2Letter model will use CNN (Convolutional Neural Network) with loss function CTC (Connectionist Temporal Classification) and ASG (Auto Segmentation Criterion). While developing Wav2Letter, various hyperparameter from acoustic model and language model is implemented such as batch normalization, learning rate, window type, window size, n-gram language model, and the content of language model are examined against the performance of Wav2Letter model. Based on those examination, Wav2Letter shows best performance when it uses ASG loss function learning rate 9 × 10−5 , window size 0.1, window type Blackman, and 6-gram language model. With that configuration, WER of CTC outplay ASG around 1.2% with 40.36% compare to 42,11%, but another parameter shows ASG are way more superior than CTC with less time epoch training which are 24 epoch for CTC against 12 epoch for ASG and the size of memory model shows CTC has bigger size than ASG with 855.2 MB against 427.8 MB. In the last test, ASR Wav2Letter model with ASG loss function get the best WER value around 29.3%. Based on those results, ASR Wav2Letter Model shows its best performance with ASG loss function than CTC.

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Qisas Tazkia Hasanudin

Rancang Bangun Sistem Transkripsi Otomatis Bahasa Indonesia Bersifat Luring Dengan Input Banyak Mikrofon Menggunakan Mozilla DeepSpeech = Development of an Offline Indonesian Language Automated Transcription System with Multiple Microphone Input Using Mozilla DeepSpeech

Salah satu teknologi berbasis kecerdasan buatan yang kini semakin dibutuhkan adalah ASR (Automatic Speech Recognition), atau lebih sering disebut sebagai speech-to-text. Teknologi ini memiliki potensi untuk diterapkan di berbagai bidang, salah satunya adalah mentranskripsi naskah rapat atau persidangan. Tujuan dari penelitian ini adalah untuk mengembangkan sistem transkripsi otomatis Bahasa Indonesia yang dapat berjalan secara luring dan dapat memproses masukan dari beberapa mikrofon secara bersamaan.

Penelitian ini berhasil mengembangkan sistem transkripsi otomatis dengan mengkombinasikan teknologi ASR, pemrograman Python, aplikasi word editor seperti Microsoft Word, dan komputer yang terhubung dengan banyak mikrofon. Teknologi ASR pada sistem ini terdiri dari acoustic model yang dibuat menggunakan DeepSpeech dengan metode fine-tuning dan language model yang dibuat menggunakan KenLM. Sistem transkripsi otomatis dapat dijalankan pada komputer 64-bit dengan sistem operasi Windows yang di dalamnya terdapat Microsoft Word tanpa memerlukan spesifikasi hardware minimum tertentu.

Hasil pengujian terhadap performa sistem menunjukkan bahwa sistem hanya bersifat CPU-intensive, dan ini hanya terjadi apabila seluruh pembicara berbicara pada mikrofon secara sekaligus, yang mengakibatkan tingginya jumlah thread yang aktif. Hasil pengujian terhadap acoustic model menunjukkan bahwa model tersebut dapat menghasilkan WER terbaik sebesar 73,33% dan CER terbaik sebesar 23,59% apabila dilatih menggunakan learning rate sebesar 0,01 dan dropout rate sebesar 0,3. Hasil pengujian terhadap language model menunjukkan bahwa model yang dibuat dengan dataset teks bertopik umum dan berukuran besar dapat membantu acoustic model menghasilkan WER dan CER yang lebih baik lagi, yaitu 28,76% dan 14,68%.

One of the artificial intelligence-based technologies that is increasingly needed is ASR (Automatic Speech Recognition), or more commonly referred to as speech-to-text. This technology has the potential to be applied in various fields, one of which is generating transcripts for meetings or trials. The purpose of this research is to develop an Indonesian automatic transcription system that can run offline and can process input from multiple microphones simultaneously.
This study succeeded in developing an automatic transcription system by combining ASR technology, Python programming, word editor applications such as Microsoft Word, and computers connected to multiple microphones. The ASR technology in this system consists of an acoustic model created using DeepSpeech with a fine-tuning method and a language model created using KenLM. The automatic transcription system can be run on 64-bit computers with Windows operating system that has Microsoft Word installed on it. It does not require certain minimum hardware specifications.
Test results on system performance show that the system is only CPU-intensive, and this only occurs when all participants are speaking into all microphones at once, resulting in a high number of active threads. The test results on the acoustic model show that the model can produce the best WER of 73.33% and the best CER of 23.59% when trained using a learning rate of 0.01 and a dropout rate of 0.3. The test results on the language model show that the model made with a text dataset that has a large size and no particular topic can help the acoustic model produce better WER and CER, which are 28.76% and 14.68%, respectively."

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Wikky Fawwaz Al Maki

Simulasi dan analisis perbandingan algoritma-algoritma vector quantization untuk sistem pengenalan sinyal akustik ikan-ikan soniferous berbasis text dependent voice recognition yang menggunakan hidden Markov model

"Skripsi ini berisi tentang perbandingan dari 3 jenis algoritma VQ (Vector Quantization) yaitu Traditional K-Means Clustering, LBG (Linde, Buzo, and Gray), dan Sucessive Binary Split yang digunakan dalam proses pengenalan sinyal akustik (Suara) dari berbagai jenis ikan. Dalam proses pengenalan sinyal akustik ikan yang menggunakan HMM (Hidden Markov Model), sinyal akustik ikan yang akan dideteksi, terlebih dahulu dikuantisasi dengan menggunakan algoritma VQ.

Pada sistem pengenalan sinyal akustik ikan, sinyal akustik ikan diubah terlebih dahulu ke dalam bentuk diskrit dengan cara sampling. Sinyal diskrit ini diekstraksi agar diperoleh karakteristiknya dengan menggunakan MFCC (Mel Frequency Cepstrum Coefficient). Vektor data yang terbentuk kemudian dikuantisasi dengan menggunakan 3 jenis algoritma VQ. Pada tahap pengenalan sinyal akustik ikan (recognition) yang memanfaatkan model HMM, ketiga jenis algoritma VQ ini diteliti unjuk kerjanya berdasarkan tingkat akurasi yang diperoleh.

Berdasarkan hasil simulasi, algoritma Sucessive Binary Split merupakan algoritma paling optimum untuk sistem pengenalan sinyal akustik ikan karena memiliki tingkat akurasi tertinggi (pada ukuran codebook < 64) dengan kebutuhan kapasitas memori dan waktu komputasi (saat pembuatan codebook dan model HMM) paling kecil. Untuk memperoleh sistem pengenalan sinyal akuslik ikan dengan tingkat akurasi yang paling baik, algoritma LBG dapat digunakan dengan ukuran codebook > 128 tetapi kapasitas memori dan waktu komputasi yang dibutuhkan makin besar. Tingkat akurasi (recognition rate) pada sistem pengenalan sinyal akustik ikan yang menggunakan VQ dan HMM dapat ditingkatkan dengan memperbesar ukuran codebook, jumlah iterasi algoritma VQ, dan jumlah iterasi pada Baum Welch Algorithm."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S40061

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Aljundi

Pengembangan Simple-O (Sistem Penilaian Esai Otomatis) Ujian Bahasa Jepang dengan Menggunakan DeepSpeech = Development of Simple-O (Automated Essay Scoring System) for Japanese Examination Using DeepSpeech

"Skripsi ini membahas mengenai pengembangan sistem ujian lisan Bahasa Jepang yang dirancang dengan mengintegrasikan automatic speech recognition dengan sistem penilaian esai otomatis. Sistem yang dikembangkan menggunakan arsitektur client-server. Client merupakan aplikasi yang dikembangkan menggunakan cross-platform framework Flutter dan dapat dijalankan pada platform web maupun Android. Back-end server pada cloud dibangun menggunakan bahasa pemrograman Python dengan database PostgreSQL serta memanfaatkan teknologi kontainerisasi dengan Docker. Sistem speech recognition yang digunakan adalah DeepSpeech dengan model di-training untuk dapat mengubah pengucapan dalam bahasa Jepang menjadi teks dengan huruf hiragana. Model yang dihasilkan memiliki rata-rata WER sebesar 20,6%. Sistem plenilaian esai otomatis yang digunakan adalah SIMPLE-O dengan metode LSA. Uji coba dilaksanakan secara online pada 36 responden dengan tingkat kefamiliaran terhadap bahasa Jepang yang bervariasi. Hasil uji coba mendapatkan nilai rata-rata sebesar 49,62 dari nilai maksimum sebesar 100. Akurasi sistem penilaian ujian lisan bahasa Jepang ini didefinisikan sebagai nilai rata-rata hasil uji coba, dibagi dengan akurasi speech recognition, yaitu sebesar 62,5%.

This thesis discusses about the development of a Japanese language verbal exam system designed by integrating automatic speech recognition with an automatic essay scoring system. The system developed uses a client-server architecture. The client is an application developed using the cross-platform framework Flutter and can be run on the web or Android platforms. Back-end servers in the cloud are built using the Python programming language with the PostgreSQL database and utilize containerization technology with Docker. The speech recognition system used is DeepSpeech with a training model to be able to convert Japanese pronunciation into text using hiragana letters. The resulting model has an average WER of 20.6%. The automatic essay scoring system used is SIMPLE-O with the LSA method. The trial was carried out online with 36 respondents with different levels of familiarity with Japanese language. The test results obtained an average score of 49.62 out of a maximum score of 100. The accuracy of the Japanese verbal exam scoring system is defined as the average value of the test results, divided by the accuracy of speech recognition, which is equal to 62.5%."

Depok: Fakultas Teknik Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Mohammad Salman Alfarisi

Rancang Bangun Sistem Automatic Speech Recognition untuk Bahasa Indonesia Berbasis Wav2Vec 2.0 = Development of Automatic Speech Recognition System for Indonesian Language Based on Wav2Vec 2.0

Salah satu permasalahan yang terdapat pada sistem Automatic Speech Recognition (ASR) yang sudah ada adalah kurangnya transparansi dalam penanganan data suara, yang tentunya membuat adanya keraguan terhadap privasi data tersebut. Di sisi lainnya, untuk mengembangkan sebuah sistem ASR yang memiliki akurasi memadai dan dapat bekerja secara luring membutuhkan jumlah data yang banyak, khususnya data suara yang sudah diiringi dengan transkripnya. Hal ini menjadi salah satu hambatan utama pengembangan sistem pengenalan suara, terutama pada yang memiliki sumber daya minim seperti Bahasa Indonesia. Oleh karena itu, dalam penelitian ini dilakukan perancangan sistem pengenalan suara otomatis berbasis model wav2vec 2.0, sebuah model kecerdasan buatan yang dapat mengenal sinyal suara dan mengubahnya menjadi teks dengan akurasi yang baik, meskipun hanya dilatih data dengan label yang berjumlah sedikit. Dari pengujian yang dilakukan dengan dataset Common Voice 8.0, model wav2vec 2.0 menghasilkan WER sebesar 25,96%, dua kali lebih baik dibandingkan dengan model Bidirectional LSTM biasa yang menghasilkan 50% namun membutuhkan jumlah data dengan label 5 kali lipat lebih banyak dalam proses pelatihan. Namun, model wav2vec membutuhkan sumber daya komputasi menggunakan 2 kali lebih banyak RAM dan 10 kali lebih banyak memori dibandingkan model LSTM

One of the main problems that have plagued ready-to-use Automatic Speech Recognition (ASR) Systems is that there is less transparency in handling the user’s voice data, that has raised concerns regarding the privacy of said data. On the other hand, developing an ASR system from scratch with good accuracy and can work offline requires a large amount of data, more specifically labeled voice data that has been transcribed. This becomes one of the main obstacles in speech recognition system development, especially in low-resourced languages where there is minimal data, such as Bahasa Indonesia. Based on that fact, this research conducts development of an automatic speech recognition system that is based on wav2vec 2.0, an Artificial Model that is known to recognize speech signals and convert it to text with great accuracy, even though it has only been trained with small amounts of labeled data. From the testing that was done using the Common Voice 8.0 dataset, the wav2vec 2.0 model produced a WER of 25,96%, which is twice as low as a traditional Bidirectional LSTM model that gave 50% WER, but required 5 times more labeled data in the training process. However, the wav2vec model requires more computational resource, which are 2 times more RAM and 10 times more storage than the LSTM model.

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian