Paper ini memaparkan hasil penelitian dalam membangun aplikasi pendiktean Bahasa Indonesia untuk waktu nyata. Dalam membangun sebuah aplikasi pendiktean, terdapat beberapa masalah seperti perintah suara (voice command), Out Of Vocabulary (OOV), noise, dan filler. Adapun yang menjadi fokus dalam penelitian ini adalah penanganan perintah suara dan OOV dari kata yang didiktekan. Pendiktean suara merupakan pengembangan lanjut dari pengenalan suara secara waktu nyata dengan tambahan metode untuk menangani hal-hal yang telah dinyatakan sebelumnya. Untuk menangani perintah suara, sebuah modul ditambahkan untuk mengecek hasil decoding dari sistem pengenalan suara. Adapun untuk menangani OOV, ditambahkan modul penanganan pengejaan setelah sebelumnya dinyatakan status ejaan. Model perintah suara dan model huruf ditambahkan ke dalam kamus dan digunakan sebagai pelatihan dari model bahasa n-gram. Dalam pengujian, dilakukan evaluasi terhadap sistem pengenalan suara, penanganan perintah suara, dan modul pengejaan sebagai strategi untuk menangani kata OOV. Untuk modul pengenalan suara, akurasi yang dicapai adalah 70%. Untuk modul penanganan perintah suara, pengujian menunjukkan bahwa perintah suara dapat ditangani dengan baik. Sedangkan untuk modul pengejaan, pengujian menunjukkan bahwa hanya 20 dari 26 huruf yang berhasil dikenali. Abstract In this paper, we presented the results of research in building applications dictation of the Bahasa Indonesia for real-time. In developing a dictation application, there are some problems such as voice command, Out of Vocabulary (OOV), noise, and filler. As the focus in this research is the handling of voice command and OOV from dictated words. Voice dictation is a further development of real time voice recognition with an additional method to deal with things that have been stated before. To handle voice commands, a module is added to check the results of decoding of the voice recognition system. To handle OOV, spelling handling module is added after the previously stated spelling status. Voice command model and the model letter are added to the dictionary and used as the training of n-gram language model. In testing, we conducted an evaluation of speech recognition systems, voice commands and spelling handling module as a strategy to deal with OOV words. For the speech recognition module, the achieved accuracy is 70%. For voice commands handling module, the test showed that voice commands can be handled properly. As for the spelling module, testing showed that only 20 of the 26 letters that successfully recognized. |