Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 16 dokumen yang sesuai dengan query
cover
Li, Qia
"This book examines use of the voice as a biometric measure for personal authentication, offering an overview of advances in speaker authentication, and including useful algorithms and techniques for improving overall system robustness and performance."
Berlin: [Springer-Verlag, ], 2012
e20397868
eBooks  Universitas Indonesia Library
cover
Amalia Zahra
"Dengan adanya internet, media televisi, dan radio, data yang tersedia sangat banyak, termasuk data suara. Oleh karena itu, dibutuhkan suatu cara untuk mengorganisasikannya, yakni dengan mengubah data suara menjadi teks terlebih dahulu. Pengolahan selanjutnya cukup dilakukan terhadap teks. Proses konversi data suara menjadi teks inilah yang dikenal dengan sistem pengenalan suara (SPS) otomatis.
Saat ini, SPS untuk berbagai bahasa di dunia telah berkembang pesat, seperti Bahasa Inggris, Perancis, Jepang, Thai, dan lain-lain, sedangkan penelitian SPS untuk Bahasa Indonesia sudah dimulai, namun masih dalam tahap awal. Adanya kebutuhan akan SPS dan perkembangan SPS bahasa lain yang pesat memotivasi penulis untuk melakukan penelitian SPS untuk Bahasa Indonesia.
Fokus penelitian ini adalah pembuatan model akustik yang berkaitan erat dengan kamus fonetik yang digunakan. Oleh karena itu, penulis melakukan eksperimen menggunakan enam jenis kamus fonetik, yaitu IPA, SAMPA, ARPABET, Lestari [LEST06], Sakti [SAKT08], dan kamus yang dikembangkan oleh penulis (kamus Zahra). Eksperimen terbagi menjadi dua proses besar, yaitu pelatihan, dengan menggunakan 1.000 data suara rekaman telepon, dan pengujian terhadap 250 data suara rekaman telepon.
Hasil eksperimen menunjukkan bahwa akurasi SPS tertinggi diperoleh saat menggunakan kamus Zahra, yakni sebesar 73,5%. Dengan menggunakan kamus fonetik yang sama, pengujian terhadap 100 berkas rekaman berita RRI menghasilkan akurasi maksimum sebesar 71,6% dengan OOV (Out of Vocabulary) sebesar 8,92%. Kamus tersebut merupakan kamus fonetik yang paling tepat untuk mendefinisikan bunyi dalam Bahasa Indonesia, dengan total simbol yang digunakan adalah 33 simbol."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Armando Yonathan
"Informasi yang terdapat saat ini tidak hanya terbatas disimpan dalam bentuk dokumen teks saja, tetapi banyak juga dalam bentuk dokumen suara. Banyaknya informasi yang disimpan dalam bentuk dokumen suara menyebabkan diperlukannya teknik perolehan informasi yang dapat diterapkan kepada koleksi dokumen tersebut. Pendekatan yang banyak dilakukan adalah dengan menggunakan hasil pengenalan suara oleh Sistem Pengenalan Suara Otomatis (SPSO). Tetapi, hasil pengenalan suara oleh SPSO tidak sepenuhnya benar sehingga menurunkan tingkat akurasi perolehan informasi dokumen suara. Pada penelitian ini penulis mencoba empat jenis hasil pengenalan suara untuk melakukan perolehan informasi dokumen suara, yaitu 1-best output, n-best word output, n-best pronounciation output, word posterior lattice. Selain itu, penulis juga mencoba tiga jenis kueri pada penelitian ini, yaitu kueri satu kata, kueri frase dua kata dan kueri kalimat. Hasil yang didapat pada penelitian ini menyimpulkan bahwa penggunaan 1-best output pada perolehan informasi dokumen suara menghasilkan kinerja yang lebih baik dibandingkan penggunaan hasil pengenalan suara yang lain. Mean Average Precision (MAP) hasil eksperimen dengan 1-best output lebih besar 0.64% dibandingkan penggunaan n-best output , 8,88% lebih besar dibandingkan penggunaan word posterior lattice dan lebih besar 92.68% dibandingkan penggunaan n-best pronounciation output. Pada eksperimen dengan kueri frase, sistem dengan akurasi terbaik adalah sistem yang menggunakan word posterior lattice. Pada eksperimen dengan kueri satu kata dan kueri kalimat, sistem yang menggunakan n-best word output menghasilkan kinerja terbaik.

The information today is not only limited in the form of text documents, but also in the form of spoken documents. The growing number of those spoken documents requires the information retrieval techniques to make the retrieval process easier. The approach for spoken documents retrieval is using automatic speech recognition (ASR). However, the results of the speech recognition by ASR are not entirely correct, so reduce the level of accuracy of information retrieval of spoken documents. This experiment uses four types results of the speech recognition by ASR, the 1-best output, n-best output, n-best pronunciation output, word posterior lattice. In addition, this experiment also investigates the effect of the use of query types (phrase, single word and sentence). Results obtained from this experiment concluded that the use of 1-best output on spoken document retrieval produces better performance results than the use of other results of the speech recognition. Mean Average Precision (MAP) results of experiments with 1-best output is 0.64% higher than the use of n-best output, 8.88% higher than the use of word posterior lattice and 92.68% higher than the use of n-best pronunciation output. In phrase based query experiment, the best accuracy is word posterior lattice while the best accuracy in single word query and sentence query is n-best word output."
Depok: Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Siahaan, Edison Pardengganan
"Penelitian yang dilakukan pada tesis ini dimotivasi oleh adanya kebutuhan untuk dapat melakukan pengelolaan informasi pada dokumen suara khususnya berita berbahasa Indonesia. Informasi pada dokumen suara berita berbahasa Indonesia dapat diubah menjadi informasi berbentuk dokumen teks, dengan menggunakan perangkat lunak Automatic Speech Recognition (ASR). Pada penelitian ini perangkat ASR yang digunakan adalah perangkat ASR Sphinx 4.
Penggunaan perangkat Sphinx 4 ini didasari telah dilakukannya penelitian tentang transkripsi dokumen suara berbahasa Indonesia menggunakan perangkat ini. Hasil keluaran dari ASR berupa dokumen teks yang tidak memiliki batasan akhir dan tidak tersegmentasi secara jelas, tentu menyulitkan dalam pengolahan data teks tersebut. Dalam kerangka itu, maka penelitian yang dilakukan pada tesis ini ditujukan untuk mengetahui metode yang efektif dalam melakukan segmentasi hasil transkripsi berita suara berbahasa Indonesia. Metode yang akan diuji pada penelitian ini adalah metode TextTiling berbasis perbandingan blok dengan pembobotan TF-IDF-Mutual Information, TF-IDFMutual Information-Word Similarity, TF-IDF-Word Frequency, TF-IDF, Latent Semantic Analysis dan metode TextTiling berbasis Vocabulary Introduction. Segmentasi dilakukan untuk berita teks dan dokumen teks hasil transkripsi berita suara yang telahdikatagorikan menjadi 5 topik yaitu topik politik, sosial budaya, ekonomi, hukum dan olah raga. Hasil pengujian terhadap masing-masing teknik pembobotan menunjukkan bahwa metode segmentasi TextTiling dengan teknik pembobotan TF-IDF-Word Frequency merupakan metode segmentasi yang paling baik untuk dipakai dalam melakukan segmentasi hasil transkripsi dari perangkat pengenal suara (Automatic Speech Recognition). Pada penelitian ini telah dibuktikan bahwa teknik pembobotan TF-IDF-Word Frequency memiliki ketepatan segmentasi lebih tinggi baik pada dokumen teks hasil transkripsi (81,4%) ataupun pada dokumen berita teks (73,3%). Metode segmentasi yang dilakukan pada penelitian ini dapat terus dikembangkan menggunakan teknik-teknik lain dalam menunjang proses segmentasi hasil transkripsi berita berberbahasa Indonesia, seperti mempergunakan metode-metode optimalisasi dalam memperoleh urutan batas segmen yang optimal."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
T-804
UI - Tesis Membership  Universitas Indonesia Library
cover
Kondo, Kazuhiro
"This practical hands-on book shows speech intelligibility measurement methods so that the readers can start measuring or estimating speech intelligibility of their own system. The book also introduces subjective and objective speech quality measures, and describes in detail speech intelligibility measurement methods. It introduces a diagnostic rhyme test which uses rhyming word-pairs, and includes : an investigation into the effect of word familiarity on speech intelligibility. Speech intelligibility measurement of localized speech in virtual 3-D acoustic space using the rhyme test. Estimation of speech intelligibility using objective measures, including the ITU standard PESQ measures, and automatic speech recognizers."
Berlin: [, Springer], 2012
e20398888
eBooks  Universitas Indonesia Library
cover
Elmahdy, Mohamed
"Novel techniques for dialectal Arabic speech describes approaches to improve automatic speech recognition for dialectal Arabic. Since speech resources for dialectal Arabic speech recognition are very sparse, the authors describe how existing Modern Standard Arabic (MSA) speech data can be applied to dialectal Arabic speech recognition, while assuming that MSA is always a second language for all Arabic speakers. "
New York: [, Springer], 2012
e20418294
eBooks  Universitas Indonesia Library
cover
AbuZeina, Dia
"Cross-word modeling for Arabic speech recognition utilizes phonological rules in order to model the cross-word problem, a merging of adjacent words in speech caused by continuous speech, to enhance the performance of continuous speech recognition systems. The author aims to provide an understanding of the cross-word problem and how it can be avoided, specifically focusing on Arabic phonology using an HHM-based classifier."
New York: [, Springer], 2012
e20418404
eBooks  Universitas Indonesia Library
cover
Mary, Leena
"Extraction and representation of prosodic features for speech processing applications deals with prosody from speech processing point of view with topics including, the significance of prosody for speech processing applications, why prosody need to be incorporated in speech processing applications, and different methods for extraction and representation of prosody for applications such as speech synthesis, speaker recognition, language recognition and speech recognition."
New York: Springer, 2012
e20418411
eBooks  Universitas Indonesia Library
cover
Yusuf Fakhri Aldrian
"Sesuai dengan ketentuan hukum, setiap warga negara berhak atas informasi dan kemudahan akses informasi, termasuk individu dengan disabilitas tunarungu. Bahasa isyarat menjadi sarana komunikasi utama bagi penyandang disabilitas tunarungu. Bahasa isyarat sering dijumpai pada komunitas tunarungu yang melibatkan penerjemah, teman, dan keluarga serta para penyandang tunarungu itu sendiri. Sistem Isyarat Bahasa Indonesia (SIBI) merupakan sistem bahasa isyarat yang dipakai dalam pemelajaran di sekolah luar biasa. Penelitian yang dilakukan penulis merupakan lanjutan dari penelitian sebelumnya yang bertujuan untuk mengintegrasikan plug-in modul pada Moodle dengan pembangkit teks subtitle dari video pemelajaran untuk diteruskan ke layanan pembangkit animasi 3D bahasa isyarat. plug-in yang dibuat secara umum dibangun dengan Moodle, Python, Redis, dan Unity. Aplikasi Moodle memiliki dua laman, yaitu laman utama yang berisi daftar subtitle menerima status pembentukan subtitle dari database di Python serta laman formulir mengirim HTTP Request yang berisi input berisi video untuk pembentukan subtitle ke aplikasi Python. Aplikasi Python akan menerima HTTP Request yang dikirim dari Moodle dan melakukan deretan perintah yang digunakan untuk penambahan subtitle dan menambahkan subtitle yang dijalankan secara asinkronus ke server Redis. Setelah itu, video dan subtitle akan dikirim melalui Redis untuk pengantrian penambahan animasi bahasa isyarat SIBI. Data tersebut dikirim secara asinkronus ke Unity untuk pembentukan animasi bahasa isyarat. Setelah pembuatan animasi bahasa isyarat selesai, video akan dikirim kembali ke Moodle dan statusnya akan ditambahkan ke database di aplikasi Python. Penulis melakukan percobaan untuk menguji performa masing-masing ASR dengan metrik evaluasi durasi dan Word Error Rate. Percobaan membuktikan jenis ASR Wav2Vec memiliki rata-rata Word Error Rate paling besar yaitu 42,64% dan membutuhkan waktu yang paling lama yaitu 32 menit 3 detik untuk membuat transkripsi audio, disusul jauh oleh Google (WER 1,43% dan durasi 2 menit 27 detik) dan Azure (WER 2,57% dan durasi 1 menit 16 detik). Menurut penulis, Wav2Vec memiliki performa yang buruk sehingga tidak bagus untuk digunakan di kasus umumnya, sehingga sebaiknya model ASR yang dipakai adalah Google dan Azure.

In accordance with legal provisions, every citizen has the right to information and ease of access to information, including individuals with hearing disabilities. Sign language is the primary communication method for those with hearing disabilities and is commonly encountered within the deaf community, involving interpreters, friends, family, and the hearing impaired themselves. Sistem Isyarat Bahasa Indonesia (SIBI) is the official sign language used in special educations in Indonesia. The research conducted by the author builds upon a previous study aiming to integrate a module plug-in on Moodle with text subtitle generation from learning videos to be transferred to a 3D sign language animation service. The plug-in was primarily developed using Moodle, Python, Redis, and Unity. The Moodle application contains two main pages: one with a list of subtitles receiving the subtitle creation status from a Python database and another with a form page for sending HTTP requests containing video input for subtitle creation to the Python application. The Python application receives the HTTP requests sent from Moodle and executes a series of commands used for adding subtitles and synchronously adding subtitles to the Redis server. Afterward, the video and subtitles are sent through Redis for queueing and adding SIBI sign language animations. This data is sent asynchronously to Unity for creating sign language animations. Once the sign language animation is complete, the video is sent back to Moodle, and its status is updated in the Python application database. The author conducted experiments to test the performance of each ASR using evaluation metrics such as duration and Word Error Rate. Experiments demonstrated that the Wav2Vec ASR model has the highest Word Error Rate (42,64%) and requires the longest time to create audio transcription (32 minutes 3 seconds), followed by Google (1,43% WER, 2 minutes and 27 seconds) and Azure (2,57% WER, 1 minute and 16 seconds), which performed better. According to the author, Wav2Vec is not suitable for general cases, so the ASR models preferred should be Google and Azure."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kulshreshtha, Manisha
"Dialect accent features for establishing speaker identity : a case study discusses the subject of forensic voice identification and speaker profiling. Specifically focusing on speaker profiling and using dialects of the Hindi language, widely used in India, the authors have contributed to the body of research on speaker identification by using accent feature as the discriminating factor. This case study contributes to the understanding of the speaker identification process in a situation where unknown speech samples are in different language/dialect than the recording of a suspect. The authors' data establishes that vowel quality, quantity, intonation and tone of a speaker as compared to Khariboli (standard Hindi) could be the potential features for identification of dialect accent."
New York: [Springer, ], 2012
e20418417
eBooks  Universitas Indonesia Library
<<   1 2   >>