Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 15 dokumen yang sesuai dengan query
cover
Li, Qia
Abstrak :
This book examines use of the voice as a biometric measure for personal authentication, offering an overview of advances in speaker authentication, and including useful algorithms and techniques for improving overall system robustness and performance.
Berlin: [Springer-Verlag, ], 2012
e20397868
eBooks  Universitas Indonesia Library
cover
Amalia Zahra
Abstrak :
Dengan adanya internet, media televisi, dan radio, data yang tersedia sangat banyak, termasuk data suara. Oleh karena itu, dibutuhkan suatu cara untuk mengorganisasikannya, yakni dengan mengubah data suara menjadi teks terlebih dahulu. Pengolahan selanjutnya cukup dilakukan terhadap teks. Proses konversi data suara menjadi teks inilah yang dikenal dengan sistem pengenalan suara (SPS) otomatis. Saat ini, SPS untuk berbagai bahasa di dunia telah berkembang pesat, seperti Bahasa Inggris, Perancis, Jepang, Thai, dan lain-lain, sedangkan penelitian SPS untuk Bahasa Indonesia sudah dimulai, namun masih dalam tahap awal. Adanya kebutuhan akan SPS dan perkembangan SPS bahasa lain yang pesat memotivasi penulis untuk melakukan penelitian SPS untuk Bahasa Indonesia. Fokus penelitian ini adalah pembuatan model akustik yang berkaitan erat dengan kamus fonetik yang digunakan. Oleh karena itu, penulis melakukan eksperimen menggunakan enam jenis kamus fonetik, yaitu IPA, SAMPA, ARPABET, Lestari [LEST06], Sakti [SAKT08], dan kamus yang dikembangkan oleh penulis (kamus Zahra). Eksperimen terbagi menjadi dua proses besar, yaitu pelatihan, dengan menggunakan 1.000 data suara rekaman telepon, dan pengujian terhadap 250 data suara rekaman telepon. Hasil eksperimen menunjukkan bahwa akurasi SPS tertinggi diperoleh saat menggunakan kamus Zahra, yakni sebesar 73,5%. Dengan menggunakan kamus fonetik yang sama, pengujian terhadap 100 berkas rekaman berita RRI menghasilkan akurasi maksimum sebesar 71,6% dengan OOV (Out of Vocabulary) sebesar 8,92%. Kamus tersebut merupakan kamus fonetik yang paling tepat untuk mendefinisikan bunyi dalam Bahasa Indonesia, dengan total simbol yang digunakan adalah 33 simbol.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Siahaan, Edison Pardengganan
Abstrak :
Penelitian yang dilakukan pada tesis ini dimotivasi oleh adanya kebutuhan untuk dapat melakukan pengelolaan informasi pada dokumen suara khususnya berita berbahasa Indonesia. Informasi pada dokumen suara berita berbahasa Indonesia dapat diubah menjadi informasi berbentuk dokumen teks, dengan menggunakan perangkat lunak Automatic Speech Recognition (ASR). Pada penelitian ini perangkat ASR yang digunakan adalah perangkat ASR Sphinx 4. Penggunaan perangkat Sphinx 4 ini didasari telah dilakukannya penelitian tentang transkripsi dokumen suara berbahasa Indonesia menggunakan perangkat ini. Hasil keluaran dari ASR berupa dokumen teks yang tidak memiliki batasan akhir dan tidak tersegmentasi secara jelas, tentu menyulitkan dalam pengolahan data teks tersebut. Dalam kerangka itu, maka penelitian yang dilakukan pada tesis ini ditujukan untuk mengetahui metode yang efektif dalam melakukan segmentasi hasil transkripsi berita suara berbahasa Indonesia. Metode yang akan diuji pada penelitian ini adalah metode TextTiling berbasis perbandingan blok dengan pembobotan TF-IDF-Mutual Information, TF-IDFMutual Information-Word Similarity, TF-IDF-Word Frequency, TF-IDF, Latent Semantic Analysis dan metode TextTiling berbasis Vocabulary Introduction. Segmentasi dilakukan untuk berita teks dan dokumen teks hasil transkripsi berita suara yang telahdikatagorikan menjadi 5 topik yaitu topik politik, sosial budaya, ekonomi, hukum dan olah raga. Hasil pengujian terhadap masing-masing teknik pembobotan menunjukkan bahwa metode segmentasi TextTiling dengan teknik pembobotan TF-IDF-Word Frequency merupakan metode segmentasi yang paling baik untuk dipakai dalam melakukan segmentasi hasil transkripsi dari perangkat pengenal suara (Automatic Speech Recognition). Pada penelitian ini telah dibuktikan bahwa teknik pembobotan TF-IDF-Word Frequency memiliki ketepatan segmentasi lebih tinggi baik pada dokumen teks hasil transkripsi (81,4%) ataupun pada dokumen berita teks (73,3%). Metode segmentasi yang dilakukan pada penelitian ini dapat terus dikembangkan menggunakan teknik-teknik lain dalam menunjang proses segmentasi hasil transkripsi berita berberbahasa Indonesia, seperti mempergunakan metode-metode optimalisasi dalam memperoleh urutan batas segmen yang optimal.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
T-804
UI - Tesis Membership  Universitas Indonesia Library
cover
Armando Yonathan
Abstrak :
Informasi yang terdapat saat ini tidak hanya terbatas disimpan dalam bentuk dokumen teks saja, tetapi banyak juga dalam bentuk dokumen suara. Banyaknya informasi yang disimpan dalam bentuk dokumen suara menyebabkan diperlukannya teknik perolehan informasi yang dapat diterapkan kepada koleksi dokumen tersebut. Pendekatan yang banyak dilakukan adalah dengan menggunakan hasil pengenalan suara oleh Sistem Pengenalan Suara Otomatis (SPSO). Tetapi, hasil pengenalan suara oleh SPSO tidak sepenuhnya benar sehingga menurunkan tingkat akurasi perolehan informasi dokumen suara. Pada penelitian ini penulis mencoba empat jenis hasil pengenalan suara untuk melakukan perolehan informasi dokumen suara, yaitu 1-best output, n-best word output, n-best pronounciation output, word posterior lattice. Selain itu, penulis juga mencoba tiga jenis kueri pada penelitian ini, yaitu kueri satu kata, kueri frase dua kata dan kueri kalimat. Hasil yang didapat pada penelitian ini menyimpulkan bahwa penggunaan 1-best output pada perolehan informasi dokumen suara menghasilkan kinerja yang lebih baik dibandingkan penggunaan hasil pengenalan suara yang lain. Mean Average Precision (MAP) hasil eksperimen dengan 1-best output lebih besar 0.64% dibandingkan penggunaan n-best output , 8,88% lebih besar dibandingkan penggunaan word posterior lattice dan lebih besar 92.68% dibandingkan penggunaan n-best pronounciation output. Pada eksperimen dengan kueri frase, sistem dengan akurasi terbaik adalah sistem yang menggunakan word posterior lattice. Pada eksperimen dengan kueri satu kata dan kueri kalimat, sistem yang menggunakan n-best word output menghasilkan kinerja terbaik.
The information today is not only limited in the form of text documents, but also in the form of spoken documents. The growing number of those spoken documents requires the information retrieval techniques to make the retrieval process easier. The approach for spoken documents retrieval is using automatic speech recognition (ASR). However, the results of the speech recognition by ASR are not entirely correct, so reduce the level of accuracy of information retrieval of spoken documents. This experiment uses four types results of the speech recognition by ASR, the 1-best output, n-best output, n-best pronunciation output, word posterior lattice. In addition, this experiment also investigates the effect of the use of query types (phrase, single word and sentence). Results obtained from this experiment concluded that the use of 1-best output on spoken document retrieval produces better performance results than the use of other results of the speech recognition. Mean Average Precision (MAP) results of experiments with 1-best output is 0.64% higher than the use of n-best output, 8.88% higher than the use of word posterior lattice and 92.68% higher than the use of n-best pronunciation output. In phrase based query experiment, the best accuracy is word posterior lattice while the best accuracy in single word query and sentence query is n-best word output.
Depok: Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Kondo, Kazuhiro
Abstrak :
This practical hands-on book shows speech intelligibility measurement methods so that the readers can start measuring or estimating speech intelligibility of their own system. The book also introduces subjective and objective speech quality measures, and describes in detail speech intelligibility measurement methods. It introduces a diagnostic rhyme test which uses rhyming word-pairs, and includes : an investigation into the effect of word familiarity on speech intelligibility. Speech intelligibility measurement of localized speech in virtual 3-D acoustic space using the rhyme test. Estimation of speech intelligibility using objective measures, including the ITU standard PESQ measures, and automatic speech recognizers.
Berlin: [, Springer], 2012
e20398888
eBooks  Universitas Indonesia Library
cover
Elmahdy, Mohamed
Abstrak :
Novel techniques for dialectal Arabic speech describes approaches to improve automatic speech recognition for dialectal Arabic. Since speech resources for dialectal Arabic speech recognition are very sparse, the authors describe how existing Modern Standard Arabic (MSA) speech data can be applied to dialectal Arabic speech recognition, while assuming that MSA is always a second language for all Arabic speakers.
New York: [, Springer], 2012
e20418294
eBooks  Universitas Indonesia Library
cover
AbuZeina, Dia
Abstrak :
Cross-word modeling for Arabic speech recognition utilizes phonological rules in order to model the cross-word problem, a merging of adjacent words in speech caused by continuous speech, to enhance the performance of continuous speech recognition systems. The author aims to provide an understanding of the cross-word problem and how it can be avoided, specifically focusing on Arabic phonology using an HHM-based classifier.
New York: [, Springer], 2012
e20418404
eBooks  Universitas Indonesia Library
cover
Mary, Leena
Abstrak :
Extraction and representation of prosodic features for speech processing applications deals with prosody from speech processing point of view with topics including, the significance of prosody for speech processing applications, why prosody need to be incorporated in speech processing applications, and different methods for extraction and representation of prosody for applications such as speech synthesis, speaker recognition, language recognition and speech recognition.
New York: Springer, 2012
e20418411
eBooks  Universitas Indonesia Library
cover
Evando Wihalim
Abstrak :
Dengan berkembangnya pengetahuan di bidang teknologi, kegiatan belajar mengajar tidak hanya dapat dilakukan secara tatap muka. Kegiatan belajar mengajar ini dapat didukung dengan memanfaatkan suatu learning management system (LMS) berbasis web. LMS biasanya mampu untuk menyimpan video pemelajaran baik itu rekaman kelas maupun rekaman materi yang disampaikan oleh pengajar. Video pemelajaran pada LMS ini dapat diakses oleh semua orang termasuk para pelajar tunarungu. Video pemelajaran biasanya terdiri atas kumpulan gambar dan suara. Suara ini sulit didengar oleh penyandang tunarungu sehingga mereka mengalami kesulitan dalam memahami isi video pemelajaran. Untuk melawan keterbatasan pendengaran, penyandang tunarungu kerap menggunakan komunikasi total dalam keseharian mereka. Komunikasi total adalah komunikasi yang tidak hanya melibatkan mulut dan telinga namun juga mata, gerakan bibir, gerakan tangan, dan lain-lain. Untuk menghadirkan komunikasi total pada video pemelajaran, dibutuhkan suatu sistem yang dapat mengubah video menjadi gerakan animasi bahasa isyarat. Fasilkom UI telah mengembangkan modul untuk mengubah teks menjadi animasi bahasa isyarat. Dengan demikian, diperlukan suatu sistem yang dapat mengubah video menjadi teks. Pada penelitian ini, dikembangkan sistem pengubah video menjadi teks yang dapat diintegrasikan dengan LMS khususnya Moodle. Pada penelitian ini juga dibahas mengenai perbandingan dua model Automatic Speech Recogniton (ASR), yakni: Google Speech-to-Text dan Wav2Vec2-Large-XLSRIndonesian. Pada penelitian ini didapatkan kesimpulan bahwa pengembang dapat membuat sebuah modul aktivitas Moodle yang dapat diintegrasikan dengan LMS Moodle dan layanan lain di luar LMS. Tak hanya itu, berdasarkan hasil analisis yang dilakukan pada penelitian ini, model Google Speech-to-Text terbukti mampu memberikan rata-rata hasil transkripsi video pemelajaran yang lebih akurat dan lebih cepat daripada model Wav2Vec2-Large-XLSR-Indonesian. ......With the growth of technology, teaching and learning activities are no longer limited to classroom. Now teaching and learning activities can be supported by utilizing Learning Management System (LMS). LMS often have the feature to store recordings, be it class session recordings or learning materials video. These recordings could be accessed by anyone, from normal students to students with hearing impairment. These learning videos are composed of images and sounds. Students with hearing impairment would have trouble with hearing those sounds. To combat their hearing problems, students with hearing impairment would use total communication in their everyday lives. Total communication is a communication that not only involves the mouth and the ears, but also eyes, lips, hand movements, and so on. To bring this total communication into the video, a system that could convert the video into sign language animation is needed. Fasilkom UI have developed a system that could convert text into a sign language animation. And so, a system that could convert the video into a text. In this research a system that could convert video into text that could be integrated with LMS, especially Moodle, will be developed. This research also discusses the comparison between two Automatic Speech Recognition (ASR) models, one from Google, and one being a community-developed open-source project. This research managed to develop a Moodle activity module that could be integrated with the LMS itself and other remote services. And also, this research founds that, based on our analysis, the Google Speech-to-text model could give better and faster transcription results of the learning videos compared to Wav2Vec2-Large-XLSR-Indonesian model.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mohamad Irfan Fanani
Abstrak :
Penelitian ini membahas tentang pengembangan sistem pencarian kata pada terjemahan Al-Qur’an berbasis website dengan menggunakan Node.JS, Google Speech-to-Text API, dan alquran.cloud API sebagai komponen utamanya. Masukan sistem berupa suara yang pada proses selanjutnya diubah menjadi teks oleh Google Speech-to-Text API lalu teks digunakan sebagai kata kunci untuk mencari terjemahan menggunakan alquran.cloud API. Keluaran sistem berupa tampilan pada halaman website yang berisikan tabel daftar nama surat dan nomor ayat yang mengandung kata kunci. Pembuatan website menggunakan HTML, CSS, dan fungsi JavaScript untuk menyatukan web API dalam satu website. Fungsi JavaScript yang dibuat untuk melakukan fetch data dan menampilkan tabel keluaran dieksekusi di client, sedangkan fungsi untuk masukan sinyal suara dan transkripsi dieksekusi di server. Hasil percobaan menghasilkan akurasi sebesar 86% pada hasil transkripsi Google Speech-to-Text API yang digunakan pada sistem. Akurasi pada penguji perempuan lebih tinggi 14% dibanding penguji laki-laki dengan akurasi penguji perempuan sebesar 92%. Diamati juga waktu dalam kecepatan proses transkripsi, kecepatan fetch data dari alquran.cloud API, dan kecepatan sistem dalam menampilkan keluaran. ......This study discusses the development of a word search system for website-based translation of the Qur'an using Node.JS, Google Speech-to-Text API, and alquran.cloud API as the main components. The system input is in the form of voice which in the next process is converted into text by the Google Speech-to-Text API and then the text is used as keywords to search for translations using the alquran.cloud API. The system output is in the form of a display on a website page that contains a table listing letter names and verse numbers containing keywords. Website are created using HTML, CSS, and JavaScript functions to unify the web API in one website. JavaScript functions that are created to fetch data and display an output table are executed on the client, while functions for voice signal input and transcription are executed on the server. The experimental results yield an accuracy of 86% on the transcription results of the Google Speech-to-Text API used in the system. The accuracy of the female examiners was 14% higher than the male examiners with the female examiners' accuracy of 92%. Also observed is the speed of the transcription process, the speed of fetching data from the alquran.cloud API, and the speed of the system in displaying the output.
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2   >>