Hasil Pencarian

Ditemukan 37 dokumen yang sesuai dengan query

The effect of sound masking on speech recognition

"In the current study, two experiments are reported that investigated the effects of simple white noise and mixture of white noise and other sounds on perception of speech. In both experiments, university students were recruited to listen to short sentences under various sound masking conditions. Experiment 1, where standard sets of speakers were used for both speech and masking stimuli, has shown that, compared to baseline where there was no masking sound, the participants had significantly greater difficulties in understanding the sentences where the average level of understanding was 28% for the white noise condition and 20% for the mixed noise condition in which white noise was mixed with pink noise and sounds of running water. In Experiment 2, a test model of the specially designed sound masking speaker was used to present the masking noise. Further, sounds of tweeting birds and healing music were added to the mixed noise from Experiment 1 to create the three masking noise conditions. The average level of understanding for the mixed noise condition was 14%, while that for the bird and music conditions were 24% and 30% respectively. The higher understanding rates for the latter conditions were due to lower volume of the mixed white noise in order to keep the overall volume including the birds and music at 55dB. There were also significant effects of sentence type and reading voice gender, suggesting that auditory legibility does not solely depend on the speech-to-noise sound level ratio, but also on other variables, such as, predictability of the sentences, and clarity of the speech. Feedback at the end of the sessions revealed that the participants found mixed noise less irritating than pure white noise, and they preferred mixed noise with bird tweeting or music even better. Thus, it was concluded that mixed noise with occasional sounds of tweeting birds, was the most suitable masking sound for commercial use, being efficient and not unpleasant."

WAGLFOR

Artikel Jurnal Universitas Indonesia Library

Amalia Zahra

Penyusunan kamus fonetik dalam pengembangan sistem pengenalan suara otomatis untuk bahasa Indonesia

"Dengan adanya internet, media televisi, dan radio, data yang tersedia sangat banyak, termasuk data suara. Oleh karena itu, dibutuhkan suatu cara untuk mengorganisasikannya, yakni dengan mengubah data suara menjadi teks terlebih dahulu. Pengolahan selanjutnya cukup dilakukan terhadap teks. Proses konversi data suara menjadi teks inilah yang dikenal dengan sistem pengenalan suara (SPS) otomatis.

Saat ini, SPS untuk berbagai bahasa di dunia telah berkembang pesat, seperti Bahasa Inggris, Perancis, Jepang, Thai, dan lain-lain, sedangkan penelitian SPS untuk Bahasa Indonesia sudah dimulai, namun masih dalam tahap awal. Adanya kebutuhan akan SPS dan perkembangan SPS bahasa lain yang pesat memotivasi penulis untuk melakukan penelitian SPS untuk Bahasa Indonesia.

Fokus penelitian ini adalah pembuatan model akustik yang berkaitan erat dengan kamus fonetik yang digunakan. Oleh karena itu, penulis melakukan eksperimen menggunakan enam jenis kamus fonetik, yaitu IPA, SAMPA, ARPABET, Lestari [LEST06], Sakti [SAKT08], dan kamus yang dikembangkan oleh penulis (kamus Zahra). Eksperimen terbagi menjadi dua proses besar, yaitu pelatihan, dengan menggunakan 1.000 data suara rekaman telepon, dan pengujian terhadap 250 data suara rekaman telepon.

Hasil eksperimen menunjukkan bahwa akurasi SPS tertinggi diperoleh saat menggunakan kamus Zahra, yakni sebesar 73,5%. Dengan menggunakan kamus fonetik yang sama, pengujian terhadap 100 berkas rekaman berita RRI menghasilkan akurasi maksimum sebesar 71,6% dengan OOV (Out of Vocabulary) sebesar 8,92%. Kamus tersebut merupakan kamus fonetik yang paling tepat untuk mendefinisikan bunyi dalam Bahasa Indonesia, dengan total simbol yang digunakan adalah 33 simbol."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Klevans, Richard L.

Voice recognition

London: Artech House, 1997

006.454 KLE v

Buku Teks Universitas Indonesia Library

Lea, Wayne A.

Trends in speech recognition/Wayne A. Lea

Englewood Cliffs, NJ : Prentice-Hall, 1980

621.380 412 LEA t

Buku Teks Universitas Indonesia Library

Wachid Nafian

Simulasi unjuk kerja speech-to-text menggunakan metode Discrete Hiden Markov model pada aplikasi speaker dependent

"Pada Skripsi ini membahas tentang proses konversi ucapan menjadi tulisan, Speech-to-Text yang merupakan salah satu aplikasi dari speech recognition. Tujuan dari skripsi ini yaitu bagaimana sistem dapat mengenali sedikitnya 30 kata baik kata dasar walaupun kata jadi yang diucapkan oleh seseorang tertentu (speaker dependent) dan melihat performansi (unjuk kerja) dari sistem dengan parameter codebook dan jumlah framing yang berbeda-beda.

Simulasi dibuat dengan menggunakan program Matlab 6.5 dan metode yang digunakan yaitu Hidden Markov Model (HMM). Metode HMM ini telah banyak diapliksikan dalam teknologi speech recognition. Cara yang digunakan dalam simulasi ini yaitu mengenali kata melalui pengenalan terhadap unit katanya yaitu suku kata. Suku kata yang dijadikan sebagai sumber database sebanyak 25 buah, dan dengan menggunakan variabel ukuran codebook dan jumlah training yang berbeda-beda untuk dilihat performansi mana yang memberikan hasil pengenalan terbaik.

Dari hasil percobaan dengan simulai ternyata dengan ukuran codebook dan jumlah training yang lebih besar untuk jumlah label 25 memberikan performansi yang lebih baik dan dapat memberikan perbaikan dari kondisi sebelumnya, dalam hal ini memberikan perbaikan dari keberhasilan 8,36 % pada codebook 32 dan training 5 menjadi 81,09 % dengan menggunkan codebook 1024 dan jumlah training 40. Kata-kata yang berhasil dikenali dengan variasi dari 25 suku kata sedikitnya ada 50 kata."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S39311

UI - Skripsi Membership Universitas Indonesia Library

Wikky Fawwaz Al Maki

Simulasi dan analisis perbandingan algoritma-algoritma vector quantization untuk sistem pengenalan sinyal akustik ikan-ikan soniferous berbasis text dependent voice recognition yang menggunakan hidden Markov model

"Skripsi ini berisi tentang perbandingan dari 3 jenis algoritma VQ (Vector Quantization) yaitu Traditional K-Means Clustering, LBG (Linde, Buzo, and Gray), dan Sucessive Binary Split yang digunakan dalam proses pengenalan sinyal akustik (Suara) dari berbagai jenis ikan. Dalam proses pengenalan sinyal akustik ikan yang menggunakan HMM (Hidden Markov Model), sinyal akustik ikan yang akan dideteksi, terlebih dahulu dikuantisasi dengan menggunakan algoritma VQ.

Pada sistem pengenalan sinyal akustik ikan, sinyal akustik ikan diubah terlebih dahulu ke dalam bentuk diskrit dengan cara sampling. Sinyal diskrit ini diekstraksi agar diperoleh karakteristiknya dengan menggunakan MFCC (Mel Frequency Cepstrum Coefficient). Vektor data yang terbentuk kemudian dikuantisasi dengan menggunakan 3 jenis algoritma VQ. Pada tahap pengenalan sinyal akustik ikan (recognition) yang memanfaatkan model HMM, ketiga jenis algoritma VQ ini diteliti unjuk kerjanya berdasarkan tingkat akurasi yang diperoleh.

Berdasarkan hasil simulasi, algoritma Sucessive Binary Split merupakan algoritma paling optimum untuk sistem pengenalan sinyal akustik ikan karena memiliki tingkat akurasi tertinggi (pada ukuran codebook < 64) dengan kebutuhan kapasitas memori dan waktu komputasi (saat pembuatan codebook dan model HMM) paling kecil. Untuk memperoleh sistem pengenalan sinyal akuslik ikan dengan tingkat akurasi yang paling baik, algoritma LBG dapat digunakan dengan ukuran codebook > 128 tetapi kapasitas memori dan waktu komputasi yang dibutuhkan makin besar. Tingkat akurasi (recognition rate) pada sistem pengenalan sinyal akustik ikan yang menggunakan VQ dan HMM dapat ditingkatkan dengan memperbesar ukuran codebook, jumlah iterasi algoritma VQ, dan jumlah iterasi pada Baum Welch Algorithm."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S40061

UI - Skripsi Membership Universitas Indonesia Library

Destry Arta Rini

Analisa kinerja text-independent speaker recognition dengan metode kuantisasi vektor algoritma LBG

"Sejak dari awal kehidupan, manusia telah mengguznakan suara yang mereka. Suara manusia adalah unik, karena tidak ada manusia di dunia ini yang memiliki suara yang sama. Hal inilah yang kemudian dijadikan bahan oleh para llmuwan untuk mengembangkan teknologi yang memanfaatkan suara manusia. Speaker recognition merupakan bentuk penerapan dari pemallfaatan suara manusia. Text-independent speaker recognition merupakan salah satu pengembangan aplikasi dari speaker recognition.

Telah banyak metode yang dikembangkan untuk peningkatan kinerja text-independent speaker recognition, salah satu diantaranya adalah dengan menggunakan metode kuantisasi vektor-algoritma LBG. Metode ini akan melalui dua fasa, yaitu training phase dan testing phase. Pada fasa pertama (training phase), akan direkarn suara speaker ke dalam database speaker. Pada fasa kedua (testing phase), akan dibandingkan suara speaker tes dengan database speaker, apakah sistem mampu untuk mengenali identitas speaker tes tersebut.

Hasil pengujian simulasi text-independent speaker recognition secara keseluruhan menunjukkan bahwa text-independent speaker recognition telah mampu mengenali identitas speaker dengan baik, mamma masih banyak terdapat kekurangan. Pengujian text-independent speaker recognition menggunakan 2 jenis database speaker. Database peliama adalah database yang berisi rekaman satu kata dan satu kalimat yang berbeda-beda untuk setiap speakemya. Database kedua berisi rekaman satu kata dan satu kalimat yang sama bagi semua speakernya. Dari kedua database ini kemudian akan dibandingkan kinerjanya terhadap simulasi. Hasil simulasi membuktikan bahwa text-independent speaker recognition terhadap database pertama mampu bekerja lebih baik dengan tingkat keakurasian sebesar 85 %, dibandingkan database kedua."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S40060

UI - Skripsi Membership Universitas Indonesia Library

Mukson Rosadi

Simulasi unjuk kerja code excited linear prediction sebagai metode low bit rate speech coding

"Kompresi suara atau yang biasa disebut dengan pengkodean suara (speech coding) merupakan metode untuk mengurangi jumlah informasi yang dibutuhkan untuk mewakilkan sinyal suara. Teknologi speech coding untuk kompresi sinyal speech dilakukan untuk memperbaiki (menghemat) kinerja bandwidth yang terbatas dan untuk mendukung privasi komunikasi (enkripsi data/pesan). Code Excited Linear Prediction (CELP) yang merupakan pengembangan dari Linear Predictive Coding (LPC) menggunakan metode linear prediction dalam pengkompresan sinyal speech.

Linear prediction adalah suatu metode yang memprediksi sampel ke-n dari suatu sinyal, s(n), dengan membentuk kombinasi linear dari p sampel s(n) sebelumnya. Kombinasi linier umumnya dioptimalkan dengan meminimalkan kuadrat dari prediction error (Mean Square Error, MSE). Suatu encoder CELP (Code Excited Linear Prediction) mempunyai model vocal tract yang sama dengan encoder LPC. Sebagai tambahannya, pada CELP menghitung error yang terjadi antara input data speech dengan model yang dibangkitkan dan mentransmisikan parameter-parameter dari model tersebut dan representasi error-nya.

Dari hasil simulasi yang dilakukan diperoleh bahwa model yang memiliki nilai MSE terkecil terhadap sinyal asli adalah yang memiliki jumlah koefisien linear prediction sebanyak 15 buah. Dengan demikian, model yang akan dikirimkan adalah yang memiliki koefisien linear prdiction sebanyak 15 buah."

Depok: Fakultas Teknik Universitas Indonesia, 2005

S40099

UI - Skripsi Membership Universitas Indonesia Library

Arief Saferman

Rancang Bangun Sistem Automatic Speech Recognition untuk Bahasa Indonesia Berbasis Wav2Letter dengan Loss Function CTC dan ASG = Development of Automatic Speech Recognition System for Indonesian Language Based on Wav2Letter with Loss Function CTC and ASG

Selama masa pandemi COVID-19, teknologi Automatic Speech Recognition (ASR) menjadi salah satu fitur yang sering digunakan pada komputer untuk mencatat di kelas online secara realtime. Teknologi ini akan bekerja dimana setiap suara yang muncul akan langsung dikenali dan dicatat pada halaman terminal. Dalam penelitian ini, model ASR Wav2Letter akan digunakan menggunakan CNN (Convolution Neural Network) dengan loss function CTC (Connectionist Temporal Classification) dan ASG (Auto Segmentation Criterion). Selama proses pembuatannya, berbagai hyperparameter acoustic model dan language model dari model ASR Wav2Letter terkait dengan implementasi batch normalization¸ learning-rate, window type, window size, n-gram language model, dan konten language model diuji pengaruh variasinya terhadap performa model Wav2Letter. Dari pengujian tersebut, ditemukan bahwa model ASR Wav2Letter menunjukkan performa paling baik ketika acoustic model menggunakan metode ASG dengan learning-rate 9 × 10−5 , window size 0.1, window type Blackman, serta 6-gram language model. Berdasarkan hasil akurasi WER CTC unggul 1,2% dengan 40,36% berbanding 42,11% dibandingkan ASG, namun jika dilihat lamanya epoch dan ukuran file model, loss function ASG memiliki keunggulan hampir dua kalinya CTC, dimana ASG hanya membutuhkan setengah dari jumlah epoch yang dibutuhkan oleh CTC yakni 24 epoch berbanding dengan 12 epoch dan ukuran file model ASG setengah lebih kecil dibandingkan CTC yakni 855,2 MB berbanding dengan 427,8 MB. Pada pengujian terakhir, model ASR Wav2Letter dengan loss function ASG mendapatkan hasil terbaik dengan nilai WER 29,30%. Berdasarkan hasil tersebut, model ASR Wav2Letter dengan loss function ASG menunjukkan perfoma yang lebih baik dibandingkan dengan CTC.

During the COVID-19 pandemic, Automatic Speech Recognition technology (ASR) became one of features that most widely used in computer to note down online class in real-time. This technology works by writing down every word in terminal from voice that is recognized by the system. ASR Wav2Letter model will use CNN (Convolutional Neural Network) with loss function CTC (Connectionist Temporal Classification) and ASG (Auto Segmentation Criterion). While developing Wav2Letter, various hyperparameter from acoustic model and language model is implemented such as batch normalization, learning rate, window type, window size, n-gram language model, and the content of language model are examined against the performance of Wav2Letter model. Based on those examination, Wav2Letter shows best performance when it uses ASG loss function learning rate 9 × 10−5 , window size 0.1, window type Blackman, and 6-gram language model. With that configuration, WER of CTC outplay ASG around 1.2% with 40.36% compare to 42,11%, but another parameter shows ASG are way more superior than CTC with less time epoch training which are 24 epoch for CTC against 12 epoch for ASG and the size of memory model shows CTC has bigger size than ASG with 855.2 MB against 427.8 MB. In the last test, ASR Wav2Letter model with ASG loss function get the best WER value around 29.3%. Based on those results, ASR Wav2Letter Model shows its best performance with ASG loss function than CTC.

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Li, Qia

Speaker authentication

"This book examines use of the voice as a biometric measure for personal authentication, offering an overview of advances in speaker authentication, and including useful algorithms and techniques for improving overall system robustness and performance."

Berlin: [Springer-Verlag, ], 2012

e20397868

eBooks Universitas Indonesia Library

<< 1 2 3 4 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian