Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 36 dokumen yang sesuai dengan query
cover
Abstrak :
In the current study, two experiments are reported that investigated the effects of simple white noise and mixture of white noise and other sounds on perception of speech. In both experiments, university students were recruited to listen to short sentences under various sound masking conditions. Experiment 1, where standard sets of speakers were used for both speech and masking stimuli, has shown that, compared to baseline where there was no masking sound, the participants had significantly greater difficulties in understanding the sentences where the average level of understanding was 28% for the white noise condition and 20% for the mixed noise condition in which white noise was mixed with pink noise and sounds of running water. In Experiment 2, a test model of the specially designed sound masking speaker was used to present the masking noise. Further, sounds of tweeting birds and healing music were added to the mixed noise from Experiment 1 to create the three masking noise conditions. The average level of understanding for the mixed noise condition was 14%, while that for the bird and music conditions were 24% and 30% respectively. The higher understanding rates for the latter conditions were due to lower volume of the mixed white noise in order to keep the overall volume including the birds and music at 55dB. There were also significant effects of sentence type and reading voice gender, suggesting that auditory legibility does not solely depend on the speech-to-noise sound level ratio, but also on other variables, such as, predictability of the sentences, and clarity of the speech. Feedback at the end of the sessions revealed that the participants found mixed noise less irritating than pure white noise, and they preferred mixed noise with bird tweeting or music even better. Thus, it was concluded that mixed noise with occasional sounds of tweeting birds, was the most suitable masking sound for commercial use, being efficient and not unpleasant.
WAGLFOR
Artikel Jurnal  Universitas Indonesia Library
cover
Asril Jarin
Abstrak :
ABSTRAK
Implementasi sistem pengenalan wicara berbasis jaringan, seperti: Internet, akan mengalami degradasi yang disebabkan oleh kehilangan dan keterlambatan data. Sebagian aplikasi pengenalan wicara lebih memilih keterlambatan data demi ketersediaan seluruh data wicara secara kalimat-per-kalimat. Ketersediaan seluruh data akan membantu sistem pengenalan wicara menjaga kinerja akurasi yang semestinya. Akan tetapi, pengguna biasanya lebih menghendaki batas keterlambatan yang wajar sebagai syarat dari kinerja memuaskan aplikasi.Dalam disertasi ini, sebuah model analitik dikembangkan untuk menginvestigasi batas waktu-tunda wajar sebuah skema aplikasi pengenal wicara berbasis TCP yang menempatkan sebuah pemenggal data wicara di klien. Batas waktu-tunda wajar didefinisikan sebagai keterlambatan maksimal yang diperkenankan dalam pengiriman seluruh data setiap kalimat wicara via TCP. Pengembangan model dilakukan melalui analisis transien berdasarkan kajian model discrete-time Markov dari multi-media streaming via TCP. Selanjutnya, sebuah metode perhitungan dari model distribusi keterlambatan paket aliran TCP pada kondisi steady-state diuji dengan membandingkan hasil-hasil perhitungannya dengan hasil investigasi dari model berbasis analisis transien. Hasil perbandingan menunjukan bahwa analisis transien adalah metode investigasi yang lebih tepat.Pada target penelitian berikutnya, sebuah kerangka kerja menggunakan protokol HTTP/2 plus Server Sent Event SSE diajukan sebagai solusi ketepatan waktu aplikasi pengenal wicara berbasis TCP. Kerangka kerja ini dibangun berdasarkan pada kerangka kerja pengenal wicara full-duplex yang dikembangkan dengan menggunakan teknologi WebSocket. Berdasarkan pada hasil percobaan, aplikasi menggunakan HTTP/2 plus SSE memiliki angka perbandingan kinerja latensi sebesar 3,6 lebih baik daripada aplikasi menggunakan WebSocket. Walaupun angka ini masih lebih kecil daripada angka kualitatif perbandingan ketepatan waktu yang lebih baik, yakni sebesar 5 , ada beberapa alasan dikemukakan yang berasal dari keunggulan-keunggulan fitur-fitur HTTP/2 dalam mengurangi latensi aplikasi dan juga dari kelemahan WebSocket bila ditempatkan dalam jaringan dengan proxy server, untuk menyimpulkan bahwa kerangka kerja aplikasi menggunakan HTTP/2 plus SSE dapat menjadi alternatif lebih baik daripada kerangka kerja aplikasi dengan WebSocket.
ABSTRACT
Implementation of network based speech recognition, such as Internet, will suffer degradation due to packet loss and delays. Most of network speech recognition applications prefer to tolerate delay in order to receive all speech data completely that is delivered sentence by sentence. The availability of all speech data helps the application to save the expected acuraccy of recognition in case of no packet loss. However, users practically require an acceptable delay to have satisfactory performance of the application.In this research, an analytical model is developed to investigate the acceptable delay of TCP based speech recognition that employs a speech segmenter at the client. The acceptable delay is defined as a maximum allowable delay in sending all data for each speech sentence via TCP. For the purpose of model development, there are two analytical methods, i.e., transient analysis and steady state analysis. In the transient analysis, the investigation model is developed based on the discrete time Markov model of multimedia streaming via TCP, whereas in the steady state analysis, the investigation uses a calculation method of packet delay distribution model. Furthermore, the results of transient analysis experiment are compared with the calculation of packet delay distribution model at the steady state. The comparison shows that the transient analysis is more appropriate method of investigation.Next work, a framework using HTTP 2 protocol plus Server Sent Event SSE is proposed as a real time solution for TCP based speech recognition applications. This framework is developed on the basis of a full duplex speech recognition framework using WebSocket. Based on the experimentation results, the application of HTTP 2 plus SSE has a comparison factor of latency performance in amount of 3.6 better than the application of WebSocket. Although this factor is still smaller than a qualitative factor 5 that can state a better latency performance, there are some reason from the advantages of HTTP 2 features in reducing latency as well as from the limitation of WebSocket in a network with proxy server, to conclude that the framework of HTTP 2 plus SSE is a better alternative than the framework using WebSocket.
2017
D2306
UI - Disertasi Membership  Universitas Indonesia Library
cover
Wachid Nafian
Abstrak :
Pada Skripsi ini membahas tentang proses konversi ucapan menjadi tulisan, Speech-to-Text yang merupakan salah satu aplikasi dari speech recognition. Tujuan dari skripsi ini yaitu bagaimana sistem dapat mengenali sedikitnya 30 kata baik kata dasar walaupun kata jadi yang diucapkan oleh seseorang tertentu (speaker dependent) dan melihat performansi (unjuk kerja) dari sistem dengan parameter codebook dan jumlah framing yang berbeda-beda. Simulasi dibuat dengan menggunakan program Matlab 6.5 dan metode yang digunakan yaitu Hidden Markov Model (HMM). Metode HMM ini telah banyak diapliksikan dalam teknologi speech recognition. Cara yang digunakan dalam simulasi ini yaitu mengenali kata melalui pengenalan terhadap unit katanya yaitu suku kata. Suku kata yang dijadikan sebagai sumber database sebanyak 25 buah, dan dengan menggunakan variabel ukuran codebook dan jumlah training yang berbeda-beda untuk dilihat performansi mana yang memberikan hasil pengenalan terbaik. Dari hasil percobaan dengan simulai ternyata dengan ukuran codebook dan jumlah training yang lebih besar untuk jumlah label 25 memberikan performansi yang lebih baik dan dapat memberikan perbaikan dari kondisi sebelumnya, dalam hal ini memberikan perbaikan dari keberhasilan 8,36 % pada codebook 32 dan training 5 menjadi 81,09 % dengan menggunkan codebook 1024 dan jumlah training 40. Kata-kata yang berhasil dikenali dengan variasi dari 25 suku kata sedikitnya ada 50 kata.
Depok: Fakultas Teknik Universitas Indonesia, 2004
S39311
UI - Skripsi Membership  Universitas Indonesia Library
cover
Wikky Fawwaz Al Maki
Abstrak :
Skripsi ini berisi tentang perbandingan dari 3 jenis algoritma VQ (Vector Quantization) yaitu Traditional K-Means Clustering, LBG (Linde, Buzo, and Gray), dan Sucessive Binary Split yang digunakan dalam proses pengenalan sinyal akustik (Suara) dari berbagai jenis ikan. Dalam proses pengenalan sinyal akustik ikan yang menggunakan HMM (Hidden Markov Model), sinyal akustik ikan yang akan dideteksi, terlebih dahulu dikuantisasi dengan menggunakan algoritma VQ.

Pada sistem pengenalan sinyal akustik ikan, sinyal akustik ikan diubah terlebih dahulu ke dalam bentuk diskrit dengan cara sampling. Sinyal diskrit ini diekstraksi agar diperoleh karakteristiknya dengan menggunakan MFCC (Mel Frequency Cepstrum Coefficient). Vektor data yang terbentuk kemudian dikuantisasi dengan menggunakan 3 jenis algoritma VQ. Pada tahap pengenalan sinyal akustik ikan (recognition) yang memanfaatkan model HMM, ketiga jenis algoritma VQ ini diteliti unjuk kerjanya berdasarkan tingkat akurasi yang diperoleh.

Berdasarkan hasil simulasi, algoritma Sucessive Binary Split merupakan algoritma paling optimum untuk sistem pengenalan sinyal akustik ikan karena memiliki tingkat akurasi tertinggi (pada ukuran codebook < 64) dengan kebutuhan kapasitas memori dan waktu komputasi (saat pembuatan codebook dan model HMM) paling kecil. Untuk memperoleh sistem pengenalan sinyal akuslik ikan dengan tingkat akurasi yang paling baik, algoritma LBG dapat digunakan dengan ukuran codebook > 128 tetapi kapasitas memori dan waktu komputasi yang dibutuhkan makin besar. Tingkat akurasi (recognition rate) pada sistem pengenalan sinyal akustik ikan yang menggunakan VQ dan HMM dapat ditingkatkan dengan memperbesar ukuran codebook, jumlah iterasi algoritma VQ, dan jumlah iterasi pada Baum Welch Algorithm.
Depok: Fakultas Teknik Universitas Indonesia, 2004
S40061
UI - Skripsi Membership  Universitas Indonesia Library
cover
Destry Arta Rini
Abstrak :
Sejak dari awal kehidupan, manusia telah mengguznakan suara yang mereka. Suara manusia adalah unik, karena tidak ada manusia di dunia ini yang memiliki suara yang sama. Hal inilah yang kemudian dijadikan bahan oleh para llmuwan untuk mengembangkan teknologi yang memanfaatkan suara manusia. Speaker recognition merupakan bentuk penerapan dari pemallfaatan suara manusia. Text-independent speaker recognition merupakan salah satu pengembangan aplikasi dari speaker recognition. Telah banyak metode yang dikembangkan untuk peningkatan kinerja text-independent speaker recognition, salah satu diantaranya adalah dengan menggunakan metode kuantisasi vektor-algoritma LBG. Metode ini akan melalui dua fasa, yaitu training phase dan testing phase. Pada fasa pertama (training phase), akan direkarn suara speaker ke dalam database speaker. Pada fasa kedua (testing phase), akan dibandingkan suara speaker tes dengan database speaker, apakah sistem mampu untuk mengenali identitas speaker tes tersebut. Hasil pengujian simulasi text-independent speaker recognition secara keseluruhan menunjukkan bahwa text-independent speaker recognition telah mampu mengenali identitas speaker dengan baik, mamma masih banyak terdapat kekurangan. Pengujian text-independent speaker recognition menggunakan 2 jenis database speaker. Database peliama adalah database yang berisi rekaman satu kata dan satu kalimat yang berbeda-beda untuk setiap speakemya. Database kedua berisi rekaman satu kata dan satu kalimat yang sama bagi semua speakernya. Dari kedua database ini kemudian akan dibandingkan kinerjanya terhadap simulasi. Hasil simulasi membuktikan bahwa text-independent speaker recognition terhadap database pertama mampu bekerja lebih baik dengan tingkat keakurasian sebesar 85 %, dibandingkan database kedua.
Depok: Fakultas Teknik Universitas Indonesia, 2004
S40060
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mukson Rosadi
Abstrak :
Kompresi suara atau yang biasa disebut dengan pengkodean suara (speech coding) merupakan metode untuk mengurangi jumlah informasi yang dibutuhkan untuk mewakilkan sinyal suara. Teknologi speech coding untuk kompresi sinyal speech dilakukan untuk memperbaiki (menghemat) kinerja bandwidth yang terbatas dan untuk mendukung privasi komunikasi (enkripsi data/pesan). Code Excited Linear Prediction (CELP) yang merupakan pengembangan dari Linear Predictive Coding (LPC) menggunakan metode linear prediction dalam pengkompresan sinyal speech. Linear prediction adalah suatu metode yang memprediksi sampel ke-n dari suatu sinyal, s(n), dengan membentuk kombinasi linear dari p sampel s(n) sebelumnya. Kombinasi linier umumnya dioptimalkan dengan meminimalkan kuadrat dari prediction error (Mean Square Error, MSE). Suatu encoder CELP (Code Excited Linear Prediction) mempunyai model vocal tract yang sama dengan encoder LPC. Sebagai tambahannya, pada CELP menghitung error yang terjadi antara input data speech dengan model yang dibangkitkan dan mentransmisikan parameter-parameter dari model tersebut dan representasi error-nya. Dari hasil simulasi yang dilakukan diperoleh bahwa model yang memiliki nilai MSE terkecil terhadap sinyal asli adalah yang memiliki jumlah koefisien linear prediction sebanyak 15 buah. Dengan demikian, model yang akan dikirimkan adalah yang memiliki koefisien linear prdiction sebanyak 15 buah.
Depok: Fakultas Teknik Universitas Indonesia, 2005
S40099
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arief Saferman
Abstrak :

Selama masa pandemi COVID-19, teknologi Automatic Speech Recognition (ASR) menjadi salah satu fitur yang sering digunakan pada komputer untuk mencatat di kelas online secara realtime. Teknologi ini akan bekerja dimana setiap suara yang muncul akan langsung dikenali dan dicatat pada halaman terminal. Dalam penelitian ini, model ASR Wav2Letter akan digunakan menggunakan CNN (Convolution Neural Network) dengan loss function CTC (Connectionist Temporal Classification) dan ASG (Auto Segmentation Criterion). Selama proses pembuatannya, berbagai hyperparameter acoustic model dan language model dari model ASR Wav2Letter terkait dengan implementasi batch normalization¸ learning-rate, window type, window size, n-gram language model, dan konten language model diuji pengaruh variasinya terhadap performa model Wav2Letter. Dari pengujian tersebut, ditemukan bahwa model ASR Wav2Letter menunjukkan performa paling baik ketika acoustic model menggunakan metode ASG dengan learning-rate 9 × 10−5 , window size 0.1, window type Blackman, serta 6-gram language model. Berdasarkan hasil akurasi WER CTC unggul 1,2% dengan 40,36% berbanding 42,11% dibandingkan ASG, namun jika dilihat lamanya epoch dan ukuran file model, loss function ASG memiliki keunggulan hampir dua kalinya CTC, dimana ASG hanya membutuhkan setengah dari jumlah epoch yang dibutuhkan oleh CTC yakni 24 epoch berbanding dengan 12 epoch dan ukuran file model ASG setengah lebih kecil dibandingkan CTC yakni 855,2 MB berbanding dengan 427,8 MB. Pada pengujian terakhir, model ASR Wav2Letter dengan loss function ASG mendapatkan hasil terbaik dengan nilai WER 29,30%. Berdasarkan hasil tersebut, model ASR Wav2Letter dengan loss function ASG menunjukkan perfoma yang lebih baik dibandingkan dengan CTC.


During the COVID-19 pandemic, Automatic Speech Recognition technology (ASR) became one of features that most widely used in computer to note down online class in real-time. This technology works by writing down every word in terminal from voice that is recognized by the system. ASR Wav2Letter model will use CNN (Convolutional Neural Network) with loss function CTC (Connectionist Temporal Classification) and ASG (Auto Segmentation Criterion). While developing Wav2Letter, various hyperparameter from acoustic model and language model is implemented such as batch normalization, learning rate, window type, window size, n-gram language model, and the content of language model are examined against the performance of Wav2Letter model. Based on those examination, Wav2Letter shows best performance when it uses ASG loss function learning rate 9 × 10−5 , window size 0.1, window type Blackman, and 6-gram language model. With that configuration, WER of CTC outplay ASG around 1.2% with 40.36% compare to 42,11%, but another parameter shows ASG are way more superior than CTC with less time epoch training which are 24 epoch for CTC against 12 epoch for ASG and the size of memory model shows CTC has bigger size than ASG with 855.2 MB against 427.8 MB. In the last test, ASR Wav2Letter model with ASG loss function get the best WER value around 29.3%. Based on those results, ASR Wav2Letter Model shows its best performance with ASG loss function than CTC.

Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Qisas Tazkia Hasanudin
Abstrak :

Salah satu teknologi berbasis kecerdasan buatan yang kini semakin dibutuhkan adalah ASR (Automatic Speech Recognition), atau lebih sering disebut sebagai speech-to-text. Teknologi ini memiliki potensi untuk diterapkan di berbagai bidang, salah satunya adalah mentranskripsi naskah rapat atau persidangan. Tujuan dari penelitian ini adalah untuk mengembangkan sistem transkripsi otomatis Bahasa Indonesia yang dapat berjalan secara luring dan dapat memproses masukan dari beberapa mikrofon secara bersamaan. Penelitian ini berhasil mengembangkan sistem transkripsi otomatis dengan mengkombinasikan teknologi ASR, pemrograman Python, aplikasi word editor seperti Microsoft Word, dan komputer yang terhubung dengan banyak mikrofon. Teknologi ASR pada sistem ini terdiri dari acoustic model yang dibuat menggunakan DeepSpeech dengan metode fine-tuning dan language model yang dibuat menggunakan KenLM. Sistem transkripsi otomatis dapat dijalankan pada komputer 64-bit dengan sistem operasi Windows yang di dalamnya terdapat Microsoft Word tanpa memerlukan spesifikasi hardware minimum tertentu. Hasil pengujian terhadap performa sistem menunjukkan bahwa sistem hanya bersifat CPU-intensive, dan ini hanya terjadi apabila seluruh pembicara berbicara pada mikrofon secara sekaligus, yang mengakibatkan tingginya jumlah thread yang aktif. Hasil pengujian terhadap acoustic model menunjukkan bahwa model tersebut dapat menghasilkan WER terbaik sebesar 73,33% dan CER terbaik sebesar 23,59% apabila dilatih menggunakan learning rate sebesar 0,01 dan dropout rate sebesar 0,3. Hasil pengujian terhadap language model menunjukkan bahwa model yang dibuat dengan dataset teks bertopik umum dan berukuran besar dapat membantu acoustic model menghasilkan WER dan CER yang lebih baik lagi, yaitu 28,76% dan 14,68%. ......One of the artificial intelligence-based technologies that is increasingly needed is ASR (Automatic Speech Recognition), or more commonly referred to as speech-to-text. This technology has the potential to be applied in various fields, one of which is generating transcripts for meetings or trials. The purpose of this research is to develop an Indonesian automatic transcription system that can run offline and can process input from multiple microphones simultaneously. This study succeeded in developing an automatic transcription system by combining ASR technology, Python programming, word editor applications such as Microsoft Word, and computers connected to multiple microphones. The ASR technology in this system consists of an acoustic model created using DeepSpeech with a fine-tuning method and a language model created using KenLM. The automatic transcription system can be run on 64-bit computers with Windows operating system that has Microsoft Word installed on it. It does not require certain minimum hardware specifications. Test results on system performance show that the system is only CPU-intensive, and this only occurs when all participants are speaking into all microphones at once, resulting in a high number of active threads. The test results on the acoustic model show that the model can produce the best WER of 73.33% and the best CER of 23.59% when trained using a learning rate of 0.01 and a dropout rate of 0.3. The test results on the language model show that the model made with a text dataset that has a large size and no particular topic can help the acoustic model produce better WER and CER, which are 28.76% and 14.68%, respectively.

Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
New York: IEEE Press, c1979
621.381 9 AUT
Buku Teks  Universitas Indonesia Library
cover
Klevans, Richard L.
London: Artech House, 1997
006.454 KLE v
Buku Teks  Universitas Indonesia Library
<<   1 2 3 4   >>