Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 88205 dokumen yang sesuai dengan query
cover
Mohammad Salman Alfarisi
"

Salah satu permasalahan yang terdapat pada sistem Automatic Speech Recognition (ASR) yang sudah ada adalah kurangnya transparansi dalam penanganan data suara, yang tentunya membuat adanya keraguan terhadap privasi data tersebut. Di sisi lainnya, untuk mengembangkan sebuah sistem ASR yang memiliki akurasi memadai dan dapat bekerja secara luring membutuhkan jumlah data yang banyak, khususnya data suara yang sudah diiringi dengan transkripnya. Hal ini menjadi salah satu hambatan utama pengembangan sistem pengenalan suara, terutama pada yang memiliki sumber daya minim seperti Bahasa Indonesia. Oleh karena itu, dalam penelitian ini dilakukan perancangan sistem pengenalan suara otomatis berbasis model wav2vec 2.0, sebuah model kecerdasan buatan yang dapat mengenal sinyal suara dan mengubahnya menjadi teks dengan akurasi yang baik, meskipun hanya dilatih data dengan label yang berjumlah sedikit. Dari pengujian yang dilakukan dengan dataset Common Voice 8.0, model wav2vec 2.0 menghasilkan WER sebesar 25,96%, dua kali lebih baik dibandingkan dengan model Bidirectional LSTM biasa yang menghasilkan 50% namun membutuhkan jumlah data dengan label 5 kali lipat lebih banyak dalam proses pelatihan. Namun, model wav2vec membutuhkan sumber daya komputasi menggunakan 2 kali lebih banyak RAM dan 10 kali lebih banyak memori dibandingkan model LSTM


One of the main problems that have plagued ready-to-use Automatic Speech Recognition (ASR) Systems is that there is less transparency in handling the user’s voice data, that has raised concerns regarding the privacy of said data. On the other hand, developing an ASR system from scratch with good accuracy and can work offline requires a large amount of data, more specifically labeled voice data that has been transcribed. This becomes one of the main obstacles in speech recognition system development, especially in low-resourced languages where there is minimal data, such as Bahasa Indonesia. Based on that fact, this research conducts development of an automatic speech recognition system that is based on wav2vec 2.0, an Artificial Model that is known to recognize speech signals and convert it to text with great accuracy, even though it has only been trained with small amounts of labeled data. From the testing that was done using the Common Voice 8.0 dataset, the wav2vec 2.0 model produced a WER of 25,96%, which is twice as low as a traditional Bidirectional LSTM model that gave 50% WER, but required 5 times more labeled data in the training process. However, the wav2vec model requires more computational resource, which are 2 times more RAM and 10 times more storage than the LSTM model.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arief Saferman
"

Selama masa pandemi COVID-19, teknologi Automatic Speech Recognition (ASR) menjadi salah satu fitur yang sering digunakan pada komputer untuk mencatat di kelas online secara realtime. Teknologi ini akan bekerja dimana setiap suara yang muncul akan langsung dikenali dan dicatat pada halaman terminal. Dalam penelitian ini, model ASR Wav2Letter akan digunakan menggunakan CNN (Convolution Neural Network) dengan loss function CTC (Connectionist Temporal Classification) dan ASG (Auto Segmentation Criterion). Selama proses pembuatannya, berbagai hyperparameter acoustic model dan language model dari model ASR Wav2Letter terkait dengan implementasi batch normalization¸ learning-rate, window type, window size, n-gram language model, dan konten language model diuji pengaruh variasinya terhadap performa model Wav2Letter. Dari pengujian tersebut, ditemukan bahwa model ASR Wav2Letter menunjukkan performa paling baik ketika acoustic model menggunakan metode ASG dengan learning-rate 9 × 10−5 , window size 0.1, window type Blackman, serta 6-gram language model. Berdasarkan hasil akurasi WER CTC unggul 1,2% dengan 40,36% berbanding 42,11% dibandingkan ASG, namun jika dilihat lamanya epoch dan ukuran file model, loss function ASG memiliki keunggulan hampir dua kalinya CTC, dimana ASG hanya membutuhkan setengah dari jumlah epoch yang dibutuhkan oleh CTC yakni 24 epoch berbanding dengan 12 epoch dan ukuran file model ASG setengah lebih kecil dibandingkan CTC yakni 855,2 MB berbanding dengan 427,8 MB. Pada pengujian terakhir, model ASR Wav2Letter dengan loss function ASG mendapatkan hasil terbaik dengan nilai WER 29,30%. Berdasarkan hasil tersebut, model ASR Wav2Letter dengan loss function ASG menunjukkan perfoma yang lebih baik dibandingkan dengan CTC.


During the COVID-19 pandemic, Automatic Speech Recognition technology (ASR) became one of features that most widely used in computer to note down online class in real-time. This technology works by writing down every word in terminal from voice that is recognized by the system. ASR Wav2Letter model will use CNN (Convolutional Neural Network) with loss function CTC (Connectionist Temporal Classification) and ASG (Auto Segmentation Criterion). While developing Wav2Letter, various hyperparameter from acoustic model and language model is implemented such as batch normalization, learning rate, window type, window size, n-gram language model, and the content of language model are examined against the performance of Wav2Letter model. Based on those examination, Wav2Letter shows best performance when it uses ASG loss function learning rate 9 × 10−5 , window size 0.1, window type Blackman, and 6-gram language model. With that configuration, WER of CTC outplay ASG around 1.2% with 40.36% compare to 42,11%, but another parameter shows ASG are way more superior than CTC with less time epoch training which are 24 epoch for CTC against 12 epoch for ASG and the size of memory model shows CTC has bigger size than ASG with 855.2 MB against 427.8 MB. In the last test, ASR Wav2Letter model with ASG loss function get the best WER value around 29.3%. Based on those results, ASR Wav2Letter Model shows its best performance with ASG loss function than CTC.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
New York: IEEE Press, c1979
621.381 9 AUT
Buku Teks  Universitas Indonesia Library
cover
Mary, Leena
"This updated book expands upon prosody for recognition applications of speech processing. It includes importance of prosody for speech processing applications; builds on why prosody needs to be incorporated in speech processing applications; and presents methods for extraction and representation of prosody for applications such as speaker recognition, language recognition and speech recognition. The updated book also includes information on the significance of prosody for emotion recognition and various prosody-based approaches for automatic emotion recognition from speech."
Switzerland: Springer Cham, 2019
e20502221
eBooks  Universitas Indonesia Library
cover
Bryan Dario Lesmana
"Bahasa Isyarat adalah bahasa yang digunakan kebanyakan oleh kaum tuna rungu dan tuna wicara yang tidak bisa berkomunikasi secara audio, hal ini menimbulkan kesenjangan dalam berkomunikasi terlebih dalam kemampuan tuna rungu dan tuna wicara dalam melaksanakan kehidupannya sehari – hari khususnya saat ingin melamar kerja. Penelitian ini dilakukan untuk mempermudah komunikasi antara pengguna bahasa isyarat dengan mereka yang tidak memahami bahasa isyarat, dimana dengan adanya sistem ini maka translasi bahasa isyarat ke Bahasa Indonesia akan dilakukan secara automatis dan ini akan membantu bagaimana kaum tuna wicara dan tuna rungu berkomunikasi dengan mereka yang tidak memahami bahasa isyarat sehingga ini akan berdampak dimana para pengguna bahasa isyarat bisa memiliki kesempatan yang sama dengan semua orang dalam proses pelamaran kerja dan mendapatkan pekerjaan yang layak. Sistem pengenalan bahasa isyarat ini bekerja dengan menerima bahasa isyarat yang disampaikan oleh seseorang secara real-time dan kemudian mengenalinya sebagai arti kata dari bahasa isyarat tersebut ke Bahasa Indonesia. Pada penelitian ini OpenCV digunakan sebagai metode pengambilan gambar dalam waktu nyata, serta algoritma YOLOv5 yang dibandingkan dengan SSD yang digunakan untuk memroses gambar tersebut serta menandakan yang mana objek yang dianggap sebagai bahasa isyarat dan mendeteksi artinya. Proses training dilakukan dengan dataset yang terdiri dari 463 citra training yang kemudian diaugmentasi sehingga berjumlah 1389 citra training. Model yang dihasilkan dari setiap algoritma yang digunakan dalam penelitian diuji menggunakan dataset testing lalu akan diuji dalam tahap real-time testing dan parameter yang digunakan untuk evaluasi kedua hasil model adalah akurasi atau (confidence score) sistem, precision, recall, dan F1 Score untuk masing – masing model dimana nilai perbandingan untuk nilai confidence score model YOLOv5 dan SSD adalah 100% : 87.66%. Sedangkan perbandingan nilai F1 Score untuk model YOLOv5 dan SSD adalah 1 : 0.9342. Penelitian ini juga menunjukkan bahwa Learning Rate dari Model SSD lebih tinggi dibanding Model YOLOv5 yaitu 0.08 : 0.009. Pada penelitian ini ditunjukkan bahwa algoritma YOLOv5 akan memiliki hasil presisi yang lebih baik dibandingkan algoritma SSD.

Sign Language is the method used mostly by deaf and mute people which are unable to communicate by audio . This difference in the way of communicating between each other creates a gap in communicating between the deaf and mute with normal people. This research is done with the intent to further make the communication between sign language user those that do not understand sign language by automatically translating the meaning of each sign language to Bahasa Indonesia. By doing this, this will ensure to help the mute and deaf people so that they will have the same opportunity to apply for a job just like those without disability. Sign language recognition works by detecting object in real time using camera and then recognize the sign made and show the meaning of that particular sign. This is made possible using OpenCV to take images in real time and the model SSD and YOLOv5 to process those images and label them using rectangular show which object on the picture is the sign language that needs to be recognized based on the available dataset which is the sign language that have already been taken before the test. The training process of this research is done using 463 training images which then augmented and becomes 1389 training images. The models created from training using both algorithms will be tested using testing images and then further tested using real-time testing and the parameter used for evaluation of those models are the confidence score of the system accuracy, precision, recall, and F1 Score which from this research shows that the comparison of confidence score of the system accuracy betweenYOLOv5 model and SSD model is 100% : 87.66%. On the other hand, the comparison of the F1 Score between YOLOv5 model and SSD model is 1 : 0,9342. This research shows that YOLOv5 model have better learning rate compared to SSD which is 0.08 : 0.009. The result from this research shows that YOLOv5 algorithm will have better score of precision compared to SSD algorithm."
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Seno Budi Utomo
"Teknologi teleoperasi atau teleotomasi merupakan teknologi yang berhubungan dengan interaksi antara manusia dengan sistem otomatis dari jarak yang jauh. Sistem atau peralatan yang dikendalikan menggunakan teknologi ini pun bermacam-macam salah satunya adalah AMR (Automatic Meter Reading). AMR merupakan alat yang digunakan untuk melakukan pembacaan energi listrik dengan mengubah tegangan analog menjadi tegangan digital. Data AMR di simpan di sebuah database. Data yang tersimpan di database dapat di akses oleh user menggunakan browser dalam bentuk web dengan menggunakan HTTP (Hypertext Transfer Protocol) lalu dokumen dikirim melalui jaringan TCP/IP (Transmission Control Protocol/Internet Protokol). Pada skripsi ini dibuat system monitoring AMR berbasis web server. Data-data AMR akan ditampilkan pada website secara realtime dan mengirimkan perintah untuk mematikan AMR.

Tele-automation,teleoperation technology or technology related to the interaction between human and automated systems from a great distance. Systems or equipment that is controlled using this technology had a variety of one of them is AMR (Automatic Meter Reading). AMR is a tool used to perform the reading of electric energy by converting the analog voltage into digital voltage. AMR data is stored in a database. Data stored in the database can be accessed by the user using a browser on a web form using the HTTP (Hypertext Transfer Protocol) and the document is sent through the network TCP / IP (Transmission Control Protocol / Internet Protocol). In this paper created a web-based AMR system, the monitoring server. AMR data will be displayed on the website in realtime and sends the command to turn off the AMR."
Depok: Fakultas Teknik Universitas Indonesia, 2010
S51353
UI - Skripsi Open  Universitas Indonesia Library
cover
Agung Santosa
"[ABSTRAK
Pesatnya perkembangan Deep Learning akhir-akhir ini juga menyentuh ASR
berbasis HMM, sehingga memunculkan teknik hibrid HMM-ANN. Salah satu
teknik Deep Learning yang cukup menjanjikan adalah penggunaan arsitektur
CNN. CNN yang memiliki kemampuan mendeteksi local correlation sesuai
untuk digunakan pada data spectrum suara. Spectrogram memiliki karakteristik
local correlation yang nampak secara visual. Penelitian ini adalah eksperimen
penggunaan spectrogram sebagai fitur untuk HMM-CNN untuk meningkatkan
kinerja ASR berbasis HMM. Penelitian menyimpulkan spectogram dapat
digunakan sebagai fitur untuk HMM-CNN untuk meningkatkan kinerja ASR
berbasis HMM.

ABSTRACT
The latest surge in Deep Learning affecting HMM based ASR, which give birth to
hybrid HMM-ANN technique. One of the promising Deep Learning technique is
the implementation of CNN architecture. The ability of CNN to detect local
correlation make it suitable to be used for speech spectral data. Spectrogram as a
speech spectral data has local correlation characteristic which is visually
observable. This research is an experiment to use spectrogram as a feature for
HMM-CNN to add to the performance of HMM based ASR. This research found
that spectrogram is indeed can be used as a feature for CNN to add to the
performance of HMM based ASR., The latest surge in Deep Learning affecting HMM based ASR, which give birth to
hybrid HMM-ANN technique. One of the promising Deep Learning technique is
the implementation of CNN architecture. The ability of CNN to detect local
correlation make it suitable to be used for speech spectral data. Spectrogram as a
speech spectral data has local correlation characteristic which is visually
observable. This research is an experiment to use spectrogram as a feature for
HMM-CNN to add to the performance of HMM based ASR. This research found
that spectrogram is indeed can be used as a feature for CNN to add to the
performance of HMM based ASR.]"
2015
T43862
UI - Tesis Membership  Universitas Indonesia Library
cover
"Tujuan utama dari penelitian yang dilakukan adalah melakukan pengenalan pola isyarat tangan statis dalam bahasa Indonesia. Pengenalan pola isyarat tangan statis dalam bentuk citra secara garis besar dilakukan dalam 3 tahapan yang meliputi: 1) Segmentasi bagian citra yang akan dikenali berupa tangan dan wajah, 2) ekstraksi ciri, dan 3) klasifikasi pola. Data citra yang diterapkan ada 15 kelas kata isyarat statis. Segmentasi dilakukan dengan menggunakan filter HSV
dengan ambang berdasarkan warna kulit. Ekstraksi ciri dilakukan dengan dekomposisi wavelet Haar filter sampai level 2. Klasifikasi dilakukan dengan menerapkan sistem jaringan syaraf tiruan perambatan balik dengan arsitektur 4096 neuron pada lapisan input, 75 neuron pada lapisan tersembunyi dan 15 neuron pada lapisan output. Sistem diuji dengan menggunakan 225 data validasi dan akurasi yang dicapai adalah 69%.

Abstract
The main objective of this research is to perform pattern recognition of static hand gesture in Indonesian sign language. Basically, pattern recognition of static hand gesture in the form of image had three phases include: 1) segmentation of the image that will be recognizable form of the hands and face, 2) feature extraction and 3) pattern
classification. In this research, we used images data of 15 classes of words static. Segmentation is performed using HSV with a threshold filter based on skin color. Feature extraction performed with
the Haar wavelet decomposition filter to level 2. Classification is done by applying the back propagation system of neural network architecture with 4096 neurons in input layer, 75 neurons in hidden layer and 15 neurons in output layer. The system was tested by using 225 data validation and accuracy achieved was 69%."
[Direktorat Riset dan Pengabdian Masyarakat Universitas Indonesia, Universitas Jenderal Soedirman. Fakultas Sains dan Teknik], 2010
pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Aulya Khatulistivani
"Pada sistem parkir yang ada saat ini, proses pengecekan plat nomor atau Tanda Nomor Kendaraan Bermotor TNKB dilakukan dengan mencocokkan plat nomor melalui foto yang diambil saat pengguna masuk ke area parkir. Hasil pengenalan plat nomor kemudian diinput ke komputer dengan cara diketik. Proses yang dilakukan secara manual oleh operator ini memakan waktu yang relatif lama. Tugas akhir ini mengembangkan pengenalan plat nomor otomatis untuk mengatasi masalah tersebut. Pengenalan plat nomor otomatis merupakan teknologi yang memudahkan ekstraksi karakter-karakter pada plat nomor. Pengembangan sistem parkir ini menggunakan OpenCV sebagai pustaka pengolah citra, algoritma KNN K-Nearest Neighbour untuk Optical Character Recognition, dan sistem basis data untuk sistem parkir.
Berdasarkan hasil pengujian, kombinasi nilai variabel block size dan weight terbaik untuk proses thresholding dalam pengenalan plat nomor adalah b=71 dan w=20 dengan hasil akurasi segmentasi karakter sebesar 89, akurasi rekognisi sebesar 82, dan jumlah rekognisi yang tepat 100 sebesar 26. Sistem dapat membaca plat nomor dengan baik pada jarak optimal 60 cm dengan akurasi segmentasi karakter sebesar 89, akurasi rekognisi sebesar 79, dan jumlah rekognisi yang tepat 100 sebesar 26. Resolusi input gambar juga memengaruhi proses pengenalan plat nomor.
Resolusi yang optimal untuk rekognisi adalah 1024 x 768 dengan hasil akurasi segmentasi karakter sebesar 89, akurasi rekognisi keseluruhan sebesar 81, jumlah rekognisi yang tepat 100 sebesar 26, dan dengan rata-rata waktu pemrosesan selama 0,174 detik. Akurasi rekognisi plat nomor juga diperngaruhi oleh faktor lain seperti pencahayaan dan kondisi plat nomor apakah rusak atau tidak, tertutup sesuatu atau tidak . Selain itu, kondisi plat nomor yang ideal diperlukan untuk pengenalan plat nomor otomatis secara optimal. Secara keseluruhan, sistem parkir otomatis memiliki akurasi rekognisi yang baik.

In current parking system, number plate checking is done by matching it through the photo taken when user enters the parking area. The operator then types the recognised number plate into computer. The process, which is done manually by operator, takes a relatively long time. This thesis develops an automatic license plate recognition to overcome the problem. Automatic license plate recognition is a technology which makes computer able to recognize characters in a license plate. The development of the system uses OpenCV as image processing library, KNN algorithm for Optical Character Recognition OCR, and database system for parking data.
Based on the test result, the combination of the best block size and weight value for the thresholding process in the recognition of the number plate is b 71 and w 20 with character segmentation accuracy of 89, recognition accuracy of 82, and the number of fully recognized number plate of 1. The system can read the number plate well at an optimal distance of 60 cm with character segmentation accuracy 89, recognition accuracy of 79, and fully recognized number plate 26. Image input resolution also affects the number plate recognition process.
The optimal resolution for recognition is 1024 x 768 with character segmentation accuracy of 89, overall segmentation accuracy of 81, the number of fully recognized number plate of 26, and with average processing time of 0.174 seconds. The accuracy of plate number recognition is also affected by other factors such as lighting and the condition of the number plate whether it is damaged or not, obstructed by something or not. In addition, the ideal number plate conditions are required for optimal number plate recognition. Overall, the automated parking system has a good recognition accuracy.
"
Depok: Fakultas Teknik Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Qurratu Aini Hasby
"Penelitian dilakukan untuk mengembangkan sistem keamanan rumah dengan webcam yang sudah ada saat ini. Sistem keamanan saat ini menggunakan webcam hanya untuk merekam dan menyimpan kejadian dalam bentuk video file. Hal tersebut dirasa kurang cukup aman dikarenakan saat kejadian berlangsung seperti perampokan tidak ada notifikasi kepada pemilik rumah. Maka pada penelitian ini ditambahkan sebuah fitur pada sistem untuk mendeteksi wajah penghuni rumah dan akan memberikan notifikasi ketika ada wajah yang tidak dikenal. Sistem ini juga akan digabungkan dengan akses pintu otomatis menggunakan solenoid door lock. Metode yang digunakan adalah Deep Learning Matric untuk implementasi pada face recognition yang digunakan untuk akses kunci pintu rumah.
Hasil yang didapatkan dari pengujian sistem cukup baik, dimana sistem dapat membedakan penghuni rumah dengan orang asing dengan beberapa kriteria pengujian, diantaranya dengan pengujian jarak webcam dengan orang pada siang sekitar pukul 12.00 sampai 13.00 dan malam hari sekitar pukul 19.00 sampai 20.00 dengan menghadap kearah webcam, pengujian banyaknya wajah yang terdeteksi webcam dalam satu frame, dan notifikasi kepada penghuni rumah. Berdasarkan hasil pengujian dan analisis, banyaknya wajah yang tertangkap bisa lebih dari 3 orang dan untuk persentase akurasi pada pengujian siang hari didapatkan sebesar 91.11% sedangkan pada malam hari sebesar 80%. Dari persentase yang didapatkan, pendeteksian pada siang hari lebih baik dan akurat dibandingkan pada malam hari dikarenakan intensitas cahaya yang mempengaruhi kerja dari algoritma face recognition.

The study was conducted to develop a home security system with a webcam that already exists today. The current security system only uses the camera to record and save events in the form of video files. This is not enough safe because when the incident took place such as a robbery there was no notification to the homeowner. Therefore, in this study added some feature for a system to recognize faces of homeowner and will provide notifications when there are faces that are not known. This system will also be combined with automatic door access using solenoid door lock. The method used is the Deep Learning Matric for the implementation of face recognition which will used for door lock access.
The results obtained from the testing of the system are quite good where the system can distinguish between homeowner and strangers with several testing criteria, including testing the distance of the camera with people at noon around 12:00 to 13:00 and the night around 19:00 to 20:00 by facing the camera, testing the number of faces detected by cameras, and notifications to residents. Based on the results of testing and analysis, many faces can be caught more than 3 people and for the percentage of accurated in daytime testing obtained by 91.11% while at night by 80%. From the percentage obtained, the detection during the day is better and more accurate than at night due to the light intensity that affects the work of the face recognition algorithm.
"
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>