Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 96671 dokumen yang sesuai dengan query
cover
Akhmad Sarif
"Perkembangan teknologi pemrosesan citra digital berjalan dengan pesat seiring dengan banyaknya pemanfaatan teknologi tersebut di berbagai bidang kehidupan manusia. Bidang kehidupan manusia yang memanfaatkan teknologi pemrosesan citra digital antara lain adalah: interasi kumputer-manusia, kesehatan, keamanan dan keselamatan, transportasi, robotika. Salah satu penerapan teknologi pemrosesan citra digital adalah pengenalan ekspresi wajah atau Facial Expression Recognition (FER). Wajah manusia dapat menampilkan berbagai macam ekspresi yang berbeda seperti ekspresi senang, sedih, marah, takut, terkejut, jijik dan sebagainya. Perbedaan ekspresi wajah ini menjadi tantangan bagi komputer untuk dapat mengenali dan membedakannya secara akurat. Salah satu teknologi yang digunakan pada aplikasi FER adalah CNN (Convolutional Neural Networks). Penelitian ini menggunakan model CNN AlexNet yang telah dilakukan perbaikan parameter (fine-tuning) untuk diaplikasikan pada pengenalan ekspresi wajah pada citra digital. Fine-Tuning yang dilakukan adalah dengan mengubah beberapa parameter dari model AlexNet. Parameter yang diubah antara lain: normalisasi input (dari normalisasi cross channel menjadi normalisasi batch), fungsi aktivasi dari ReLU (Rectified Linear Unit) menjadi Leaky ReLU, nilai dua buah dropout yang masing-masing bernilai 50% diubah menjadi 30% dan 20%. Program pengenalan ekspresi wajah yang dibuat kemudian diaplikasikan tearhadap dua buah dataset FER yaitu dataset CK+ (Extended Cohn-Kanade) dan KDEF (The Karolinska Directed Emotional Faces). Tahapan pre-processing yang dilakukan adalah mengubah tingkat kekontrasan citra dataset menggunakan metode CLAHE (Contrast Limited Adaptive Histogram Equalization). Hasil pengujian menunjukkan bahwa metode yang menggunaan prosedur CLAHE serta model fine-tuning AlexNet miliki kinerja yang lebih baik dari pada model AlexNet standard. Penggunaan metode ini pada dataset CK+ meningkatkan akurasi rata-rata sebesar 19,01% dan ketika metode ini digunakan pada dataset KDEF mampu meningkatkan akurasi rata-rata sebesar 14,82% dibandingkan pada saat menggunakan model konvensional AlexNet serta tidak melakukan prosedur CLAHE pada citra dataset. Dari hasil pengujian juga diketahui prosedur CLAHE dan fine-tuning AlexNet mampu melakukan klasifikasi ekspresi wajah secara akurat pada citra yang diuji. Sedangkan model konvensional AlexNet dalam beberapa percobaan gagal mengklasifikasikan ekspresi wajah secara tepat pada citra yang diuji.

The development of digital image processing technology is progressing rapidly along with the many uses of this technology in various fields of human life. Fields of human life that utilize digital image processing technology include robotics, human-computer interaction, healthcare, security and safety, and transportation. One application of digital image processing technology is facial expression recognition (FER). The human face can display a variety of different expressions such as expressions of happiness, sadness, anger, fear, surprise, disgust, and so on. There is a challenge for the computer to recognize the difference in facial expressions. One of the technologies used in facial expression recognition applications in digital images is artificial intelligence technology especially CNN (Convolutional Neural Networks). In this study, AlexNet, a CNN model was fine-tuned and combined with CLAHE (Contrast Limited Adaptive Histogram Equalization) procedure toward images dataset for facial expression recognition applications. Fine-Tuning AlexNet model were made by changing some of AlexNet's standard parameters. These parameters include: input initialization (from local normalization to batch normalization), activation function (from ReLU to Leaky ReLU), and dropout value changed from 50%; 50% to 30% and 20%. The facial expression recognition program created was then implemented in two FER (Facial Expression Recognition) datasets, namely CK+ and KDEF. After testing, the results showed that the CLAHE and Fine-Tuning AlexNet model had better performance than the basic AlexNet model. When applying the CK+ dataset that had CLAHE procedure with the Fine-Tuning AlexNet model increases the average of accuracy up to 19,01%, when applying to the KDEF dataset, this method increases accuracy up to 14,82%. From the test results it is known that the CLAHE and the Fine-Tuning AlexNet model model gives better results than the original AlexNet model. Fine-Tuning of the AlexNet model is able to give accurate classification of facial expressions in the tested images. While the original AlexNet model in several experiments failed to accurately clasify facial expressions in the tested images.
"
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
"Researches on computer vision are greatly developed today. The main idea is to make machine be able to recognize an object. One of practical application on computer vission for example is real time face recognition system...."
Artikel Jurnal  Universitas Indonesia Library
cover
Ratmi Nur Isnaini
"Beras merupakan bahan pangan pokok bagi masyarakat Indonesia. Biasanya masyarakat Indonesia memilih beras berdasarkan varietas karena masing-masing varietas memiliki karakteristik cita rasa, tekstur, dan aroma yang berbeda-beda. Pada aspek kesehatan, masyarakat dapat memilih beras berdasarkan teknik budi daya, yaitu organik atau anorganik. Namun, pada saat ini belum ada instrumen yang mampu mengidentifikasi varietas dan teknik budi daya beras. Penelitian ini dirancang untuk membuat sistem pengenalan varietas dan teknik budi daya beras berbasis citra hiperspektral dengan rentang panjang gelombang 400 – 1000 nm. Sistem dirancang menggunakan multi-output multi-class dengan arsitektur AlexNet. Dalam proses pembangunan sistem, citra yang masuk ke dalam sistem disegmentasi menjadi bagian kecil yang disebut sebagai region of interest (ROI). Penelitian ini melakukan eksperimen variasi ukuran ROI sebesar 32x32, 36x36, dan 40x40. Hasil akurasi pengujian yang cukup baik diperoleh dari model multi-output dengan ukuran ROI 40x40. Hasil akurasi pengujian yang diperoleh adalah sebesar 95,14% untuk output varietas dan 96,43% untuk output teknik budi daya. Melalui eksperimen ini, sistem multi-output multi-class berbasis citra hiperspektral terbukti mampu mengidentifikasi varietas dan teknik budi daya beras sekaligus.

Rice is a staple food for Indonesian people. Usually, they choose rice based on varieties because each variety has different characteristics of taste, texture, and aroma. In health aspect, they can choose rice based on cultivation techniques such as organic or conventional. However, at this time there is no instrument that can identify variety and cultivation technique of rice. This research is designed to create a recognition system of both variety and cultivation technique based on hyperspectral image with a wavelength range of 400 – 1000 nm. The system is designed using multi-output multi-class with AlexNet architecture. In the system development process, the images that enter the system are segmented into small parts called region of interest (ROI). This study conducted an experiment with ROI variation size of 32x32, 36x36, and 40x40. A good test results are obtained from ROI size of 40x40. The test accuracy results are 95.14% for variety ouput and 96.43% for cultivation technique output. Through this experiment, a multi-output multi-class system based on hyperspectral image was proven to be able to identify variety and cultivation technique of rice at the same time."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Randy Pangestu Kuswana
"ABSTRAK
Pose estimasi wajah atau head pose estimator merupakan salah satu dari parameter yang penting dalam proses identifikasi wajah dalam bentuk citra muka tiga dimensi. Dikarenakan performanya yang sangat baik, deep learning menggunakan jaringan saraf konvolusi sering digunakan sebagai estimator dari pose wajah. Namun dibalik performanya yang kuat, jaringan saraf konvolusi masih rentan terhadap derau sehingga menyebabkan performa akan turun secara signifikan. Selain itu, performa dari CNN juga tergantung pada kombinasi dari hyper-parameter yang dipilih. Pengembangan CNN yang pesat membuat dikembangkannya beberapa arsitektur dengan setiap arsitektur memiliki performanya tersendiri. Dalam penelitian ini akan dibuat dua jenis estimator pose kepala yang pertama menggunakan arsitektur modifikasi dari LeNet-5 dan yang kedua menggunakan arsitektur modifikasi dari AlexNet. Pada arsitektur LeNet-5 akan dilakukan percobaan terhadap berbagai hyper-parameter tipe pooling dan fungsi aktivasi, untuk mengetahui pengaruhnya terhadap derau gaussian, salt-pepper, dan speckle. Selain itu dua jenis estimator yang dibuat akan dibandingkan juga hasilnya untuk mengetahui performa dari Arsitektur AlexNet Modified yang dibuat terhadap citra dengan noise. Dari hasil percobaan didapatkan nilai performa AlexNet yang memiliki akurasi lebih bagus dibandingkan dengan LeNet-5, baik pada data dengan derau atau pada data tanpa derau.

ABSTRACT
Head pose estimation is one of the important parameter for determination of known face from its three dimensional face images. Due to its superiority, Convolutional Neural Network CNN has been used as a head pose estimator, and has been under a rapid growth in the recent years, with the growth resulting in many architecture were developed to solve a particular task. However, most of the CNN rsquo s performance were significantly dropped when the input face images was exposed to noises. In this research, we will develope two sistem with each of them using a different Architecture, LeNet 5 and AlexNet. Moreover, by using an LeNet 5 system that we built, we test the effect on hyper parameter choices of pooling layer and activation function. It is due, to understand the their effect on a gaussian noise, salt pepper, and speckle noise. After testing the hyper parameter effect on degraded image, we compare the performance of modified LeNet 5 and modified AlexNet. Result of the experiments shows that the modified AlexNet has a better performance on dealing with either normal or degraded images. "
2018
T51433
UI - Tesis Membership  Universitas Indonesia Library
cover
Muhammad Rifki
"ABSTRACT
Pengenalan ekspresi wajah telah menjadi tantangan dalam ilmu digital selama bertahun-tahun. Dengan pertumbuhan baru-baru ini di dalam bidang machine learning, sistem pengenalan ekspresi wajah secara real-time dengan machine learning dapat berguna untuk sistem monitoring emosi untuk interaksi manusia-komputer (HCI). Model yang penulis ajukan dirancang dengan model Convolutional Neural Network (CNN) dan menggunakannya untuk melatih dan menguji gambar ekspresi wajah dengan TensorFlow. Sistem ini memiliki dua bagian, sebuah recognizer untuk validasi dan model pelatihan data untuk data training. recognizer berisi detektor wajah dan pengenal ekspresi wajah. Detektor wajah mengekstrak gambar wajah dari frame video dan pengenal ekspresi wajah mengklasifikasikan gambar yang diekstrak. Model pelatihan data menggunakan CNN untuk melatih data. Sistem pengenal juga menggunakan CNN untuk memantau keadaan emosi dari pengguna melalui ekspresi wajah mereka. Sistem ini mengklasifikasikan emosi dalam enam kelas universal, marah, jijik, senang, terkejut, sedih dan takut, ditambah dengan emosi netral.

ABSTRACT
The introduction of facial expressions has been a challenge in digital science for many years. With the recent growth in machine learning, a real-time facial recognition recognition system with machine learning can be useful for emotional monitoring systems for human-computer interaction (HCI). The model the author proposes is designed with the Convolutional Neural Network (CNN) model and uses it to train and test facial expression images with TensorFlow. The system has two parts, a recognizer for validation and a data training model for training data. The recognizer contains face detector and facial recognition. The face detector extracts the face image from the video frame and facial expression identifiers classify the extracted image. The data training model uses CNN to train data. The identification system also uses CNN to monitor the emotional state of the user through their facial expressions. This system classifies emotions in six universal classes, anger, disgust, pleasure, shock, sadness and fear, coupled with neutral emotions."
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dewi Yanti Liliana
"ABSTRAK
Pengenalan emosi melalui analisis ekspresi wajah merupakan bidang riset kecerdasan buatan yang sedang berkembang serta memiliki banyak tantangan. Hal ini disebabkan karena emosi merupakan komponen penting dalam kehidupan manusia terutama dalam berinteraksi dan berkomunikasi, sehingga perlu dikembangkan sebuah sistem cerdas yang mampu mengenali emosi manusia. Permasalahannya adalah banyaknya variasi ekspresi wajah yang menunjukkan emosi manusia. Selain itu, manusia secara subyektif dapat mengekspresikan suatu emosi yang sama dengan beragam cara dan jenis pergerakan komponen wajah yang berbeda, bahkan ambigu antar jenis emosi. Psikolog mengkategorikan emosi menjadi dua kategori, yaitu emosi dasar dan emosi campuran. Penelitian pengenalan emosi dasar (marah, jijik, takut, senang, sedih, terkejut) telah banyak dilakukan, namun pengenalan emosi campuran merupakan tantangan yang belum banyak dieksplorasi karena kompleksitasnya yang tinggi. Kemunculan emosi campuran berbeda dari emosi dasar, karena emosi campuran merupakan kombinasi dari emosi dasar dalam suatu ekspresi wajah. Untuk mengatasi permasalahan subyektifitas dan ambiguitas ekspresi emosi, diperlukan pendekatan fuzzy dalam menganalisis linguistik komponen wajah untuk menentukan jenis emosi. Dalam penelitian ini, diajukan sebuah framework untuk pengenalan emosi berbasis konsep fuzzy emotion yang merupakan representasi pengetahuan pakar psikolog berbasis sistem fuzzy. Tiga tahap dalam framework pengenalan emosi berbasis konsep fuzzy emotion yaitu: ekstraksi fitur wajah dengan Active Appearance Model (AAM) dan analisis geometrik fitur komponen wajah; pemrosesan fitur tingkat tinggi dengan Fuzzy Facial Component Inference System (FFCIS); dan penentuan nilai emosi fuzzy emotion dengan Fuzzy Emotion Inference System (FEIS). Pengujian performa sistem memberikan hasil pengenalan terbaik pada dataset ekspresi wajah extended Cohn Kanade (CK+) dengan akurasi pengenalan linguistik komponen wajah 0.98, dan akurasi pengenalan emosi 0.90. Pengujian pengenalan emosi juga dilakukan menggunakan dataset Indonesian Mixed Emotion Dataset (IMED) yang menghasilkan akurasi pengenalan 0.87. Framework pengenalan emosi berbasis konsep fuzzy emotion berpotensi untuk diterapkan dalam berbagai permasalahan nyata seperti deteksi rasa sakit, deteksi stress, deteksi kebohongan, dan rekonstruksi animasi.

ABSTRACT
Emotion recognition through facial expression analysis is an emerging research in the area of Artificial Intelligence which is still facing many challenges. Emotions are an important component in human life, especially in an interaction and communication. Therefore, an intelligent system that is able to recognize human emotions needs to be developed. The problem is in the variation of facial expressions that displays human emotions. In addition, humans can subjectively express the same emotions in various ways with different facial component movements, even ambiguous between classes of emotions. Psychologist categorized emotion into two classes, basic emotion and mixed emotion. Basic emotion recognition research (anger, disgust, fear, happy, sadness, surprise) has been done a lot, but mixed emotion recognition is an open challenge that has not been widely explored due to the complexity of the problem. The appearance of mixed emotions is different from basic emotions; mixed emotion is a combination of basic emotions in a facial expression. To overcome the problem of subjectivity and ambiguity of emotion expression, a fuzzy approach is developed to analyze the facial components in determining the type of emotion. In this study, we propose a framework for fuzzy emotion recognition which is a representation of the expert psychologist knowledge based on fuzzy systems. Three stages in the fuzzy emotion recognition: facial feature extraction with Active Appearance Model (AAM) and geometric analysis of facial component features; high level feature processing with Fuzzy Facial Component Inference System (FFCIS); and fuzzy emotion recognition with Fuzzy Emotion Inference System (FEIS). System performance testing provided the best results on extended Cohn Kanade (CK+) facial expression dataset, with the accuracy of linguistic facial component recognition 0.98, and accuracy of fuzzy emotion recognition 0.90. Testing was also done using Indonesian Mixed Emotion Dataset (IMED) dataset which resulted in accuracy of 0.87. The fuzzy emotion recognition has a potential to be applied in various real problems such as pain detection, stress detection, lie detection, and animation reconstruction."
2019
D2638
UI - Disertasi Membership  Universitas Indonesia Library
cover
Siska Pebiana
"ABSTRAK
Mengenali emosi dasar seseorang melalui analisa komponen wajah bukanlah hal yang
mudah. Untuk itu sampai saat ini penelitian pada bidang ini masih terus berkembang,
seperti penelitian ini yang terinspirasi dari pekerjaan yang telah dikembangkan lebih
dahulu oleh Dewiyanti (2018). Adapun kontribusi utama pada penelitian ini adalah
meningkatkan akurasi pengenalan komponen wajah menggunakan pendekatan yang
lebih mendalam dari ciri geometris yang sebelumnya digunakan yakni dengan
menambahkan beberapa definisi ciri lain seperti rasio jarak pada alis dalam, hidung
dan juga mata serta dengan menggunakan perhitungan tambahan dalam proses untuk
mendapatkan nilai eccentricity. Selain itu hal lain yang dilakukan adalah melakukan
training ulang AAM (Active Appearance Model) menggunakan dataset HELEN yang
lebih representatif sehingga mendapatkan model yang lebih baik. Disamping itu juga
dilakukan penambahan proses perbaikan kualitas citra sebelum proses fitting AAM.
Dengan menggunakan semua kombinasi tersebut pada sistem pengenalan komponen
wajah, penelitian ini mampu menghasilkan hasil akurasi yang lebih baik pada dataset
yang sama yakni CK+ dari akurasi penelitian sebelumnya oleh Dewiyanti (2018)
sebesar 97.99% menjadi sebesar 98.95% dan pada dataset lain seperti MUG dengan
akurasi sebesar 93.18% serta akurasi sebesar 94.58% untuk dataset IMED yang pada
penelitian sebelumnya belum diujicobakan.

ABSTRACT
Recognizing a person's basic emotions through facial component analysis is not easy
task. So until now research in this field is still evolving, like this research which is
inspired by research from Dewiyanti(2018). The main contribution of this research is
to improve the accuracy of recognition component of the face using an approach that
is more profound than characteristic geometric previously used by adding some other
features such as the ratio of the distance on inner eyebrows, nose and eyes as well as
using additional calculations in the process to get eccentricity value. Moreover, another
thing is retrained the AAM (Active Appearance Model) with HELEN dataset to get
more representative model. Beside that this research also put image preprocessing to
improve the image quality which carried out before the AAM fitting process. By using
all these combinations in recognition system of facial component, this study could yield
better accuracy in the dataset similar and CK + on the accuracy of previous studies by
Dewiyanti (2018) by 97.99% to 98.95% and on other datasets such as MUG with an
accuracy of 93.18 % and an accuracy of 94.58% for Imed dataset which in previous
studies has not been tested."
2019
T53729
UI - Tesis Membership  Universitas Indonesia Library
cover
Raven Ginola Imanuel
"Mata merupakan salah satu dari panca indra yang digunakan untuk melihat dan menjadi aset terpenting dalam hidup manusia. Salah satu bagian terpenting dari mata ialah kelopak mata di mana terdapat sebuah kelenjar yang disebut kelenjar meibom. Kelenjar ini berada pada lapisan air mata yang berguna untuk menyekresikan komponen minyak atau lipid dan berperan penting dalam memperlambat proses evaporasi yang menyebabkan terjaganya kelembapan pada mata. Kekurangan kelenjar meibom yang dikenal sebagai Disfungsi Kelenjar Meibom (DKM) merupakan penyebab utama dari penyakit mata kering. Karena proses diagnosis yang dikerjakan oleh tenaga medis terbilang subjektif, maka penelitian ini menggunakan pendekatan deep learning untuk melakukan klasifikasi pada tingkat keparahan dari DKM. Klasifikasi dilakukan dengan membagi tingkat keparahan atau kehilangan kelenjar meibom berdasarkan hasil meiboscore-nya menjadi 4 kelas, yaitu kelas 0 untuk meiboscore ≤ 25%, kelas 1 untuk 25% < meiboscore ≤ 50%, kelas 2 untuk 50% < meiboscore ≤ 75%, dan kelas 3 untuk meiboscore  > 75%. Metode deep learning yang digunakan adalah Convolutional Neural Network (CNN) dengan arsitektur AlexNet. Data yang digunakan pada penelitian ini adalah 139 citra meibography yang bersumber dari Rumah Sakit Ciptomangunkusumo (RSCM) Departemen Kirana dari 35 pasien mata kering yang sudah mengalami augmentasi dan segmentasi, sehingga data akhir yang digunakan yaitu sebanyak 417 citra segmentasi. Pada tahap pre-processing, dilakukan perhitungan meiboscore dengan bantuan software dan membaginya ke dalam 4 kelas sesuai dengan nilai meiboscore­-nya. Citra yang sudah dilabel ini kemudian dibagi menjadi 80% data training dan 20% data testing. Dari 80% data training, diambil 10% untuk dijadikan data validation, sehingga 417 data tersebut terbagi menjadi 299 data training, 84 data testing, serta 34 data validation. Training model dilakukan menggunakan arsitekur AlexNet dengan hyperparameter berupa epoch sebanyak 100, batch size 32, dan learning rate 0,0001. Pada arsitektur ini juga diterapkan fungsi optimasi yaitu Adam (Adaptive moment estimation) dan fungsi loss categorical cross entropy. Proses modelling dilakukan sebanyak 5 kali percobaan dan memperoleh nilai rata-rata akurasi training dan validation sebesar 99,59% dan 99,41% dan nilai dari loss training dan loss validation sebesar 0,1259 dan 0,0524. Sedangkan rata-rata kinerja testing model berhasil memperoleh akurasi testing sebesar 87,38%; testing loss sebesar 0,5151; dan Area Under Curve (AUC) sebesar 0,9715.

The eye is one of the five senses used to see and is the most important asset in human life. One of the most important parts of the eye is the eyelid where there is a gland called meibomian gland. This gland is located in the tear film which is useful for secreting oil or lipid components and plays an important role in slowing down the evaporation process which leads to maintaining moisture in the eye. Meibomian gland deficiency, known as Meibomian Gland Dysfunction (MGD), is a major cause of dry eye disease. Since the diagnosis process carried out by medical personnel is subjective, this study uses a deep learning approach to classify the severity of MGD. Classification is done by dividing the severity or loss of meibomian glands based on meiboscore results into 4 classes, namely class 0 for meiboscore ≤ 25%, class 1 for 25% < meiboscore ≤ 50%, class 2 for 50% < meiboscore ≤ 75%, and class 3 for meiboscore > 75%. The deep learning method used is Convolutional Neural Network (CNN) with AlexNet architecture. The data used in this study are 139 meibography images sourced from Ciptomangunkusumo Hospital (RSCM) Kirana Department from 35 dry eye patients that have undergone augmentation and segmentation, so that the final data used is 417 segmentation images. In the pre-processing stage, meiboscore was calculated with the help of software and divided into 4 classes according to the meiboscore value. The labeled images were then divided into 80% training data and 20% testing data. From 80% of the training data, 10% is taken to be used as validation data, so that the 417 data is divided into 299 training data, 84 testing data, and 34 validation data. The training model is carried out using the AlexNet architecture with hyperparameters in the form of epochs of 100, batch size 32, and learning rate 0,0001. In this architecture, the optimization function Adam (Adaptive moment estimation) and categorical cross entropy loss function are also applied. The modeling process was carried out 5 times and obtained an average training and validation accuracy value of 99,59% and 99,41% and the value of training loss and validation loss of 0,1259 and 0,0524. While the average performance of the testing model successfully obtained a testing accuracy of 87,38%; testing loss of 0,5151; and Area Under Curve (AUC) of 0,9715.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ryan Pramana
"Machine Reading Comprehension (MRC) merupakan salah satu task di bidang natural language processing (NLP) dimana mesin memiliki tugas untuk membaca secara komprehensif dari sebuah bacaan (passage) yang diberikan agar dapat menjawab pertanyaan terkait. Metode terkini untuk mengautomasi MRC menggunakan deep learning dengan memanfaatkan pretrained language models (PLMs) berbasis BERT. Dalam menangani kasus MRC sumber daya rendah, digunakan PLM multilingual seperti XLM-R. Namun PLM multilingual memiliki masalah untuk bahasa sumber daya rendah yaitu: bahasa sumber daya rendah yang tidak terepresentasi dengan baik, imperfect cross-lingual embeddings alignment dan instabilitas ketika di fine-tuning pada data berukuran kecil. Penelitian ini mengusulkan beberapa strategi fine-tuning dan metode pembentukan data augmentasi untuk meningkatkan kinerja MRC dibahasa sumber daya rendah. Strategi fine-tuning yang diusulkan adalah 2-step fine-tuning dan mixed fine-tuning. Untuk metode pembentukan data augmentasi yaitu dengan penggunaan data asli, pengaplikasian model machine translation dan perturbasi code-switching. Hasil eksperimen menunjukkan, untuk dataset FacQA (Bahasa Indonesia) dan UIT-ViQuAD (Bahasa Vietnam) diperoleh strategi terbaik dengan kombinasi strategi penggunaan data asli dan metode 2-step finetuning dimana menghasilkan peningkatan kinerja sebesar 3.858%, 2.13% secara berurutan. Untuk dataset FQuAD (Bahasa Prancis), strategi terbaik diperoleh de- ngan kombinasi strategi pembentukan data perturbasi code-switching dan metode mixed fine-tuning dimana menghasilkan peningkatan kinerja sebesar 1.493%.

Machine Reading Comprehension (MRC) is one of the tasks in the field of natural language processing (NLP) where the machine has the task of reading comprehensively from a given passage in order to answer related questions. The latest method for automating MRC uses deep learning by utilizing pretrained language models (PLMs) based on BERT. For handling low-resource MRC, multilingual PLMs such as XLM-R are used. However, multilingual PLM has problems for low resource languages: low resource languages that are underrepresented, imperfect cross-lingual embeddings alignment and instability when finetuned on small data.This study proposes several fine-tuning strategies and data augmentation generation methods to improve lowresource languages MRC performance. The proposed fine-tuning strategies are 2-step fine-tuning and mixed fine-tuning. For the method of form- ing augmented data, namely by using data original model, application of machine translation and code-switching pertubation to optimize cross-lingual embeddings alignment in multilingual PLM. The experimental results show that for the FacQA (Indonesian) and UIT-ViQuAD (Vietnamese) datasets, the best strategy is obtained by combining the strategy of using original data and the 2-step fine-tuning method which results in an performance improvement of 3.858%, 2.13%, respectively. For the FQuAD dataset (French), the best strategy was obtained by a combination of code-switching perturbation strategy and mixed fine-tuning method which resulted in an performance improvement of 1.493%. "
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Samuel Nathaniel Halim
"Seiring perkembangan era digital, teknologi semakin mengintegrasikan diri ke dalam berbagai aspek kehidupan manusia, termasuk dalam pengembangan seni rupa. Salah satu hasilnya adalah pembentukkan gambar oleh artificial intelligence (AI) dengan model Stable Diffusion yang dapat menghasilkan gambar dari kalimat teks atau prompt, disebut juga model text-to-image. Namun Stable Diffusion masih memiliki kelemahan, yaitu keterbatasan dalam menghasilkan gambar suatu subjek yang tidak dikenal karena tidak ada pada dataset pelatihan awal Stable Diffusion. Terdapat juga isu-isu lain yaitu penghasilan gambar yang kurang akurat, eror, mengandung bias, dan stereotyping sehingga memengaruhi kepuasan penggunaan Stable Diffusion. Oleh karena itu, diusulkan solusi berupa personalisasi dan kustomisasi, atau fine-tuning, model Stable Diffusion melalui model DreamBooth yang rilis pada Agustus 2022. Dalam penelitian ini, dikembangkan sebuah sistem multiplatform berupa sistem backend dan aplikasi mobile yang menyediakan fungsionalitas Stable Diffusion dan DreamBooth, agar dapat diakses oleh kalangan umum untuk membentuk gambar AI dengan kustomisasi tinggi. Untuk menguji gambar yang dihasilkan sistem, dan mengenal parameter pelatihan model apa saja yang dapat memengaruhi kualitas hasil gambar, dilakukan pengujian kuesioner responden berdasarkan parameter uji yaitu akurasi, kualitas pencahayaan, kualitas warna, jumlah eror, detail, dan nilai estetika dari 2 kelompok gambar AI hasil sistem. Kelompok pertama yaitu gambar yang dibentuk dengan 600 step pelatihan DreamBooth dan 24 step pembentukkan Stable Diffusion, dan kelompok kedua dengan 1000 step DreamBooth dan 50 step Stable Diffusion. Hasil responden menunjukkan bahwa style gambar dan prompt yang digunakan juga berdampak terhadap pengaruh jumlah step pelatihan yang digunakan. Gambar yang menyerupai fotografi realistis dengan prompt sederhana, menunjukkan peningkatan nilai detail dan estetika mencapai 12,8% dan 4% seiring dengan peningkatan jumlah step pelatihan, dan penurunan 4,8% bagi gambar hasil prompt yang detail dan prompt gambar yang bersifat lukisan artistik, dan hasil netral untuk jumlah eror pada gambar dari setiap prompt.

As the digital era advances, technology is increasingly integrating itself into various aspects of human life, including the development of visual arts. One of the results is the generation of images by artificial intelligence (AI) using the Stable Diffusion model, which can produce images from texts or prompts, also known as a text-to-image model. However, Stable Diffusion still has its own limitations, particularly in generating images of unfamiliar subjects which are not present in Stable Diffusion’s initial training dataset. Other issues include inaccuracies, errors, biases, and stereotyping in the generated images which affect user satisfaction in using Stable Diffusion. Therefore, a proposed solution is to personalize and customize a Stable Diffusion model using the DreamBooth model, released in August 2022. In this research, a multiplatform system comprising of a backend system and a mobile application was developed to provide Stable Diffusion and DreamBooth functionalities, making them accessible to the general public for generating highly customizable AI images. To evaluate the images produced by the system, and to find out which model training parameters could affect the resulting images, a questionnaire survey was conducted based on evaluation parameters such as accuracy, lighting, color, amount of errors, level of detail, and general aesthetic value of 2 groups of AI images produced. The first group consists of images generated using 600 DreamBooth training steps and 24 Stable Diffusion inference steps, while the second group involves 1000 DreamBooth steps and 50 Stable Diffusion steps. The respondents results indicated that the image style and prompt used also have an impact on the effect of the number of training steps used. Images that resemble realistic photographs, generated using simpler prompts, showed an increase in detail and aesthetic values by 12.8% and 4% respectively, as the number of training steps increased. On the other hand, there was a 4.8% decrease in detail and aesthetic value for images generated from already detailed prompts and images with an artistic painting style. Meanwhile, the results were neutral for amount of error in the image for all prompts."
Depok: Fakultas Teknik Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>