Ditemukan 3 dokumen yang sesuai dengan query
Kerenza Doxolodeo
"Konstruksi dataset QA membutuhkan akses ke sumber daya dan finansial yang tidak kecil, sehingga dataset untuk bahasa-bahasa yang kurang dipelajari seperti Ba- hasa Indonesia minim. Studi ini mengkonstruksi dataset QA Indonesia yang dibuat secara otomatis dari awal hingga akhir. Proses dimulai dengan mengambil tripel dari Wikidata dan mengkonversikan tripel tersebut menjadi pertanyaan menggu- nakan CFG. Teks konteks dicari dari korpus Wikipedia Bahasa Indonesia dengan heuristik untuk mencari teks yang sesuai. Pertanyaan-pertanyaan tersebut dival- idasi dengan model M-BERT yang fungsinya sebagai proxy model yang menilai kelayakan pertanyaan. Dataset terdiri dari 134 ribu baris pertanyaan simpel dan 60 ribu pertanyaan kompleks yang menggandung dua buah fakta dalam satu per- tanyaan. Untuk pertanyaan simpel dataset mendapatkan evaluasi yang mirip oleh manusia (72% AC-IQuAD vs 67% SQuAD terjemahan) dan model QA Indonesia yang terbaik adalah yang menggabungkan dataset SQuAD Inggris dan AC-IQuAD (F1 57.03 terhadap dataset TydiQA).
Construction of QA datasets requires access to considerable resources and fi- nance, so datasets for less-learned languages such as Indonesian are scarce. This study constructs an Indonesian QA dataset that is generated automatically end- to-end. The process begins by taking triples from Wikidata and converting those triples into questions using CFG. The context text is searched from the Indonesian Wikipedia corpus with heuristics to find the appropriate text. These questions were validated with the M-BERT model which functions as a proxy model that assesses the feasibility of questions. The dataset consists of 134 thousand lines of simple questions and 60 thousand complex questions containing two facts in one ques- tion. For simple queries the datasets received similar evaluations by humans (72% AC-IQuAD vs 67% translated SQuAD) and the best Indonesian QA model was the one combining English SQuAD and AC-IQuAD datasets (F1 57.03 against TydiQA dataset)."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership Universitas Indonesia Library
"The rapid growth of internet causes the abudance of textual information. It is necessary to have smart tools and methods than can access text content as needed...."
Artikel Jurnal Universitas Indonesia Library
Maulana Nurhendronoto
"Emosi adalah perasaan yang muncul dalam diri seseorang sebagai respon dari situasi tertentu. Perasan ini dapat memengaruhi pikiran, perilaku, dan persepsi seseorang terhadap suatu peristiwa. Klasifikasi emosi adalah bagian dari analisis sentimen yang bertujuan untuk menganalisis dan memperoleh emosi dari suatu data. Penelitian klasifikasi emosi berbasis teks perlu dilakukan karena dapat diimplementasikan pada berbagai bidang, seperti kesehatan dan pendidikan. Bahasa Indonesia menduduki peringkat 11 bahasa dengan penutur terbanyak di dunia dengan 200 juta penutur. Namun, penelitian klasifikasi emosi berbasis teks bahasa Indonesia masih sedikit dilakukan. Algoritma machine learning dapat digunakan untuk mengatasi berbagai tantangan dalam penelitian klasifikasi emosi seperti memahami emosi dan menganalisis emosi dari data yang tidak terstruktur. Penelitian ini berfokus pada pengembangan model machine learning dengan teknik convolutional neural network (CNN), long short-term memory (LSTM), dan bidirectional encoder representation from transformer (BERT). Berdasarkan pengujian yang dilakukan, metode convolutional neural network (CNN) mendapatkan F1 score sebesar 84,2%, metode long short term memory mendapatkan F1 score sebesar 82%, metode BERT en uncased mendapatkan F1 score sebesar 22%, dan metode BERT multi cased mendapatkan F1 score sebesar 32%. Hasil pengujian ini menandakan metode CNN merupakan metode dengan hasil pengujian terbaik dan BERT en uncased merupakan metode dengan hasil pengujian terburuk dibanding ketiga metode lainnya.
Emotions are feelings that arise within a person in response to a particular situation. These feelings can affect a person's thoughts, behavior, and perception of an event. Emotion classification is a part of sentiment analysis that aims to analyze and derive emotions from data. Text-based emotion classification research needs to be done because it can be implemented in various fields, such as health and education. Indonesian is ranked the 11th most spoken language in the world with 200 million speakers. However, there is still little research on Indonesian text-based emotion classification. Machine learning algorithms can be used to overcome various challenges in emotion classification research such as understanding emotions and analyzing emotions from unstructured data. This research focuses on developing machine learning models with convolutional neural network (CNN), long short-term memory (LSTM), and bidirectional encoder representation from transformer (BERT) techniques. Based on the tests conducted, the convolutional neural network (CNN) method gets an F1 score of 84,2%, the long short term memroy method gets an F1 score of 82%, the BERT en uncased method gets an F1 score of 22%, and the BERT multi cased method gets an F1 score of 32%. These results indicate that the CNN is the bets method while the BERT en uncased is the worst method compared to the three other methods."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership Universitas Indonesia Library