Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 37 dokumen yang sesuai dengan query
cover
Yogi Lesmana Sulestio
"Penelitian Part-of-Speech tagger (POS tagger) untuk bahasa Indonesia telah banyak dikembangkan. Sayangnya, sejauh ini baru Polyglot yang menggunakan POS tag menurut pedoman anotasi Universal Dependencies (UD). Namun, Polyglot sendiri masih mempunyai kekurangan karena belum dapat mengatasi klitik dan kata ulang yang terdapat dalam bahasa Indonesia. Tujuan penelitian ini adalah mengembangkan POS tagger untuk bahasa Indonesia yang tidak hanya sesuai dengan ketentuan anotasi UD, tapi juga sudah mengatasi kekurangan Polyglot. POS tagger ini akan dikembangkan dengan metode deep learning menggunakan arsitektur yang merupakan versi modifikasi dari Recurrent Neural Network (RNN), yaitu Bidirectional Long Short-Term Memory (Bi-LSTM). Dataset yang digunakan untuk mengembangkan POS tagger adalah sebuah dependency treebank bahasa Indonesia yang terdiri dari 1.000 kalimat dan 19.401 token. Hasil eksperimen dengan menggunakan Polyglot sebagai pembanding menunjukkan bahwa POS tagger yang dikembangkan lebih baik dengan tingkat akurasi POS tagging yang meningkat sebesar 6,69% dari 84,82% menjadi 91,51%.

There have been many studies that have developed Part-of-Speech tagger (POS tagger) for Indonesian language. Unfortunately, so far only Polyglot that has used POS tag according to Universal Dependencies (UD) annotation guidelines. However, Polyglot itself still has shortcomings since it has not been able to overcome clitics and reduplicated words in Indonesian language. The purpose of this study is to develop POS tagger for Indonesian language which is not only in accordance with UD annotation guidelines, but also has overcome Polyglot’s shortcomings. This POS tagger will be developed under deep learning method by using modified version of Recurrent Neural Network (RNN) architecture, Bidirectional Long Short-Term Memory (Bi-LSTM). The dataset used to develop POS tagger is an Indonesian dependency treebank consisting of 1.000 sentences and 19.401 tokens. Result of experiment using Polyglot as baseline shows that the developed POS tagger is better. This is indicated by increased accuracy POS tagging by 6,69% from 84,82% to 91,51%."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Nabila Khansa
"Ujaran kebencian dan bahasa kasar mempermudah penyebaran kekerasan di kehidupan nyata, sehingga muncul urgensi adanya pendeteksian secara otomatis. Untuk melanjutkan pekerjaan yang sudah dilakukan oleh Ibrohim dan Budi (2019), penelitian ini membahas dua isu terkait deteksi ujaran kebencian dan bahasa kasar pada mikroblog berbahasa Indonesia. Isu pertama adalah kajian terkait effect size fitur dan pengembangan model menggunakan fitur-fitur tersebut. Metode Analysis of Variance f-test, Logistic Regression Analysis, dan nilai Shapley digunakan untuk melakukan kajian effect size pada fitur-fitur yang dirancang secara manual. Kemudian, digunakan beberapa algoritma pemelajaran mesin untuk mengembangkan model prediksi berbasis fitur-fitur tersebut. Isu kedua adalah kajian bias dalam pengembangan model terkait keberadaan kata-kata bersifat netral pada data yang merupakan ujaran kebencian atau bahasa kasar. Kajian terkait bias dilakukan dengan menggunakan dataset uji bias. Dataset ini dikembangkan dengan menggantikan kata-kata yang dideteksi memiliki potensi adanya bias pada model yang dilatih menggunakan dataset hasil pekerjaan Ibrohim dan Budi (2019). Penelitian ini menunjukkan bahwa keberadaan kata-kata tertentu berpengaruh terhadap hasil deteksi ujaran kebencian dan bahasa kasar. Di antara kata-kata tersebut, terdeteksi beberapa kata-kata yang berpotensi bias, karena memiliki pengaruh terhadap pendeteksian padahal secara sendiri kata-kata yang dideteksi sebagai potensi bias tidak memiliki unsur kebencian atau bersifat kasar. Hasil evaluasi pengambilan sampel bootstrap menunjukkan Logistic Regression dan XGBoost sebagai model dengan akurasi terbaik dalam pendeteksian ujaran kebencian dan bahasa kasar. Namun, ketika model yang sudah dikembangkan digunakan untuk memprediksi dataset sintetis, didapatkan penurunan akurasi dalam pendeteksian ujaran kebencian. Hasil ini menandakan adanya bias pada model yang dikembangkan. Hasil tersebut didukung juga oleh hasil prediksi dengan akurasi rendah ketika model digunakan untuk melakukan pendeteksian ujaran kebencian pada dataset yang dikembangkan secara manual, tetapi ketika kata-kata bias digantikan dari data, akurasi model meningkat. Kontribusi yang diberikan oleh penelitian ini adalah pengembangan dataset uji bias secara otomatis dari dataset yang dikembangkan oleh Ibrohim dan Budi (2019) dan juga dataset uji bias yang dikembangkan secara manual.

Hate speech and abusive language facilitate the spread of violence in real life, hence the urgency of automatic detection. To continue the work done by Ibrohim dan Budi (2019), this research addresses two issues related to the detection of hate speech and abusive language on Indonesian-language microblogs. The first issue is a study on the effect size of features and the development of models using these features. Analysis of Variance f-test, Logistic Regression Analysis, and Shapley values are used to investigate the effect size of manually designed features. Several machine learning algorithms are then employed to develop prediction models based on these features. The second issue involves studying bias in model development concerning the presence of neutral words in data that constitute hate speech or abusive language. The study related to bias is conducted by using a bias test dataset. This dataset is developed by replacing words that are detected to have the potential for bias in models trained using the dataset resulting from the work of Ibrohim dan Budi (2019). This research demonstrates that certain words significantly influence the detection of hate speech and abusive language. Among these words, some are identified as potentially biased, as they affect detection despite not inherently containing hate or abusive elements. The results of bootstrap sampling evaluation indicate that Logistic Regression and XGBoost are the models with the highest accuracy in detecting hate speech and abusive language. However, when the developed models are used to predict synthetic datasets, a significant decrease in accuracy is observed in hate speech detection. This finding indicates the presence of bias in the developed models. This result is further supported by low-accuracy predictions when the models are used to detect hate speech in manually developed datasets. However, when biased words are replaced in the data, the model’s accuracy significantly improves. The contributions of this research include the development of an automatically generated bias test dataset from the dataset created by Ibrohim dan Budi (2019), as well as a manually developed bias test dataset."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Vien Aulia Rahmatika
"Kepolisian Republik Indonesia (Polri) merupakan alat negara yang terus berusaha memberikan pelayanan publik secara prima salah satu nya dengan melakukan inovasi dengan memanfaatkan teknologi dalam memberikan pelayanan SIM melalui aplikasi bernama Digital Korlantas Polri. Namun sejak aplikasi tersebut diluncurkan pada tahun 2021 hingga tahun 2022 terdapat pemberitaan di berita online terkait kendala pada aplikasi dalam perpanjangan SIM online yang tidak berjalan sebagaimana semestinya. Penelitian ini bertujuan untuk melihat bagaimana pandangan masyarakat sebagai pengguna layanan dari Twitter dan Play Store. Data yang digunakan dalam penelitian ini berasal dari Twitter dan Play Store sebanyak 5944 data. Analisis dilakukan dengan membangun model klasifikasi relevansi, aspek, dan sentimen pada aspek reliability, efficiency, trust, dan citizen support. Algoritma yang digunakan yaitu Decision Tree, Logistic Regression, dan SVM. Hasil pemodelan klasifikasi dengan performa yang paling tinggi dalam klasifikasi relevansi, aspek, dan sentimen pada tiap aspek dihasilkan oleh algoritma Logistic Regression dengan TF-IDF unigram dan SMOTE. Pada model klasifikasi relevansi didapatkan nilai accuracy sebesar 87.05%, precision sebesar 87.38%, recall sebesar 87.04%, dan f1 score sebesar 87.16%. Pada model klasifikasi aspek, nilai accuracy sebesar 74.28%, precision sebesar 75.93%, recall sebesar 74.27%, dan f1 score sebesar 74.70%. Pada model klasifikasi sentimen pada masing-masing aspek, model klasifikasi sentimen pada aspek citizen support mendapatkan nilai yang paling tinggi dibanding aspek lain yaitu dengan nilai accuration sebesar 95.38%, precision sebesar 95.60%, recall sebesar 95.38%, dan f1-score sebesar 94.05%. Pada penelitian ini menghasilkan temuan sentimen pada masing-masing aspek dalam layanan perpanjang SIM online di aplikasi Digital Korlantas Polri dimana reliability merupakan aspek yang paling banyak dikemukakan dan mendapat sentimen negatif, kemudian diikuti oleh aspek efficiency, citizen support, dan aspek trust.

The Indonesian National Police (Polri) continues to strive to provide excellent public services, one of which is by innovating by utilizing technology in providing SIM services through an application called Digital Korlantas Polri. However, since the application was launched in 2021 to 2022 there have been reports in online news regarding problems with applications, so it is necessary to conduct research regarding how the public views the application as service users and maps these views into aspects which affect the quality of government services so that service providers can take improvement to realize excellent service delivery. The data used in this study are from Twitter and Play Store as many as 5944 data. The analysis is carried out by building a classification model of relevance, aspect, and sentiment on the aspects of reliability, efficiency, trust, and citizen support. The algorithms used are Decision Tree, Logistic Regression, and SVM. The results of classification modeling with the highest performance in the classification of relevance, aspect, and sentiment for each aspect were produced by the Logistic Regression algorithm with the TF-IDF unigram and SMOTE. In the relevance classification model, the accuracy value is 87.05%, precision is 87.38%, recall is 87.04%, and f1 score is 87.16%. In the aspect classification model, the accuracy value is 74.28%, precision is 75.93%, recall is 74.27%, and f1 score is 74.70%. In the sentiment classification model for each aspect, the sentiment classification model for the citizen support aspect gets the highest score compared to other aspects, namely with an accuracy value of 95.38%, a precision of 95.60%, a recall of 95.38%, and an f1-score of 94.05% . This study produced sentiment findings for each aspect of the online SIM service in the Digital Korlantas Polri application where reliability was the aspect that was most frequently raised and received negative sentiment, followed by aspects of efficiency, citizen support, and trust."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Lia Ellyanti
"Penggunaan internet sudah menjadi kebiasaan dan kebutuhan tersendiri di masa setelah diberlakukannya kegiatan bekerja secara hybrid dan juga kegiatan sekolah yang mulai kembali normal seperti sebelum pandemi covid-19. Berdasarkan data yang dirilis oleh Asosiasi Penyelenggara Jasa Internet Indonesia, penetrasi internet di Indonesia mencapai 77.02%, kemunculan beragam penyedia layanan internet di Indonesia dengan produk- yang bersaing, dipengaruhi juga dengan meningkatnya penggunaan internet. Belum adanya media ulasan resmi, mendorong masyarakat menggunakan media sosial untuk mengungkapkan ulasan terhadap layanan internet. Pada penelitian ini digunakan data media sosial Twitter untuk mendapatkan nilai sentimen terhadap layanan internet dengan membuat model klasifikasi menggunakan algoritma Naïve Bayes, Support Vector Machine, dan Decision Tree dan juga pengukuran nilai kepuasan pelanggan dan reputasi merek dagang berdasarkan dari analisis sentimen yang didapatkan. Didapatkan hasil analisis sentimen dengan algortima SVM memiliki hasil performa yang paling baik yaitu 75.36 %. Layanan internet Biznet, MNC Play, dan Iconnet mendapatkan nilai kepuasan pelanggan berada pada urutan pertama, kedua, dan ketiga, sedangkan untuk nilai reputasi merek dagang, penyedia layanan internet Biznet dan MNC Play mendapatkan urutan pertama dan kedua baik pada perhitungan hasil pelabelan manual maupun hasil prediksi. Perhitungan CSS dan NBR ini dapat dipertimbangkan oleh perusahaan untuk dijadikan referensi dalam meningkatkan layanannya, selain itu dapat digunakan oleh masyarakat sebagai bahan pertimbangan untuk memilih dan membandingkan penyedia layanan internet terbaik yang akan digunakan.

The use of the internet has become a habit and a necessity after the implementation of hybrid work and also school activities which have started return to normal like before the Covid-19 pandemic. Based on data released by the Association of Indonesian Internet Service Providers, internet penetration in Indonesia has reached 77.02%, the appearance of various internet service providers in Indonesia with competitive products is also influenced by the increasing use of the internet. There is no official review media, has encouraged the sociecty to use social media to express reviews of internet services. In this study, Twitter social media data is used to obtain sentiment analysis for internet services by creating a classification model using the Naïve Bayes algorithm, Support Vector Machine, and Decision Tree, and also to measure customer satisfaction and brand reputation score based on the sentiment analysis obtained. The results of sentiment analysis with the SVM algorithm have the best performance, with the accuracy 75.36%. Biznet, MNC Play, and Iconnet get first, second, and third place for customer satisfaction scores, while for net brand reputation scores, Biznet and MNC Play internet service providers get first and second place, for the calculation using manual labeling data or prediction data of classification model. The calculation of the CSS and NBR can be considered by the company as the reference to improve their services, besides that it can be used by the society as a consideration for choosing and comparing the best internet service providers to use."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Amanda Carrisa Ashardian
"Frequently Asked Questions (FAQs) adalah dokumen (seperti di situs web) yang memberikan jawaban atas daftar pertanyaan umum yang mungkin ditanyakan pengguna mengenai subjek tertentu. Tokopedia adalah salah satu website e-commerce terbesar di Indonesia. Penelitian ini menyajikan konstruksi Knowledge Graph (KG) dengan data dari halaman FAQ Tokopedia. Penelitian ini mendemokan use cases yang memanfaatkan FAQ KG tersebut. Pendekatan penelitian ini melibatkan metode top- down dalam konstruksi KG, yang meliputi web scraping, part-of-speech (POS) tagging untuk mendapatkan kata benda, kata sifat, dan kata kerja dari FAQ, pembuatan ontologi kata kerja, dan pembuatan KG berbasiskan Resource Description Framework (RDF). Temuan-temuan utama mengungkapkan kemampuan baru seperti kueri untuk mencari FAQ berdasarkan suatu kata kerja dan sinonimnya, serta wawasan yang diperoleh dengan exploratory data analysis dan menggunakan kueri SPARQL. Temuan ini bisa meningkatkan layanan FAQ untuk e-commerce melalui pembuatan KG.

Frequently Asked Questions (FAQs) are documents (such as on a website) that give answers to a list of common questions that users may ask about a certain topic. Tokopedia is one of the largest e-commerce websites in Indonesia. This research presents the construction of a Knowledge Graph (KG) with data from Tokopedia's Frequently Asked Questions (FAQs) page. This research demonstrates use cases that utilize the FAQ KG. The research approach involves a top-down method in KG construction, which includes web scraping, part-of-speech (POS) tagging to obtain nouns, adjectives, and verbs from the FAQ, verb ontology generation, and Resource Description Framework (RDF)-based KG generation. The findings reveal new capabilities such as queries to search FAQs based on a verb and its synonyms, as well as insights gained by exploratory data analysis (EDA) and using SPARQL queries. These findings can improve FAQ services for e-commerce through KG generation."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Machffud Tra Harana Vova
"Indonesia merupakan negara yang wilayahnya sering mengalami bencana alam. Salah satu penanganan bencana alam adalah pengumpulan informasi berita bencana seperti artikel atau koran, yang mana berguna untuk meningkatkan readability. Meskipun be- gitu, sekadar pengumpulan artikel saja cukup sulit karena identfikasinya dapat memakan waktu serta makna yang termuat pada berita juga masih perlu diserap. Oleh karena itu perlu dilakukan klasifikasi dokumen untuk memilih teks dokumen yang relevan dengan bencana alam, kemudian dari teks dokumen yang relevan dilakukan ekstraksi informasi. Penelitian mengenai klasifikasi teks bencana alam serta ekstraksi informasi yang sudah dilakukan masih menggunakan pendekatan pemelajaran mesin tradisional serta belum memanfaatkan pre-trained model berbasis bahasa Indonesia. Penggunaan pre-trained model dan pendekatan deep learning sendiri sering memperoleh performa yang lebih baik, sehingga ada kemungkinan performa yang dihasilkan dapat ditingkatkan. Dalam penelitian ini dilakukan eksperimen menggunakan pre-trained word embedding seperti Word2Vec dan fastText, pendekatan deep learning seperti BERT dan BiLSTM untuk task klasifikasi. Hasil dengan pendekatan pemelajaran mesin tradisional dengan BoW yang sudah direproduksi menjadi yang terbaik hampir secara keseluruhan, meskipun jenis classifier yang digunakan adalah MLP yang mana sudah menerapkan deep learning karena memiliki beberapa neuron. Kemudian pada penggunaan model pre-trained seperti BERT, terdapat keterbatasan panjang masukan. Keterbatasan ini dapat ditangani dengan membuat representasi dokumen menjadi lebih pendek menggunakan metode peringkasan teks. Hasil representasi ringkasan dokumen dalam penelitian ini mampu meningkatkan performa akurasi klasifikasi baik pada pendekatan pemelajaran mesin tradisional maupun deep learning. Penelitian ini juga melakukan ekperimen penggunaan pre-trained model yang sudah fine-tuned untuk task ekstraksi lokasi seperti NER dan dependency parsing berbasis bahasa Indonesia, meskipun belum dihasilkan performa yang cukup baik.

Indonesia is a country whose often experiences natural disasters. One way to deal with natural disasters is to collect disaster news information such as articles or newspapers, which are useful for increasing readability. Even so, just collecting articles is quite difficult because identification can take time and the meaning contained in the news still needs to be absorbed. Therefore, it is necessary to classify documents to select document texts that are relevant to natural disasters, then extract information from the relevant document texts. Research on natural disaster text classification and information extraction that has been carried out still uses the traditional machine learning approach and has not yet utilized Indonesian language-based pre-trained models. The use of pre- trained models and deep learning approaches themselves often get better performance, so there is a possibility that the resulting performance can be improved. In this study, experiments were carried out using pre-trained word embedding such as Word2Vec and fastText, deep learning approaches such as BERT and BiLSTM for classification tasks. The results with traditional machine learning approaches with reproducible BoW are the best almost overall, even though the type of classifier used is MLP which already implements deep learning because it has few neurons. Then in the use of pre-trained models such as BERT, there are limitations to the length of the input. This limitation can be overcome by making the document representation shorter using the text summary method. The results of the document summary representation in this study were able to improve the performance of classification accuracy in both traditional and deep learning machine learning approaches. This study also conducted experiments using pre-trained models that had been fine-tuned for location extraction tasks such as NER and Indonesian language-based dependency parsing, although they did not produce sufficiently good performance."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kerenza Doxolodeo
"Konstruksi dataset QA membutuhkan akses ke sumber daya dan finansial yang tidak kecil, sehingga dataset untuk bahasa-bahasa yang kurang dipelajari seperti Ba- hasa Indonesia minim. Studi ini mengkonstruksi dataset QA Indonesia yang dibuat secara otomatis dari awal hingga akhir. Proses dimulai dengan mengambil tripel dari Wikidata dan mengkonversikan tripel tersebut menjadi pertanyaan menggu- nakan CFG. Teks konteks dicari dari korpus Wikipedia Bahasa Indonesia dengan heuristik untuk mencari teks yang sesuai. Pertanyaan-pertanyaan tersebut dival- idasi dengan model M-BERT yang fungsinya sebagai proxy model yang menilai kelayakan pertanyaan. Dataset terdiri dari 134 ribu baris pertanyaan simpel dan 60 ribu pertanyaan kompleks yang menggandung dua buah fakta dalam satu per- tanyaan. Untuk pertanyaan simpel dataset mendapatkan evaluasi yang mirip oleh manusia (72% AC-IQuAD vs 67% SQuAD terjemahan) dan model QA Indonesia yang terbaik adalah yang menggabungkan dataset SQuAD Inggris dan AC-IQuAD (F1 57.03 terhadap dataset TydiQA).

Construction of QA datasets requires access to considerable resources and fi- nance, so datasets for less-learned languages such as Indonesian are scarce. This study constructs an Indonesian QA dataset that is generated automatically end- to-end. The process begins by taking triples from Wikidata and converting those triples into questions using CFG. The context text is searched from the Indonesian Wikipedia corpus with heuristics to find the appropriate text. These questions were validated with the M-BERT model which functions as a proxy model that assesses the feasibility of questions. The dataset consists of 134 thousand lines of simple questions and 60 thousand complex questions containing two facts in one ques- tion. For simple queries the datasets received similar evaluations by humans (72% AC-IQuAD vs 67% translated SQuAD) and the best Indonesian QA model was the one combining English SQuAD and AC-IQuAD datasets (F1 57.03 against TydiQA dataset)."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Luqman Maulana Rizki
"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Tsaqif Naufal
"Seiring dengan semakin banyaknya masyarakat yang menggunakan forum tanya-jawab kesehatan online, kebutuhan akan adanya sistem tanya-jawab kesehatan yang dapat berjalan secara otomatis semakin besar. Salah satu bagian penting dari sistem tanya-jawab kesehatan otomatis adalah question processing untuk mendapatkan informasi relevan dari pertanyaan pengguna. Terdapat beberapa task yang merupakan bagian dari question processing, di antaranya pengenalan pertanyaan, pengenalan entitas kesehatan, dan ekstraksi frase kunci. Pada penelitian ini, penulis mencoba tiga model untuk menyelesaikan ketiga task tersebut, yaitu IndoDistilBERT, IndoDistilBERT-BiLSTMs, dan IndoDistilBERT-BiLSTMs-CRF. Hasil eksperimen menunjukkan bahwa IndoDistilBERT-BiLSTMs-CRF memberikan hasil terbaik untuk task pengenalan pertanyaan dengan skor F1 sebesar 94,45%, lebih baik 3,15% dibandingkan baseline. Untuk task pengenalan entitas kesehatan, IndoDistilBERT-BiLSTMs memberikan hasil terbaik dengan skor F1 sebesar 73,78%, lebih baik 3,53% dibandingkan baseline. Untuk task ekstraksi frase kunci, model IndoDistilBERT-BiLSTMs memberikan hasil terbaik dengan skor F1 sebesar 77,42%, lebih baik 4,25% dibandingkan baseline. Selain itu, percobaan dengan pendekatan multi-task learning untuk menyelesaikan task pengenalan entitas kesehatan dan ekstraksi frase kunci belum mampu mengungguli hasil dari pendekatan single-task learning untuk masing-masing task.

With the increasing number of people who use health question-and-answer online forum, the need for a health question-and-answer system that can run automatically is getting bigger. One of the important parts of an automated health question-and-answer system is question processing to get relevant information from user queries. There are several tasks which are part of question processing, including question recognition, medical entity recognition, and keyphrases extraction. On this research, we try three models to solve those three tasks, namely IndoDistilBERT, IndoDistilBERT-BiLSTMs, and IndoDistilBERT-BiLSTMs-CRF. Our experiment shows that IndoDistilBERT-BiLSTMs-CRF gives the best results for question recognition task with F1-score of 94,45%, 3,15% better than baseline. For medical entity recognition task, IndoDistilBERT-BiLSTMs gives the best results with F1-score of 73,78%, 3,53% better than baseline. For keyphrases extraction task, IndoDistilBERT-BiLSTMs gives the best results with F1-score of 77,42%, 4,25% better than baseline. Besides that, experiments with multi-task learning approach to solve medical entity recognition and keyphrases extraction have not been able to outperform the results of single-task learning approach for each task."
Depok: Fakultas Ilmu komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Intan Fadilla Andyani
"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
<<   1 2 3 4   >>