Pembangunan Korpus dan Model Relasi Semantik Hiponim-Hipernim Bahasa Indonesia dengan Pendekatan Pattern-Based, Crowdsourcing, dan Machine Learning = Building Indonesian Hyponym-Hypernym Semantic Relations Corpus and Model Using Pattern-Based, Crowdsourcing, and Machine Learning Approach.
Yudhistira Erlandinata;
Rahmad Mahendra, supervisor; Siti Aminah, examiner; Dina Chahyati, examiner
(Fakultas Ilmu Komputer Universitas Indonesia, 2021)
|
Korpus relasi semantik dapat menunjang berbagai penelitian di bidang pengolahan bahasa manusia. Untuk Bahasa Indonesia, korpus relasi semantik yang berukuran besar dan berkualitas baik masih belum tersedia. Korpus relasi semantik dapat dibuat secara manual dengan melibatkan anotator dan juga dapat dihasilkan secara otomatis menggunakan algoritma rule-based atau machine learning. Penelitian ini bertujuan untuk mengevaluasiseberapa baik kualitas korpus relasi semantik Bahasa Indonesia, khususnya relasi hiponim-hipernim, apabila dibangun dengan pendekatan machine learning dan metode crowdsourcing yang menerapkan gamifikasi. Algoritma pattern-based yang sebelumnya pernah diteliti untuk Bahasa Indonesia akan digunakan untuk menghasilkan data training algoritma machine learning dan kandidat entri korpus untuk dianotasi dengan metode crowdsourcing. Kualitas korpus hasil metode crowdsourcing diukur berdasarkan tingkat persetujuan antar anotator dan diperoleh hasil yang cukup baik walaupun belum sempurna. Untuk pendekatan machine learning, beberapa modelmachine learning yang diterapkan masih belum memberikan hasil optimal karenaketerbatasan resource.Kata kunci: relasi semantik, hiponim-hipernim, crowdsourcing, gamifikasi, machinelearning, pattern-based Semantic relations corpus is vital to support research in the field of Natural LanguageProcessing. Currently, there is no existing corpus of semantic relations in Indonesianlanguage which is enormous and high-quality. The corpus can be constructed manuallyby employing human annotators or built automatically using rule-based or machinelearning algorithms. This research aims to evaluate the quality of Indonesian hyponym-hypernym semantic relations corpus that is produced by crowdsourcing mechanism withgamification, and to test the model for semantic relations prediction using machinelearning algorithms. The pattern-based method is applied to obtain the training data formachine learning experiments and corpus entry candidates to be annotated using thecrowdsourcing method. The quality of the crowdsourced corpus is measured using inter-annotator agreement. The experimental result shows that the gamification-basedcrowdsourcing method is promising to produce the corpus. On the other hand, machinelearning models tested in this research have not given optimal results yet due to thelimitations of the lexical resources in Indonesian language. |
S-Yudhistira Erlandinata.pdf :: Unduh
|
No. Panggil : | S-pdf |
Entri utama-Nama orang : | |
Entri tambahan-Nama orang : | |
Entri tambahan-Nama badan : | |
Subjek : | |
Penerbitan : | Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021 |
Program Studi : |
Bahasa : | ind |
Sumber Pengatalogan : | LibUI ind rda |
Tipe Konten : | text |
Tipe Media : | computer |
Tipe Carrier : | online resource |
Deskripsi Fisik : | xiii, 84 pages : illustration + appendix |
Naskah Ringkas : | |
Lembaga Pemilik : | Universitas Indonesia |
Lokasi : | Perpustakaan UI |
No. Panggil | No. Barkod | Ketersediaan |
---|---|---|
S-pdf | 14-23-43421429 | TERSEDIA |
Ulasan: |
Tidak ada ulasan pada koleksi ini: 9999920533846 |