Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 101168 dokumen yang sesuai dengan query
cover
Aryoshi Wicaksono
"Penelitian ini bertujuan untuk mengembangkan sistem pencarian semantik berbasis model Bidirectional Encoder Representations from Transformers (BERT) untuk mendukung bahasa Indonesia dan Inggris. Sistem ini dirancang untuk memahami konteks kueri secara multibahasa dengan memanfaatkan teknik knowledge distillation. Model “teacher” dilatih pada tugas question-answering dengan bahasa Inggris, sementara model “student” dilatih untuk menangkap konteks multibahasa. Dataset mMARCO dan Mr. TyDi digunakan untuk pelatihan dan pengujian. Hasil penelitian menunjukkan bahwa model berhasil mempelajari embedding multibahasa dengan akurasi translasi hingga 99%. Kualitas pemeringkatan teks dievaluasi menggunakan nilai metrik reciprocal rank (RR), recall (R), dan normalized discounted cumulative gain (nDCG). Pada metrik recall, nilai tertinggi dicapai oleh MS MARCO (EN) dengan R@1000 sebesar 0,8085. Untuk metrik precision, MS MARCO (EN) unggul pada P@10 dengan 0,3090. Pada metrik nDCG, nilai tertinggi juga diraih MS MARCO (EN) pada NDCG@1000 sebesar 0,2709, sedangkan Mr. TyDi (ID) mencatat 0,2340 pada NDCG@100. Untuk metrik MRR, Mr. TyDi (ID) mencapai hasil terbaik dengan MRR@3 sebesar 0,1585 dan MRR@1000 sebesar 0,1796.

This study aims to develop a semantic search system based on the Bidirectional Encoder Representations from Transformers (BERT) model to support both Indonesian and English languages. The system is designed to understand multilingual query contexts by utilizing the knowledge distillation technique. The teacher model was trained on an English question-answering task, while the student model was trained to capture multilingual contexts. The datasets used for training and testing include mMARCO and Mr. TyDi. The results demonstrate that the model successfully learned multilingual embeddings with translation accuracy reaching up to 99%. The quality of text ranking was evaluated using the metrics reciprocal rank (RR), recall (R), and normalized discounted cumulative gain (nDCG). For Recall, the highest value was achieved by MS MARCO (EN) with R@1000 of 0.8085. In terms of Precision, MS MARCO (EN) excelled at P@10 with a score of 0.3090. Regarding nDCG, the highest value was also achieved by MS MARCO (EN) at NDCG@1000 with 0.2709, while Mr. TyDi (ID) recorded 0.2340 at NDCG@100. For MRR, Mr. TyDi (ID) performed best, reaching MRR@3 of 0.1585 and MRR@1000 of 0.1796."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hajra Faki Ali
"Penelitian ini mengusulkan pengembangan model monolingual untuk Natural Language Inference (NLI) dalam bahasa Swahili untuk mengatasi keterbatasan model multibahasa saat ini. Studi ini melakukan fine-tuning pada model SwahBERT yang sudah dilatih sebelumnya untuk menangkap hubungan semantik dan nuansa kontekstual unik dalam bahasa Swahili. Komponen penting dari penelitian ini adalah pembuatan dataset SwahiliNLI, yang dirancang untuk mencerminkan kompleksitas bahasa Swahili, sehingga menghindari ketergantungan pada teks bahasa Inggris yang diterjemahkan. Selain itu, kinerja model SwahBERT yang telah di-fine-tune dievaluasi menggunakan dataset SwahiliNLI dan XNLI, dan dibandingkan dengan model multibahasa mBERT. Hasilnya menunjukkan bahwa model SwahBERT mengungguli model multibahasa, mencapai tingkat akurasi sebesar 78,78% pada dataset SwahiliNLI dan 73,51% pada dataset XNLI. Model monolingual juga menunjukkan presisi, recall, dan skor F1 yang lebih baik, terutama dalam mengenali pola linguistik dan memprediksi pasangan kalimat. Penelitian ini menekankan pentingnya menggunakan dataset yang dihasilkan secara manual dan model monolingual dalam bahasa dengan sumber daya rendah, memberikan wawasan berharga untuk pengembangan sistem NLI yang lebih efisien dan relevan secara kontekstual, sehingga memajukan pemrosesan bahasa alami untuk bahasa Swahili dan berpotensi menguntungkan bahasa lain yang menghadapi keterbatasan sumber daya serupa.

This research proposes the development of a monolingual model for Natural Language Inference (NLI) in Swahili to overcome the limitations of current multilingual models. The study fine-tunes the pre-trained SwahBERT model to capture Swahili's unique semantic relationships and contextual nuances. A critical component of this research is the creation of a SwahiliNLI dataset, crafted to reflect the intricacies of the language, thereby avoiding reliance on translated English text. Furthermore, the performance of the fine-tuned SwahBERT model is evaluated using both SwahiliNLI and the XNLI dataset, and compared with the multilingual mBERT model. The results reveal that the SwahBERT model outperforms the multilingual model, achieving an accuracy rate of 78.78% on the SwahiliNLI dataset and 73.51% on the XNLI dataset. The monolingual model also exhibits superior precision, recall, and F1 scores, particularly in recognizing linguistic patterns and predicting sentence pairings. This research underscores the importance of using manually generated datasets and monolingual models in low-resource languages, providing valuable insights for the development of more efficient and contextually relevant NLI systems, thereby advancing natural language processing for Swahili and potentially benefiting other languages facing similar resource constraints."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Deandra Setyaputri
"Dalam pendidikan, partisipasi pelajar dalam kelas dapat menjadi salah satu faktor pendukung proses pembelajaran yang efektif. Demi mendukung partisipasi pelajar, penelitian ini bertujuan untuk mengembangkan sebuah forum diskusi online untuk proses e-learning dengan mengimplementasikan fitur partisipasi anonim dimana pelajar dapat mengunggah post tanpa harus menunjukkan identitas aslinya. Pilihan untuk dapat berpartisipasi secara anonim mampu meningkatkan keinginan pelajar untuk berpartisipasi dalam pembelajaran seperti melalui aksi bertanya, menjawab pertanyaan, dan berpendapat dalam kelas. Namun anonimitas yang ditawarkan dapat mengundang perilaku buruk karena berkurangnya akuntabilitas. Untuk mengatasinya, penelitian ini juga bertujuan untuk mengembangkan sistem moderasi otomatis pada forum diskusi dengan memanfaatkan model deep learning pendeteksi bahasa kasar berbasis Bidirectional Encoder Representations from Transformers atau BERT. Setiap kali pengguna ingin mengirim unggahan ke dalam forum diskusi, model pendeteksi bahasa kasar akan terlebih dahulu mengklasifikasikan teks unggahan tersebut ke dalam kelas ‘abusive’ jika terdapat unsur kasar, menyinggung, atau mengandung kebencian dan ke dalam kelas ‘safe’ jika tidak. Sistem akan secara otomatis mencegah suatu unggahan untuk terkirim jika unggahan tersebut diklasifikasikan sebagai ‘abusive’. Model pendeteksi bahasa kasar tersebut dilatih dengan melakukan fine-tuning pada IndoBERT, model pre-trained Bahasa Indonesia berbasis BERT, dan IndoBERTweet yang dilatih untuk domain Twitter. Berdasarkan hasil pengujian, model dengan performa terbaik merupakan model hasil fine-tuning IndoBERTweet yang mencapai F1 Score sebesar 91,02%. Durasi waktu yang dibutuhkan oleh model untuk mengeksekusi prediksi bervariasi berdasarkan panjang input, dimana durasi bertambah seiring dengan meningkatnya jumlah karakter pada input, namun maksimum berada di kisaran 1,3 detik karena adanya batasan jumlah token input yang dapat diproses model.

In education, students’ in-class participation can be one of the supporting factors for effective learning. In order to promote student participation, this study aims to develop an online discussion forum for e-learning that implements an anonymous participation feature where students can upload posts without having to show their real identities. The choice to be able to participate anonymously has been proven to improve students’ motivation to participate in the learning process through asking and answering questions and expressing opinions in class. But the anonymity offered can be the cause of several bad behaviors due to the lack of accountability. To handle this, this research will also aim to develop an automatic moderation system for the discussion forums that uses an abusive language classifier deep learning model based on Bidirectional Encoder Representations from Transformers or BERT. Every time a user wants to upload a post to the discussion forum, the abusive language detection model will first classify the uploaded text into the ‘abusive’ class if it contains abusive language or hateful content and into the ‘safe’ class if otherwise. The system will automatically prevent a post from being uploaded if it was classified as ‘abusive’. The abusive language classifier model is trained by fine-tuning the IndoBERT model, a pre-trained Bahasa Indonesia model based on BERT, and IndoBERTweet which was trained for the Twitter domain. Based on testing results, the model with the best performance is the fine-tuned IndoBERTweet model which achieved an F1 Score of 91,02%. The duration of time required by the model to execute predictions varies based on the length of the input, where the duration increases as the number of characters in the input increases, but the maximum is around 1.2 seconds due to a limit on the number of input tokens that the model can process."
Depok: Fakultas Teknik Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Rafif Priyo Waskito
"Peraturan perundang-undangan baru di Indonesia dapat mengganti, menghapus, atau menambahkan aturan yang sudah berlaku sehingga setiap warga Indonesia memiliki tanggung jawab untuk mengetahui aturan terbaru saat hendak digunakan. Laman pengumpulan informasi ini sudah ada di laman pemerintah resmi seperti peraturan.go.id. Akan tetapi ada informasi yang tidak mudah dicari seperti isi pasal terbaru pada doku- men yang telah diubah oleh dokumen lain. Sekarang, sudah ada informasi peraturan perundang-undangan yang disimpan dalam knowledge graph (KG)-sebuah basis data terstruktur berbentuk kumpulan entitas dan relasi layaknya sebuah graf- bernama LexID KG (Muninggar & Krisnadhi, 2023). Ditambah lagi, LexID QA (Handi, 2023), yaitu sebuah sistem tanya jawab hukum dengan informasinya dari LexID KG, menangani masalah ini tetapi dengan memaksakan struktur inputnya. Menurut Jain, Kumar, Kota, dan Patel (2018) kebebasan membuat input (free-text) merupakan tur bagus karena seakan-akan sedang berinteraksi dengan manusia. Oleh karena itu, penelitian ini berusaha untuk menyelesaikan permasalahan pemaksaan struktur input pada LexID QA dengan beralih ke model machine learning pipeline. Model pipeline-nya tersusun dari model klasi kasi pertanyaan bebas ke kueri SPARQL, sebuah bahasa untuk mengambil informasi dari KG, dan model NER untuk mengambil informasi entitas penting seperti judul dokumen yang dicari pada pertanyaan bebasnya. Kedua model ini berbasiskan BERT (Bidirectional Encoder Representations from Transformers) (Devlin, Chang, Lee, & Toutanova, 2018). Hasil dari model klasi kasi mencapai nilai sempurna pada dataset baru yang dibuat pada penelitian ini. Kemudian, hasil dari model pipeline-nya juga mencapai nilai makro-akurasi sebesar 0.949 pada dataset yang sama.

New laws and regulations in Indonesia can modify, repeal, or adding to existing rules so that every Indonesian citizen has responsibility to know the latest rules when utilizing them. This collection of information is available on of cial government websites such as peraturan.go.id. However, there is information that not easy to nd, such as the contents of latest articles in the documents that have been modi ed by another document. Currently, there is regulatory information stored in a knowledge graph (KG)-a database structured in the form of a collection of entities and relationships like a graph- called LexID KG (Muninggar & Krisnadhi, 2023). Additionally, LexID QA (Handi, 2023), a legal question and answer system with information from LexID KG, addresses this problem but forcing its input structure. According to Jain et al. (2018), free-text input is a good feature because it feels like communication with humans. Therefore, this research trying to solve the problem of forcing input structures in LexID QA by transitioning to a machine learning pipeline model. The pipeline model is composed of free question classi cation model to query SPARQL, a language for retrieving information from KG, and NER model to extracting important entity such as legal title in the free-text input. Both model are based on BERT (Bidirectional Encoder Representations from Transformers) (Devlin et al., 2018). The classi cation model achieved a perfect score on the new dataset created in this research. Furthermore, the pipeline model achieved a macro-accuracy score of 0.949 on the same dataset."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Agung Firmansyah
"Jurnal ini membahas tentang pengembangan Sistem Penilaian Esai Otomatis (SIMPLE-O) untuk Bahasa Indonesia menggunakan BERT (Bidirectional Encoder Representations from Transformers) dan Bidirectional LSTM. BERT digunakan untuk melakukan sentence embedding pada jawaban mahasiswa dan dosen, yang kemudian diproses oleh Bidirectional LSTM. Kemiripan antara jawaban diukur dengan menggunakan Manhattan Distance dan Cosine Similarity. Hasil pengujian menunjukkan bahwa rata-rata selisih absolut antara nilai model dengan nilai human rater adalah 22.83 dengan error MAE dan RMSE sebesar 0.2462 dan 0.2850 untuk Manhattan Distance, dan 12.88 dengan error MAE dan RMSE sebesar 0.1614 dan 0.1946 untuk Cosine Similarity.

This paper presents the development of an Automatic Essay Scoring System (SIMPLE-O) for the Indonesian using BERT (Bidirectional Encoder Representations from Transformers) and Bidirectional LSTM. BERT is used to perform sentence embedding on both student and lecturer answers, which are then processed by Bidirectional LSTM. The similarity between the answers is measured using Manhattan Distance and Cosine Similarity. The test results show that the average absolute difference between the model score and the human rater score is 22.83 with MAE and RMSE error of 0.2462 and 0.2850 for Manhattan Distance, and 12.88 with MAE and RMSE error of 0.1614 and 0.1946 for Cosine Similarity."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rao, K. Sreenivasa
"Predicting prosody from text for text-to-speech synthesis covers the specific aspects of prosody, mainly focusing on how to predict the prosodic information from linguistic text, and then how to exploit the predicted prosodic knowledge for various speech applications. Author K. Sreenivasa Rao discusses proposed methods along with state-of-the-art techniques for the acquisition and incorporation of prosodic knowledge for developing speech systems."
New York: Springer, 2012
e20418380
eBooks  Universitas Indonesia Library
cover
Mubarik Ahmad
"Forum diskusi asinkron adalah salah satu media pembelajaran kolaboratif daring yang mampu mendorong pemikiran kritis, pertukaran gagasan, dan pembentukan pengetahuan. Analisis konten merupakan metode ilmiah yang dapat digunakan untuk mengidentifikasi keterampilan berpikir kritis dari transkrip pada forum diskusi asinkron. Metode analisis konten konvensional membutuhkan tahapan pengodean manual yang membutuhkan banyak waktu dan tenaga. Hal ini dapat mengakibatkan pengajar terlambat dalam memberikan intervensi instruksional karena informasi keterampilan berpikir kritis tidak dapat diperoleh secara cepat.
Penelitian ini mengacu pada kerangka kerja Community of Inquiry (CoI) di mana keterampilan berpikir kritis dioperasionalisasikan melalui empat level dalam kehadiran kognitif yaitu pemantik diskusi, eksplorasi, integrasi, dan resolusi. Tujuan penelitian adalah mengembangkan model klasifikasi berbasis machine learning yang mampu menganalisis secara otomatis kehadiran kognitif pada transkrip diskusi berbahasa Indonesia. Desain penelitian menggunakan metode campuran kuantitatif dan kualitatif. Data eksperimen berjumlah 1.200 pesan diskusi dari mata kuliah Aljabar Linear di lingkungan pembelajaran bauran.
Hasil penelitian menunjukkan bahwa kesiapan mahasiswa dalam mengelola pembelajaran dan lingkungan e-learning berpengaruh signifikan terhadap pengembangan kehadiran sosial dan kehadiran kognitif. Dataset level kehadiran kognitif pada transkrip diskusi asinkron dibangun dengan metode analisis konten yang reliabel kategori hampir sempurna (Cohen’s kappa = 0,88). Eksperimen pengembangan model analisis kehadiran kognitif menggunakan sepuluh basis algoritma yaitu XGBoost, Random Forest, Support Vector Machine, Logistic Regression, Naïve Bayes, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), IndoBERT-base, IndoBERT-large dan XLM-RoBERTa. Model berbasis IndoBERT-large memiliki performa terbaik dengan akurasi sebesar 0,825. Prototipe sistem Cognipresa (cognitive presence analytics) telah dikembangkan untuk memfasilitasi pengajar dengan menganalisis kehadiran kognitif mahasiswa dalam diskusi secara otomatis. Evaluasi sistem menunjukkan hasil yang menjanjikan dari sisi usability dengan nilai System Usability Scale (SUS) sebesar 80,83.

The asynchronous discussion forum serves as a collaborative online learning platform capable of stimulating critical thinking, exchanging ideas, and shaping knowledge. Content analysis is a scientific method that can be employed to identify critical thinking skills from transcripts in asynchronous discussion forums. Conventional content analysis methods entail manual encoding stages, which consume a significant amount of time and effort. This may lead to instructors being delayed in providing instructional interventions due to the inability to swiftly obtain information on critical thinking skills.
This study references the Community of Inquiry (CoI) framework, where critical thinking skills are operationalized through four levels of cognitive presence: triggering event, exploration, integration, and resolution. The research's objective is to develop a machine learning-based classification model capable of automatically analyzing cognitive presence in Indonesian-language discussion transcripts. The research design incorporates both quantitative and qualitative methods. The experimental data consists of 1,200 discussion messages from the Linear Algebra course in a blended learning environment.
The research findings indicate that students' preparedness in managing learning and e-learning environment significantly influences the development of social presence and cognitive presence. The dataset for cognitive presence at the transcript of asynchronous discussions was constructed using a content analysis method with a reliably almost perfect category (Cohen’s kappa = 0.88). An experimental development of the cognitive presence analysis model was conducted using ten algorithmic bases, namely XGBoost, Random Forest, Support Vector Machine, Logistic Regression, Naïve Bayes, Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), IndoBERT-base, IndoBERT-large, and XLM- RoBERTa. The IndoBERT-large-based model demonstrated the best performance with an accuracy of 0.825. A prototype system called Cognipresa (cognitive presence analytics) has been developed to facilitate educators in automatically analyzing students' cognitive presence in discussions. The system evaluation indicates promising results in terms of usability, with a System Usability Scale (SUS) score of 80.83.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Carles Octavianus
"Peningkatan jumlah data teks digital membuat manusia membutuhkan mekanisme untuk mengembalikan teks yang efektif dan efisien. Salah satu mekanisme untuk mengembalikan teks adalah dengan pemeringkatan teks. Tujuan dari pemeringkatan teks adalah menghasilkan daftar teks yang terurut berdasarkan relevansinya dalam menanggapi permintaan kueri pengguna. Pada penelitian ini, penulis menggunakan Bidirectional Encoder Representations from Transformers (BERT) untuk membangun model pemeringkatan teks berbahasa Indonesia. Terdapat 2 cara penggunaan BERT untuk pemeringkatan teks, yaitu BERT untuk klasifikasi relevansi dan BERT untuk menghasilkan representasi vektor dari teks. Pada penelitian ini, 2 cara penggunaan BERT tersebut terbagi menjadi 4 model, yaitu BERTCAT, BERTDOT, BERTDOTHardnegs, BERTDOTKD. Penggunaan BERT memberikan peningkatan kualitas pemeringkatan teks bila dibandingkan dengan model baseline BM25. Peningkatan kualitas pemeringkatan teks tersebut dapat dilihat dari nilai metrik recriprocal rank (RR), recall (R), dan normalized discounted cumulative gain (nDCG).

The increase in the amount of digital text data has led humans to require mechanisms for effectively and efficiently retrieving text. One mechanism for text retrieval is text ranking. The goal of text ranking is to generate a list of texts sorted based on their relevance in response to user query requests. In this study, the author uses Bidirectional Encoder Representations from Transformers (BERT) to build a text ranking model for the Indonesian language. There are 2 ways to use BERT for text ranking, namely BERT for relevance classification and BERT for generating vector representations of text. In this study, these 2 ways of using BERT are divided into 4 models, namely BERTCAT, BERTDOT, BERTDOTHardnegs, BERTDOTKD. The use of BERT improves the quality of text ranking compared to the baseline BM25 model. The improvement in the quality of text ranking can be seen from the values of the reciprocal rank (RR), recall (R), and normalized discounted cumulative gain (nDCG) metrics."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Cimiano, Philipp
New York: Springer, 2006
006.331 CIM o
Buku Teks SO  Universitas Indonesia Library
cover
Ika Alfina
"Pada penelitian ini, kami ingin mengatasi masalah langkanya dataset untuk peneli- tian di bidang syntactic parsing untuk Bahasa Indonesia, terutama kurang tersedi- anya dependency treebank berbahasa Indonesia dalam kualitas yang baik. Adapun tujuan dari penelitian ada tiga: 1) mengusulkan petunjuk cara menganotasi depen- dency trebank untuk Bahasa Indonesia yang mengacu kepada aturan anotasi UD v2, 2) membangun dependency treebank yang dianotasi secara manual agar bisa berperan sebagai gold standard, 3) membangun sebuah dependency treebank de- ngan mengkonversi secara otomatis sebuah constituency treebank menjadi sebuah dependency treebank.
Kami sudah membuat panduan anotasi untuk membangun dependency treebank untuk Bahasa Indonesia yang mengacu kepada aturan UD v2. Pedoman tersebut mencakup aturan tokenisasi/segmentasi kata, pelabelan kelas kata (POS tagging), analisis fitur morfologi, dan anotasi hubungan dependency antar kata. Kami men- gusulkan bagaimana memproses klitika, kata ulang, dan singkatan pada tahap to- kenisasi/segmentasi kata. Pada tahapan penentuan kelas kata, kami mengusulkan pemetaan dari daftar kata dalam Bahasa Indonesia ke 17 kelas kata yang didefin- isikan oleh UD v2. Untuk anotasi fitur morfologi, kami telah memilih 14 dari 24 fitur morfologi UD v2 yang dinilai sesuai dengan aturan Bahasa Indonesia, berikut dengan 27 buah label feature-value yang bersesuaian dengan fitur morfologi terkait. Untuk anotasi hubungan dependency antarkata, kami mengusulkan penggunakan 14 buah label yang bersifat language-specific untuk menganotasi struktur sintaks yang khusus terdapat pada Bahasa Indonesia.
Sebuah dependency treebank berbahasa Indonesia yang bisa digunakan sebagai gold standard sudah berhasil dibangun. Treebank ini dibuat dengan merevisi se- cara manual sebuah dependency treebank yang sudah ada. Revisi dilakukan dalam dua fase. Pada fase pertama dilakukan koreksi terhadap tokenisasi/segmentasi kata, pelabelan kelas kata, dan anotasi terhadap hubungan dependency antarkata. Pada fase kedua, selain dilakukan sedikit koreksi untuk perbaikan pada tahap satu, di- tambahkan juga informasi kata dasar (lemma) dan fitur morfologi. Evaluasi ter- hadap kualitas treebank yang baru dilakukan dengan membangun model depen- dency parser menggunakan UDPipe. Hasil pengujian menunjukkan bahwa kami berhasil meningkatkan kualitas treebank, yang ditunjukkan dengan naiknya UAS sebanyak 9% dan LAS sebanyak 14%.
Terkait tujuan penelitian ketiga, kami juga sudah membangun sebuah treebank baru dengan mengkonversi secara otomatis sebuah constituency treebank ke dependency treebank. Pada proyek ini, kami mengusulkan sebuah metode rotasi tree yang bertu- juan mengubah dependency tree awal yang dihasilkan oleh alat NLP untuk Ba- hasa Inggris bernama Stanford UD converter sedemikan agar head-directionality dari frase kata benda yang dihasilkan sesuai dengan aturan Bahasa Indonesia yang umumnya bersifat head-initial. Kami menamakan algoritma yang dihasilkan seba- gai algoritma headSwap dan algoritma compound. Hasil percobaan menunjukkan bahwa metode rotasi tree yang diusulkan berhasil meningkatkan performa UAS se- banyak 32.5%.

In this dissertation, we address the lack of resources for Indonesian syntactic parsing research, especially the need for better quality Indonesian dependency treebanks. This work has three objectives: 1) to propose annotation guidelines for Indonesian dependency treebank that conform to UD v2 annotation guidelines, 2) to build a gold standard dependency treebank, 3) to build a silver standard dependency tree- bank by converting an existing Indonesian constituency treebank automatically to a dependency treebank.
We have proposed a set of annotation guidelines for Indonesian dependency tree- bank that conform to UD v2. The guidelines cover tokenization/word segmenta- tion, POS tagging, morphological features analysis, and dependency annotation. We proposed how to handle Indonesian clitics/multiword tokens, reduplication, and abbreviation for word segmentation. For POS tagging, we presented the mapping from UD v2 guidelines to the Indonesian lexicon. For morphological features, we proposed the use of 14 of 24 UD v2 morphological features along with 27 UD v2 feature-value tags for Indonesian grammar. Finally, we proposed using 14 language- specific relations to annotate the particular structures in Indonesian grammar for dependency annotation.
A gold standard Indonesian dependency treebank also has been built based on our proposed annotation guidelines. The gold standard was constructed by manually revised an existing Indonesian dependency treebank. The revision project consists of two phases. Major revision on word segmentation, POS tagging, and dependency relation annotation was conducted in the first phase. In the second phase, we added the lemma information and morphological features. Finally, we evaluated the qual- ity of the revised treebank by building a dependency parser using UDPipe. The experiment results show that we successfully improved the quality of the original treebank with a margin of 9% for UAS and 14% for LAS.
Finally, we built a silver standard treebank by automatically converting an Indone- sian constituency treebank to a dependency treebank. In this work, we proposed a method to improve the output of an English NLP tool named Stanford UD con- verter. We transformed the output so that it conforms to the head-directionality rule for noun phrases in Indonesian. We called the proposed tree rotation algorithm the headSwap method and the rule for noun phrases as the compound rule. The evaluation shows that our proposed method improved the UAS with a margin of 32.5%.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>