Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query

Rico Tadjudin

Gramatika: Dataset Sintetik untuk Grammatical Error Correction Bahasa Indonesia = Gramatika: A Synthetic Dataset for Indonesian Grammatical Error Correction

Grammatical Error Correction (GEC) merupakan bagian dari Natural Language Processing yang membahas suatu task untuk mendeteksi dan setelahnya mengoreksi suatu teks. Pekerjaan tersebut mencakup pendeteksian dan pengoreksian kesalahan tata bahasa, kesalahan ortografi, dan semantik. Perkembangan GEC untuk bahasa Indonesia terkendala oleh sedikitnya dataset yang dapat digunakan untuk melatih model GEC. Penelitian ini mengusulkan pendekatan rule-based untuk membangun sebuah dataset sintetik yang mengandung kalimat salah secara tata bahasa baku bahasa Indonesia beserta koreksinya. Hal tersebut dapat dilakukan dengan memanfaatkan kamus tesaurus bahasa Indonesia dan alat bantuan NLP seperti tokenizer, part-of-speech tagger, morphological analyzer, dan dependency parser untuk mengekstrak informasi konteks dari kalimat. Kumpulan data sintetik dibangkitkan dengan menggunakan kalimat yang benar secara tata bahasa dari halaman0halaman situs Wikipedia sebagai kalimat input. Dataset ini menyediakan data dalam dua format yang berbeda, yaitu dalam format M2 dan dalam bentuk pasangan kalimat salah dan benar. Pembangkitan kesalahan tata bahasa akan memiliki 17 kemungkinan jenis kesalahan tata bahasa yang berbeda dengan total 16.898 kalimat salah yang dibentuk. Pengujian Gramatika dilakukan dengan melakukan evaluasi secara manual mengenai ketepatan pembangkitan tiap kesalahan pada kalimat. Pengujian manual dilakukan dengan melakukan stratified random sampling untuk mengambil sampel 100 kalimat. Sampel tersebut minimal memiliki 5 contoh untuk setiap jenis kesalahan tata bahasa. Dari pengevaluasian yang dilalukan oleh dua penguji, didapatkan nilai accuracy sebesar 91,1%.

Grammatical Error Correction (GEC) is a part of Natural Language Processing which deals with the task of detecting and correcting a text. This includes correcting grammatical errors, semantic errors, and orthographic errors. GEC development in Indonesian language has been hindered by the lack of suitable dataset that can be used to train GEC models. This research proposes a rule-based approach to develop a synthetic dataset that contains sentences in Indonesian with grammar errors and its corresponding corrections. It’s done with the help of dictionaries such as Indonesian thesaurus and NLP tools such as a tokenizer, part of speech tagger, morphological analyzer, and dependency parser to extract contextual information of sentences. The synthetic dataset is generated by using grammatically correct sentences from Wikipedia pages as the input. The resulting dataset is formatted to M2 format and pairs of correct and false sentences, containing 17 types of errors with a total of 16.898 sentences. The evaluation of Gramatika is done by manually assessing the accuracy of the sentence modifications. To do this, stratified random sampling is conducted to select 100 sentences with a minimum of 5 examples for each error type. From the manual evaluation by two evaluators, an average accuracy score of 91.1% is obtained.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Michael Felix Haryono

Gramatika: Dataset Sintetik untuk Grammatical Error Correction Bahasa Indonesia = Gramatika: A Synthetic Dataset for Indonesian Grammatical Error Correction

"Grammatical Error Correction (GEC) merupakan bagian dari Natural Language Processing yang membahas suatu task untuk mendeteksi dan setelahnya mengoreksi suatu teks. Pekerjaan tersebut mencakup pendeteksian dan pengoreksian kesalahan tata bahasa, kesalahan ortografi, dan semantik. Perkembangan GEC untuk bahasa Indonesia terkendala oleh sedikitnya dataset yang dapat digunakan untuk melatih model GEC. Penelitian ini mengusulkan pendekatan rule-based untuk membangun sebuah dataset sintetik yang mengandung kalimat salah secara tata bahasa baku bahasa Indonesia beserta koreksinya. Hal tersebut dapat dilakukan dengan memanfaatkan kamus tesaurus bahasa Indonesia dan alat bantuan NLP seperti tokenizer, part-of-speech tagger, morphological analyzer, dan dependency parser untuk mengekstrak informasi konteks dari kalimat. Kumpulan data sintetik dibangkitkan dengan menggunakan kalimat yang benar secara tata bahasa dari halaman0halaman situs Wikipedia sebagai kalimat input. Dataset ini menyediakan data dalam dua format yang berbeda, yaitu dalam format M2 dan dalam bentuk pasangan kalimat salah dan benar. Pembangkitan kesalahan tata bahasa akan memiliki 17 kemungkinan jenis kesalahan tata bahasa yang berbeda dengan total 16.898 kalimat salah yang dibentuk. Pengujian Gramatika dilakukan dengan melakukan evaluasi secara manual mengenai ketepatan pembangkitan tiap kesalahan pada kalimat. Pengujian manual dilakukan dengan melakukan stratified random sampling untuk mengambil sampel 100 kalimat. Sampel tersebut minimal memiliki 5 contoh untuk setiap jenis kesalahan tata bahasa. Dari pengevaluasian yang dilalukan oleh dua penguji, didapatkan nilai accuracy sebesar 91,1%.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Mirsa Salsabila

Perbandingan Metode Grammatical Error Correction antara T5 dan GECToR = Comparison of Grammatical Error Correction Methods between T5 and GECToR

"Grammatical Error Correction (GEC) adalah salah satu task Natural Language Processing (NLP) yang mendeteksi dan mengoreksi kesalahan tata bahasa dalam sebuah teks. Task ini terus berkembang sampai saat ini dan telah diterapkan menggunakan berbagai metode, seperti rule-based, machine learning-based, dan sebagainya. Tugas akhir ini bertujuan membandingkan dua metode state-of-the-art Grammatical Error Correction yaitu metode T5 dan GECToR menggunakan dataset bahasa Inggris dan bahasa Indonesia. Untuk metode T5, akan dibandingkan model Flan-T5 dan mT5 dengan variasi ukuran base dan large. Adapun model yang dibandingkan untuk metode GECToR adalah model RoBERTa dan XLNet dengan variasi ukuran base dan large. Untuk dataset bahasa Inggris, akan digunakan dataset FCE untuk training dan dataset CoNLL-14 untuk testing. Sedangkan untuk dataset bahasa Indonesia, akan digunakan dataset Gramatika. Kemudian, untuk evaluasi digunakan metrik F0.5. Berdasarkan hasil uji coba, didapatkan bahwa untuk dataset bahasa Inggris FCE+CoNLL-14, metode T5 dengan varian model Flan-T5 unggul dari kedua varian metode GECToR dengan skor F0.5 sebesar 52,85%. Varian Flan-T5 ini unggul dengan margin sebesar 15,83% dari varian terbaik metode GECToR, yaitu RoBERTa. Sedangkan, metode GECToR dengan varian RoBERTa lebih unggul dengan margin 10,12% dari metode T5 dengan varian model mT5. Untuk dataset bahasa Indonesia Gramatika, kedua varian metode T5 lebih unggul dari metode GECToR. Varian terbaik metode T5 dengan skor F0.5 sebesar 45,38% dengan margin 31,05% dari varian terbaik metode GECToR, yaitu RoBERTa.

Grammatical Error Correction (GEC) is one of the Natural Language Processing (NLP) tasks that detect and correct grammatical errors in a text. This task continues to grow today and has been implemented using various methods, such as rule-based, machine learning-based, and so on. This final project aims to compare two state-of-the-art Grammatical Error Correction methods, namely the T5 and GECToR methods using English and Indonesian datasets. For the T5 method, Flan-T5 and mT5 models will be compared with base and large size variations. As for the GECToR method, RoBERTa and XLNet models will be compared with base and large size variations. For the English dataset, the FCE dataset will be used for training and the CoNLL-14 dataset for testing. As for the Indonesian dataset, the Grammatical dataset will be used. Then, the F0.5 metric is used for evaluation. Based on the experimental results, it is found that for the FCE+CoNLL-14 English dataset, the T5 method with the Flan-T5 model variant is superior to both variants of the GECToR method with an F0.5 score of 52.85%. The Flan-T5 variant is superior by a margin of 15.83% to the best variant of the GECToR method, RoBERTa. Meanwhile, the GECToR method with the RoBERTa variant is superior by a margin of 10.12% to the T5 method with the mT5 model variant. For the Indonesian Grammatical dataset, both variants of the T5 method are superior to the GECToR method. The best variant of the T5 method with an F0.5 score of 45.38% with a margin of 31.05% from the best variant of the GECToR method, which is RoBERTa."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Napitupulu, Jeremy Victor Andre

Perbandingan Metode Grammatical Error Correction antara T5 dan GECToR = Comparison of Grammatical Error Correction Methods between T5 and GECToR

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Kevin Ahmad Faisal

Pengembangan Framework Grammar Error Correction Bahasa Indonesia Menggunakan Gated Recurrent Unit = Development of Indonesian Grammar Error Correction Framework Using Gated Recurrent Unit

"Grammatical Error Correction (GEC) merupakan salah satu topik yang menarik dalam penelitian Natural Language Processing (NLP). Sudah banyak penelitian mengenai GEC untuk bahasa universal seperti Inggris dan Cina, namun sedikit penelitian mengenai GEC untuk bahasa Indonesia. Pada penelitian ini penulis mengembangkan framework GEC untuk memperbaiki kesalahan 10 jenis Part of Speech (POS) bahasa Indonesia dengan arsitektur Gated Recurrent Unit (GRU). Dataset yang digunakan adalah Indonesian POS Tagged Corpus yang disusun oleh Ruli Manurung dari Universitas Indonesia. Hasil penelitian ini berhasil memberikan rata-rata Macro-Average F0.5 Score sebesar 0.4882 dan meningkatkan kecepatan prediksi sebesar 30.1%.

Grammatical Error Correction (GEC) is one of the exciting topics in Natural Language Processing (NLP) research. There have been many studies on GEC for universal languages such as English and Chinese, but little research on GEC for indonesian. In this study, the authors developed a GEC framework to correct ten Indonesian Part of Speech (POS) errors with the Gated Recurrent Unit (GRU) architecture. The dataset used is the Indonesian POS Tagged Corpus compiled by Ruli Manurung from the University of Indonesia. The results of this study succeeded in providing an average Macro-Average F0.5 Score of 0.4882 and increase prediction time by 30.1% "

Depok: Fakultas Teknik Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian