Hasil Pencarian

Ditemukan 3 dokumen yang sesuai dengan query

Muhammad Salman Al-Farisi

Pengembangan morphological analyzer bahasa Indonesia informal menggunakan Finite-State Transducer (FST) = Development of informal Indonesian morphological analyzer using Finite-State Transducer (FST)

"Penelitian ini bertujuan untuk meningkatkan kemampuan morphological analyzer pada Aksara agar dapat melakukan pemrosesan bahasa Indonesia informal. Metode yang digunakan pada Aksara adalah rule-based menggunakan nite-state trans- ducer dengan compiler bernama Foma. Adapun komponen yang ditingkatkan adalah komponen tokenizer, lemmatizer, dan POS tagger. Untuk menguji peneli- tian ini, dibuatlah sebuah gold standard yang terdiri dari 102 kalimat dengan 1434 token. Hasil pengujian memperlihatkan bahwa penelitian ini berhasil memiliki pen- ingkatan akurasi tokenisasi sebesar 4.6% dari Aksara v1.1. Untuk tahapan lemati- sasi pada kasus case sensitive terjadi peningkatan akurasi sebesar 11.82%. Evaluasi POS tagging juga berhasil mengalami peningkatan pada nilai F1-Score sebesar 14% dibandingkan dengan Aksara v1.1.

This study aims to improve the ability of the morphological analyzer in Aksara in order to be able to process the informal Indonesian. The method used in Aksara is rule-based, using a nite-state transducer with a compiler named Foma. The components that are being improved are tokenizer, lemmatizer, and POS tagger components. To test this research, a gold standard was created; It consists of 102 sentences with 1434 tokens. The test results show that this study has an increase in tokenization accuracy of 4.6% compared to Aksara v1.1. For the lematization stage in the case of case-sensitive word, there is an increase in accuracy of 11.82%. The POS tagging evaluation also increased its F1-Score value by 14% compared to Aksara v1.1."

Depok: 2022

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Yogi Lesmana Sulestio

Pengembangan universal part-of-speech tagger untuk bahasa Indonesia menggunakan bidirectional long short-term memory = Development of universal part-of-speech tagger for Indonesian language using bidirectional long short-term memory.

"Penelitian Part-of-Speech tagger (POS tagger) untuk bahasa Indonesia telah banyak dikembangkan. Sayangnya, sejauh ini baru Polyglot yang menggunakan POS tag menurut pedoman anotasi Universal Dependencies (UD). Namun, Polyglot sendiri masih mempunyai kekurangan karena belum dapat mengatasi klitik dan kata ulang yang terdapat dalam bahasa Indonesia. Tujuan penelitian ini adalah mengembangkan POS tagger untuk bahasa Indonesia yang tidak hanya sesuai dengan ketentuan anotasi UD, tapi juga sudah mengatasi kekurangan Polyglot. POS tagger ini akan dikembangkan dengan metode deep learning menggunakan arsitektur yang merupakan versi modifikasi dari Recurrent Neural Network (RNN), yaitu Bidirectional Long Short-Term Memory (Bi-LSTM). Dataset yang digunakan untuk mengembangkan POS tagger adalah sebuah dependency treebank bahasa Indonesia yang terdiri dari 1.000 kalimat dan 19.401 token. Hasil eksperimen dengan menggunakan Polyglot sebagai pembanding menunjukkan bahwa POS tagger yang dikembangkan lebih baik dengan tingkat akurasi POS tagging yang meningkat sebesar 6,69% dari 84,82% menjadi 91,51%.

There have been many studies that have developed Part-of-Speech tagger (POS tagger) for Indonesian language. Unfortunately, so far only Polyglot that has used POS tag according to Universal Dependencies (UD) annotation guidelines. However, Polyglot itself still has shortcomings since it has not been able to overcome clitics and reduplicated words in Indonesian language. The purpose of this study is to develop POS tagger for Indonesian language which is not only in accordance with UD annotation guidelines, but also has overcome Polyglot’s shortcomings. This POS tagger will be developed under deep learning method by using modified version of Recurrent Neural Network (RNN) architecture, Bidirectional Long Short-Term Memory (Bi-LSTM). The dataset used to develop POS tagger is an Indonesian dependency treebank consisting of 1.000 sentences and 19.401 tokens. Result of experiment using Polyglot as baseline shows that the developed POS tagger is better. This is indicated by increased accuracy POS tagging by 6,69% from 84,82% to 91,51%."

Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Muhammad Yudistira Hanifmuti

Pengembangan tokenizer dan morphological analyzer universal untuk Bahasa Indonesia menggunakan Finite-State Transducer = Building universal tokenizer and morphological analyzer for Indonesian Language with Finite-State Transducer

"Morphological analyzer merupakan sebuah alat yang digunakan untuk melihat bagaimana proses pembentukan kata, menentukan kata dasar pembentuk, dan menge- tahui informasi linguistik yang terkandung pada suatu kata. Universal Dependencies (UD) merupakan sebuah framework acuan yang digunakan pada proses anotasi morfologi untuk berbagai bahasa. Sayangnya, belum ditemukan morphological analyzer untuk bahasa Indonesia yang menerapkan pedoman UD ini. Penelitian ini mengembangkan morphological analyzer untuk bahasa Indonesia yang diberi nama Aksara. Aksara dibangun menggunakan finite state compiler bernama Foma yang digunakan pada Mor- phind, morphological analyzer pada penelitian sebelumnya. Foma dapat memodelkan aturan-aturan pembentukan kata dalam bentuk finite state transducer. Pada Aksara juga dikembangkan tokenizer yang hasilnya menyesuaikan dengan hasil tokenisasi pada treebank UD. Implementasi Aksara menerapkan pedoman UD versi terbaru yaitu UDv2. Pengujian Aksara dilakukan dengan membandingkan performa Aksara dengan Morhpind. Hasil pengujian menunjukkan bahwa komponen tokenizer Aksara berhasil memiliki akurasi tokenisasi sebesar 96.60%, meningkat 23.89% dari akurasi tokenisasi oleh Mor- phind. Evaluasi POS tagging Aksara juga berhasil melewati hasil pemetaan Morphind dengan akurasi F1-score sebesar 87%, dengan kenaikan relatif sebesar 18% dari baseline.

Morphological analyzer is a tool used to do an analysis on word formation process, to identify the lemma for each word, and to do an analysis on the linguistic information. Universal Dependencies (UD) is a framework commonly used in morphological annota- tion process. Unfortunately, there is not a single Indonesian morphological analyzer that applies UDv2. This research is a development of morphological analyzer for Indonesian language named Aksara. Aksara was build using finite state compiler named Foma, which was used in Morphind, the previous research on Indonesian morphological analyzer. Foma can model the rules of word formation which is represented in the form of finite state transducer. This research also develops a tokenizer which its results are adjusted to the tokenization example on UD treebank. The Aksara implementation applies the latest UD guidelines, UDv2. Testing of Aksara is done by comparing the performance of Aksara with Morphind. The test results show that the tokenizer component of Aksara managed to have a tokenization accuracy of 96.60%, an increase of 23.89% from the accuracy of tokenization by Morphind. Evaluation of POS tagging with Aksara also managed to pass Morphind with an accuracy of F1-score of 87%, with a relative increase of 18% from the accuracy of Morphind."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian