Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 3 dokumen yang sesuai dengan query
cover
Erica Harlin
Abstrak :
Aksara adalah sebuah NLP tool yang menuruti Universal Dependencies (UD) v2. Penelitian terakhir terkait pemrosesan bahasa informal pada Aksara adalah v1.2 yang berfokus pada kemampuan Aksara untuk memproses kata-kata dasar informal dan kata-kata dengan afiksasi informal. Penelitian ini bertujuan untuk mengembangkan kemampuan Aksara dalam memproses noisy text. Dalam penelitian ini, terdapat 5 metode yang dipertimbangkan untuk menormalisasikan noisy text, yaitu: Levenshtein distance, Damerau-Levenshtein distance, perbandingan subsequence, longest common subsequence (LCS), dan SymSpell. Untuk menentukan metode mana yang paling cocok, kami membangun dataset sintetis berukuran 20.000 kata, lalu mengukur dan membandingkan performa metode yang satu dengan yang lain dalam menormalisasikan dataset sintetis tersebut. Metode yang akhirnya dipilih adalah SymSpell karena metode ini yang menghasilkan akurasi yang paling tinggi. Versi Aksara yang dihasilkan oleh penelitian ini adalah Aksara v1.4 (Aksara baru). Untuk mengevaluasi Aksara baru, dipakai gold standard yang terdiri dari 152 kalimat dan 1786 token. Hasil evaluasi menunjukkan lemmatizer Aksara baru memiliki akurasi senilai 90.99% dan 91.66% untuk kasus case-sensitive dan case-insensitive. Untuk POS tagger, Aksara baru memiliki akurasi senilai 83%, recall senilai 83%, dan F1 score senilai 83%. ...... Aksara is an Indonesian NLP tool that conforms to Universal Dependencies (UD) v2. The latest work on Aksara pertaining to its informal language processing ability is Aksara v1.2, which is focused on Aksara’s ability to process informal root words and words with informal affixation. This work aims to enable Aksara to process noisy texts. In this research, there are 5 methods considered for normalizing noisy texts: Levenshtein distance, Damerau-Levenshtein distance, subsequence comparison, longest common subsequence (LCS), and SymSpell. To determine which method is best suited for this purpose, we built a synthetic dataset of 20,000 words, then measured and compared each method’s performance in normalizing the synthetic data. The chosen method is SymSpell as it yields the highest accuracy. This chosen method along with a context dictionary will be integrated into Aksara as a text normalizer. To evaluate new Aksara’s performance, a gold standard consisting of 152 sentences and 1786 tokens is used. The evaluation result shows that the new Aksara’s lemmatizer has an accuracy of 90.99% and 91.61% for case-sensitive and case-insensitive cases. For POS tagger, the new Aksara has an accuracy of 83%, a recall of 83%, and an F1 score of 83%.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gloria Alfa
Abstrak :
Skripsi ini membahas afiks-afiks bahasa Indonesia yang muncul dalam Friendster berbahasa Indonesia. Ternyata ragam bahasa informal yang digunakan dalam Friendster berpengaruh terhadap perilaku afiks-afiks yang muncul. Dengan demikian, penelitian ini juga memberikan deskripsi tentang perilaku-perilaku afiks yang muncul dalam Friendster sebagai salah satu sumber bahasa Indonesia ragam informal, yaitu dari segi jenis, frekuensi, kombinasi bentuk serta bentuk dasar. Dari perilaku-perilaku yang telah dideskripsikan, ditemukan beberapa persamaan dan perbedaan dengan deskripsi perilaku-perilaku afiks yang sudah dijelaskan dalam buku-buku tata bahasa Indonesia.
This thesis is about Indonesian affixes which appear on Friendster with Indonesian. Indeed the informal language used on Friendster has impacts on the behaviors of the affixes. Hence, this project also describes the behaviors the affixes which appear on Friendster as one of the sources of Indonesian informal language, especially from the aspects of types, frequency, functions, type?s combinations and roots. From the described behaviors, some similarities and differences are found by comparing these behaviors with the ones already explained on Indonesian grammatical textbooks.
Depok: Fakultas Ilmu Pengetahuan dan Budaya Universitas Indonesia, 2009
S10985
UI - Skripsi Open  Universitas Indonesia Library
cover
Muhammad Salman Al-Farisi
Abstrak :
Penelitian ini bertujuan untuk meningkatkan kemampuan morphological analyzer pada Aksara agar dapat melakukan pemrosesan bahasa Indonesia informal. Metode yang digunakan pada Aksara adalah rule-based menggunakan nite-state trans- ducer dengan compiler bernama Foma. Adapun komponen yang ditingkatkan adalah komponen tokenizer, lemmatizer, dan POS tagger. Untuk menguji peneli- tian ini, dibuatlah sebuah gold standard yang terdiri dari 102 kalimat dengan 1434 token. Hasil pengujian memperlihatkan bahwa penelitian ini berhasil memiliki pen- ingkatan akurasi tokenisasi sebesar 4.6% dari Aksara v1.1. Untuk tahapan lemati- sasi pada kasus case sensitive terjadi peningkatan akurasi sebesar 11.82%. Evaluasi POS tagging juga berhasil mengalami peningkatan pada nilai F1-Score sebesar 14% dibandingkan dengan Aksara v1.1. ......This study aims to improve the ability of the morphological analyzer in Aksara in order to be able to process the informal Indonesian. The method used in Aksara is rule-based, using a nite-state transducer with a compiler named Foma. The components that are being improved are tokenizer, lemmatizer, and POS tagger components. To test this research, a gold standard was created; It consists of 102 sentences with 1434 tokens. The test results show that this study has an increase in tokenization accuracy of 4.6% compared to Aksara v1.1. For the lematization stage in the case of case-sensitive word, there is an increase in accuracy of 11.82%. The POS tagging evaluation also increased its F1-Score value by 14% compared to Aksara v1.1.
Depok: 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library