Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 6 dokumen yang sesuai dengan query
cover
Hosseini, Ayat
"The present paper focuses on the section in dictionary entries that gives the word class or part of speech of the headword. It first reviews the previous studies done in the field of lexicography on presenting the word class in dictionaries, then focuses on word class in Japanese, and introduces its major issues. This paper also reports a survey done by the authors to investigate the approach taken by existing bilingual dictionaries to deal with the problems of presenting the word class in Japanese dictionaries. This study analyzes the solutions provided by these dictionaries based on the needs of Japanese language learners. Finally, based on the survey, this paper makes concrete suggestions on how a Japanese learners' bilingual dictionary should present information on the word class of its headwords."
Osaka: Graduate School of Language and Culture, Osaka University, 2019
400 FRO 2 (2019)
Artikel Jurnal  Universitas Indonesia Library
cover
Gabriel Enrique
"Part-of-speech tagging, adalah task di bidang Natural Language Processing di mana setiap kata di dalam suatu kalimat dikategorisasi ke dalam kategori parts-of-speech (kelas kata) yang sesuai. Pengembangan model POS tagger menggunakan pendekatan machine learning membutuhkan dataset dengan ukuran yang besar. Namun, dataset POS tagging tidak selalu tersedia dalam jumlah banyak, seperti dataset POS tagging untuk bahasa Jawa. Dengan jumlah data yang sedikit, model POS tagger yang dilatih kemungkinan tidak akan memiliki performa yang optimal. Salah satu solusinya adalah dengan menggunakan pendekatan cross-lingual transfer learning, di mana model dilatih menggunakan suatu source language pada suatu task agar dapat menyelesaikan task yang sama pada suatu target language. Penelitian ini bertujuan untuk menguji performa pre-trained language model (mBERT, XLM-RoBERTa, IndoBERT) dan melihat pengaruh cross-lingual transfer learning terhadap performa pre-trained language model untuk POS tagging bahasa Jawa. Percobaan yang dilakukan menggunakan lima source language, yaitu bahasa Indonesia, bahasa Inggris, bahasa Uighur, bahasa Latin, dan bahasa Hungaria, serta lima jenis model, yaitu fastText + LSTM, fastText + BiLSTM, mBERT, XLM-RoBERTa, dan IndoBERT; sehingga secara keseluruhan ada total 35 jenis model POS tagger. Model terbaik yang dilatih tanpa pendekatan cross-lingual transfer learning dibangun menggunakan IndoBERT, dengan akurasi sebesar 86.22%. Sedangkan, model terbaik yang dilatih menggunakan pendekatan cross-lingual transfer learning dalam bentuk dua kali fine-tuning, pertama menggunakan source language dan kedua menggunakan bahasa Jawa, sekaligus model terbaik secara keseluruhan dibangun menggunakan XLM-RoBERTa dan bahasa Indonesia sebagai source language, dengan akurasi sebesar 87.65%. Penelitian ini menunjukkan bahwa pendektan cross-lingual transfer learning dalam bentuk dua kali fine-tuning dapat meningkatkan performa model POS tagger bahasa Jawa, dengan peningkatan akurasi sebesar 0.21%–3.95%.

Part-of-speech tagging is a task in the Natural Language Processing field where each word in a sentence is categorized into its respective parts-of-speech categories. The development of POS tagger models using machine learning approaches requires a large dataset. However, POS tagging datasets are not always available in large quantities, such as the POS tagging dataset for Javanese. With a low amount of data, the trained POS tagger model may not have optimal performance. One of the solution to this problem is using the cross-lingual transfer learning approach, where a model is trained using a source language for a task so that it can complete the same task on a target language. This research aims to test the performance of pre-trained language models (mBERT, XLM-RoBERTa, IndoBERT) and to see the effects of cross-lingual transfer learning on the performance of pre-trained language models for Javanese POS tagging. The experiment uses five source languages, which are Indonesian, English, Uyghur, Latin, and Hungarian, as well as five models, which are fastText + LSTM, fastText + BiLSTM, mBERT, XLM-RoBERTa, and IndoBERT; hence there are 35 POS tagger models in total. The best model that was trained without cross-lingual transfer learning approach uses IndoBERT, with an accuracy of 86.22%. While the best model that was trained using a cross-lingual transfer learning approach, implemented using a two fine-tuning process, first using the source language and second using Javanese, as well as the best model overall uses XLM-RoBERTa and Indonesian as the source language, with an accuracy of 87.65%. This research shows that the cross-lingual transfer learning approach, implemented using the two fine-tuning process, can increase the performance of Javanese POS tagger models, with a 0.21%–3.95% increase in accuracy.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Metti Zakaria Wanagiri
"Mesin Penerjemah (MP) adalah sebuah sub-bagian dari computational linguistics yang menggunakan komputer untuk menerjemahkan teks dari sebuah bahasa ke bahasa yang lain. Sementara Mesin Penerjemah Statistik (MPS) adalah sebuah pendekatan MP dimana hasil terjemahan dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus teks dwibahasa (yang paralel). Pada tugas akhir ini, penerjemahan teks Indonesia-Inggris dilakukan dengan menggunakan MPS berdasarkan frase dimana penerjemahan dilakukan dengan menggunakan prinsip penerjemahan berdasarkan frase. Korpus dwibahasa Indonesia-Inggris yang digunakan terdiri dari kategori berita, kitab suci, novel dan percakapan. Jumlah korpus pelatihan yang digunakan adalah 40779 kalimat, yaitu 704 berita, 4025 percakapan, 16050 novel dan 20000 kitab suci. Sementara korpus pengujian yang digunakan adalah 20300 kalimat, yaitu 300 berita, 2000 percakapan, 8000 novel dan 10000 kitab suci. Percobaan penerjemahan ini dilakukan, dievaluasi dan dianalisis dari dua aspek yaitu penggunaan perangkat bahasa tambahan (yang meliputi Part-of-Speech Tagging dan lema) dan n-gram yang digunakan dalam membentuk model bahasa. Hasil percobaan yang didapat adalah nilai akurasi tertinggi dicapai oleh penerjemahan korpus dwibahasa biasa (tidak menggunakan Part-of-Speech Tagging maupun lema) pada kategori novel dengan menggunakan model bahasa 5-gram, yaitu 0,2696.

Machine Translation (MT) is a sub-field of computational linguistics that uses a computer to translate text or speech from one natural language to another. Meanwhile Statistical Machine Translation (SMT) is a paradigm of MT where translations are generated on the basis of statistical models whose parameters are derived from the analysis of bilingual text corpora (parallel). The Indonesian-English text translation is done using a phrase-based SMT in which the translation is carried out using phrase-based Translation. We use Indonesian and English bilingual corpora which consists of news, holy writings, fiction and daily conversation categories. We use training corpus of 40779 sentences which are 704 for news, 4025 for conversation, 16050 for fiction and 20000 for holy writings. Meanwhile the testing corpus consists of 20300 sentences which are 300 for news, 2000 for conversation, 8000 for fiction and 10000 for holy writings. Experiments have been done, evaluated and analyzed regarding two aspects, namely the use of factored-models (Part-of-Speech Tagging and lemma) and number of n-gram for generating the language model. In this thesis, we found that the translations of default bilingual corpora (without Part-of-Speech Tagging and lemma) for fiction category using 5-gram language model yield the highest accuracy of 0.2696."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Triastuti Chandrawati
"Part of Speech Tagging (POS Tagging) adalah kegiatan pemberian label kelas kata pada suatu kata. Proses ini pada awalnya dilakukan secara manual. Namun proses part of speech tagging secara manual menghabiskan banyak waktu dan tenaga karena membutuhkan banyak ahli bahasa untuk memberikan tag pada setiap kata. Masalah ini kemudian menjadi pendorong bagi para peneliti untuk membangun metode dan aplikasi yang dapat melakukan part of speech tagging secara otomatis. Penelitian di bidang part of speech tagger untuk Bahasa Indonesia belum terlalu mendapat perhatian, karena sampai saat ini. belum ada suatu aplikasi part of speech tagger untuk Bahasa Indonesia. Maka penulis melakukan penelitian untuk menghasilkan suatu aplikasi part of speech tagger untuk Bahasa Indonesia dengan memanfaatkan tiga metode yaitu Conditional Random Fields, Transformation Based Learning, dan kombinasi kedua metode ini. Penelitian ini menggunakan korpus Bahasa Indonesia yang tersusun atas 49 buah artikel surat kabar dan terdiri atas total 13.465 buah token. Tagset yang digunakan pada penelitian ini terdiri atas 21 jenis tag (21 jenis kelas kata). Tagset ini merupakan modifikasi dari Penn Treebank Tagset."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Kevin Ahmad Faisal
"Grammatical Error Correction (GEC) merupakan salah satu topik yang menarik dalam penelitian Natural Language Processing (NLP). Sudah banyak penelitian mengenai GEC untuk bahasa universal seperti Inggris dan Cina, namun sedikit penelitian mengenai GEC untuk bahasa Indonesia. Pada penelitian ini penulis mengembangkan framework GEC untuk memperbaiki kesalahan 10 jenis Part of Speech (POS) bahasa Indonesia dengan arsitektur Gated Recurrent Unit (GRU). Dataset yang digunakan adalah Indonesian POS Tagged Corpus yang disusun oleh Ruli Manurung dari Universitas Indonesia. Hasil penelitian ini berhasil memberikan rata-rata Macro-Average F0.5 Score sebesar 0.4882 dan meningkatkan kecepatan prediksi sebesar 30.1%.

Grammatical Error Correction (GEC) is one of the exciting topics in Natural Language Processing (NLP) research. There have been many studies on GEC for universal languages such as English and Chinese, but little research on GEC for indonesian. In this study, the authors developed a GEC framework to correct ten Indonesian Part of Speech (POS) errors with the Gated Recurrent Unit (GRU) architecture. The dataset used is the Indonesian POS Tagged Corpus compiled by Ruli Manurung from the University of Indonesia. The results of this study succeeded in providing an average Macro-Average F0.5 Score of 0.4882 and increase prediction time by 30.1% "
Depok: Fakultas Teknik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yogi Lesmana Sulestio
"Penelitian Part-of-Speech tagger (POS tagger) untuk bahasa Indonesia telah banyak dikembangkan. Sayangnya, sejauh ini baru Polyglot yang menggunakan POS tag menurut pedoman anotasi Universal Dependencies (UD). Namun, Polyglot sendiri masih mempunyai kekurangan karena belum dapat mengatasi klitik dan kata ulang yang terdapat dalam bahasa Indonesia. Tujuan penelitian ini adalah mengembangkan POS tagger untuk bahasa Indonesia yang tidak hanya sesuai dengan ketentuan anotasi UD, tapi juga sudah mengatasi kekurangan Polyglot. POS tagger ini akan dikembangkan dengan metode deep learning menggunakan arsitektur yang merupakan versi modifikasi dari Recurrent Neural Network (RNN), yaitu Bidirectional Long Short-Term Memory (Bi-LSTM). Dataset yang digunakan untuk mengembangkan POS tagger adalah sebuah dependency treebank bahasa Indonesia yang terdiri dari 1.000 kalimat dan 19.401 token. Hasil eksperimen dengan menggunakan Polyglot sebagai pembanding menunjukkan bahwa POS tagger yang dikembangkan lebih baik dengan tingkat akurasi POS tagging yang meningkat sebesar 6,69% dari 84,82% menjadi 91,51%.

There have been many studies that have developed Part-of-Speech tagger (POS tagger) for Indonesian language. Unfortunately, so far only Polyglot that has used POS tag according to Universal Dependencies (UD) annotation guidelines. However, Polyglot itself still has shortcomings since it has not been able to overcome clitics and reduplicated words in Indonesian language. The purpose of this study is to develop POS tagger for Indonesian language which is not only in accordance with UD annotation guidelines, but also has overcome Polyglot’s shortcomings. This POS tagger will be developed under deep learning method by using modified version of Recurrent Neural Network (RNN) architecture, Bidirectional Long Short-Term Memory (Bi-LSTM). The dataset used to develop POS tagger is an Indonesian dependency treebank consisting of 1.000 sentences and 19.401 tokens. Result of experiment using Polyglot as baseline shows that the developed POS tagger is better. This is indicated by increased accuracy POS tagging by 6,69% from 84,82% to 91,51%."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library