Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 18 dokumen yang sesuai dengan query
cover
Khaflidotun Muslikhah
2012
LP-pdf
UI - Laporan Penelitian  Universitas Indonesia Library
cover
Andhika Yusup Maulana
"

Tujuan dari penelitian ini adalah membangun dependency parser untuk Bahasa Indonesia menggunakan pendekatan cross-lingual transfer learning. Sebagai source language dipilih empat bahasa, yaitu Bahasa Perancis, Bahasa Italia, Bahasa Slovenia, dan Bahasa Inggris. Dependency parser dibangun menggunakan transformer (self-attention encoder) sebagai encoder layer dan deep biaffine decoder sebagai decoder layer. Pendekatan transfer learning dengan fine-tuning mampu meningkatkan performa model dependency parser untuk Bahasa Indonesia dengan margin yang paling tinggi yaitu 4.31% untuk UAS dan 4.46% untuk LAS dibandingkan dengan pendekatan training from scratch.


The objective of this research is to build a dependency parser for Indonesian using cross-lingual transfer learning. As the source language, chosen four languages: French, Italian, Slovenian, and English. The dependency parser is built using a transformer (self-attention encoder) as the encoder layer and a deep biaffine decoder as the decoder layer. The transfer learning approach with fine-tuning can improve the performance of the dependency parser model for Indonesian with the highest margin of 4.31% for UAS and 4.46% for LAS compared to the training from scratch approach.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Dewangga Wisnu
"Di seluruh dunia, usaha mikro, kecil dan menengah (UMKM) memainkan peran signifikan dalam menguatkan perekonomian nasional. Namun, di masa depan persaingan antara UMKM dengan perusahaan besar akan semakin ketat. Untuk itu, UMKM harus tumbuh dan berkembang serta mempunyai keunggulan kompetitif. Keunggulan kompetitif dapat dicapai jika perusahaan berhasil meningkatkan kinerja dan kemampuannya dalam berinovasi. Organisasi yang dapat mengenali dan mengembangkan strategi manajemen pengetahuan untuk meningkatkan pengetahuan baru maupun yang sudah ada, pasti organisasi tersebut akan mendapatkan keunggulan kompetitif.
Penelitian ini bertujuan untuk menganalisis hubungan antara strategi manajemen pengetahuan terhadap inovasi dan kinerja. Data dikumpulkan dengan menyebarkan kuesioner penelitian ke 1723 calon responden dan diperoleh data sebanyak 206 dari hasil pengiriman kuesioner. Metode yang digunakan untuk menganalisis data adalah metode statistik dengan teknik multivariate Structural Equation Modeling (SEM) menggunakan aplikasi LISREL 8.8.
Hasil penelitian ini menunjukkan adanya hubungan langsung antara strategi manejemn pengetahuan dengan inovasi dan kinerja, serta hubungan langsung antara inovasi dengan kinerja pada UMKM. Selain itu, penelitian ini juga membuktikan adanya hubungan tidak langsung dari strategi manajemen pengetahuan kodifikasi dan personalisasi dengan kinerja melalui peningkatan inovasi.

Micro, small, and medium enterprises (MSMEs) play a significant role in strengthening the national economy in a worldwide scale. However, in the near future the competition between MSMEs and corporation will be more intense than ever. Therefore, MSMEs need to grow and develop competitive advantages. These advantages could be achieved if the organizations succeed to improve its performance and ability to innovate. Organization that managed to identify and develop its knowledge management strategy in order to gain both new and existing knowledge, will surely gain a competitive advantages.
This research aims to analyze the relationship between knowledge management strategy towards innovation and performance. Data were collected by distributing questionnaires to 1723 potential respondents and 206 of them were obtained as respondents. The method used to analyze the data is multivariate Structural Equation Modeling (SEM) using LISREL 8.8.
The result of this study showed that direct connection, between knowledge management strategy and innovation does exist. It also showed the existence of direct connections between knowledge management strategy and performance, as well as direct connection between innovation and performance. Lastly, it also proved that indirect connection between knowledge management strategy codification and personalization towards performances exist through improvement of innovation.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yogi Lesmana Sulestio
"Penelitian Part-of-Speech tagger (POS tagger) untuk bahasa Indonesia telah banyak dikembangkan. Sayangnya, sejauh ini baru Polyglot yang menggunakan POS tag menurut pedoman anotasi Universal Dependencies (UD). Namun, Polyglot sendiri masih mempunyai kekurangan karena belum dapat mengatasi klitik dan kata ulang yang terdapat dalam bahasa Indonesia. Tujuan penelitian ini adalah mengembangkan POS tagger untuk bahasa Indonesia yang tidak hanya sesuai dengan ketentuan anotasi UD, tapi juga sudah mengatasi kekurangan Polyglot. POS tagger ini akan dikembangkan dengan metode deep learning menggunakan arsitektur yang merupakan versi modifikasi dari Recurrent Neural Network (RNN), yaitu Bidirectional Long Short-Term Memory (Bi-LSTM). Dataset yang digunakan untuk mengembangkan POS tagger adalah sebuah dependency treebank bahasa Indonesia yang terdiri dari 1.000 kalimat dan 19.401 token. Hasil eksperimen dengan menggunakan Polyglot sebagai pembanding menunjukkan bahwa POS tagger yang dikembangkan lebih baik dengan tingkat akurasi POS tagging yang meningkat sebesar 6,69% dari 84,82% menjadi 91,51%.

There have been many studies that have developed Part-of-Speech tagger (POS tagger) for Indonesian language. Unfortunately, so far only Polyglot that has used POS tag according to Universal Dependencies (UD) annotation guidelines. However, Polyglot itself still has shortcomings since it has not been able to overcome clitics and reduplicated words in Indonesian language. The purpose of this study is to develop POS tagger for Indonesian language which is not only in accordance with UD annotation guidelines, but also has overcome Polyglot’s shortcomings. This POS tagger will be developed under deep learning method by using modified version of Recurrent Neural Network (RNN) architecture, Bidirectional Long Short-Term Memory (Bi-LSTM). The dataset used to develop POS tagger is an Indonesian dependency treebank consisting of 1.000 sentences and 19.401 tokens. Result of experiment using Polyglot as baseline shows that the developed POS tagger is better. This is indicated by increased accuracy POS tagging by 6,69% from 84,82% to 91,51%."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Rico Tadjudin
"

Grammatical Error Correction (GEC) merupakan bagian dari Natural Language Processing yang membahas suatu task untuk mendeteksi dan setelahnya mengoreksi suatu teks. Pekerjaan tersebut mencakup pendeteksian dan pengoreksian kesalahan tata bahasa, kesalahan ortografi, dan semantik. Perkembangan GEC untuk bahasa Indonesia terkendala oleh sedikitnya dataset yang dapat digunakan untuk melatih model GEC. Penelitian ini mengusulkan pendekatan rule-based untuk membangun sebuah dataset sintetik yang mengandung kalimat salah secara tata bahasa baku bahasa Indonesia beserta koreksinya. Hal tersebut dapat dilakukan dengan memanfaatkan kamus tesaurus bahasa Indonesia dan alat bantuan NLP seperti tokenizer, part-of-speech tagger, morphological analyzer, dan dependency parser untuk mengekstrak informasi konteks dari kalimat. Kumpulan data sintetik dibangkitkan dengan menggunakan kalimat yang benar secara tata bahasa dari halaman0halaman situs Wikipedia sebagai kalimat input. Dataset ini menyediakan data dalam dua format yang berbeda, yaitu dalam format M2 dan dalam bentuk pasangan kalimat salah dan benar. Pembangkitan kesalahan tata bahasa akan memiliki 17 kemungkinan jenis kesalahan tata bahasa yang berbeda dengan total 16.898 kalimat salah yang dibentuk. Pengujian Gramatika dilakukan dengan melakukan evaluasi secara manual mengenai ketepatan pembangkitan tiap kesalahan pada kalimat. Pengujian manual dilakukan dengan melakukan stratified random sampling untuk mengambil sampel 100 kalimat. Sampel tersebut minimal memiliki 5 contoh untuk setiap jenis kesalahan tata bahasa. Dari pengevaluasian yang dilalukan oleh dua penguji, didapatkan nilai accuracy sebesar 91,1%.


Grammatical Error Correction (GEC) is a part of Natural Language Processing which deals with the task of detecting and correcting a text. This includes correcting grammatical errors, semantic errors, and orthographic errors. GEC development in Indonesian language has been hindered by the lack of suitable dataset that can be used to train GEC models. This research proposes a rule-based approach to develop a synthetic dataset that contains sentences in Indonesian with grammar errors and its corresponding corrections. It’s done with the help of dictionaries such as Indonesian thesaurus and NLP tools such as a tokenizer, part of speech tagger, morphological analyzer, and dependency parser to extract contextual information of sentences. The synthetic dataset is generated by using grammatically correct sentences from Wikipedia pages as the input. The resulting dataset is formatted to M2 format and pairs of correct and false sentences, containing 17 types of errors with a total of 16.898 sentences. The evaluation of Gramatika is done by manually assessing the accuracy of the sentence modifications. To do this, stratified random sampling is conducted to select 100 sentences with a minimum of 5 examples for each error type. From the manual evaluation by two evaluators, an average accuracy score of 91.1% is obtained.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Michael Felix Haryono
"Grammatical Error Correction (GEC) merupakan bagian dari Natural Language Processing yang membahas suatu task untuk mendeteksi dan setelahnya mengoreksi suatu teks. Pekerjaan tersebut mencakup pendeteksian dan pengoreksian kesalahan tata bahasa, kesalahan ortografi, dan semantik. Perkembangan GEC untuk bahasa Indonesia terkendala oleh sedikitnya dataset yang dapat digunakan untuk melatih model GEC. Penelitian ini mengusulkan pendekatan rule-based untuk membangun sebuah dataset sintetik yang mengandung kalimat salah secara tata bahasa baku bahasa Indonesia beserta koreksinya. Hal tersebut dapat dilakukan dengan memanfaatkan kamus tesaurus bahasa Indonesia dan alat bantuan NLP seperti tokenizer, part-of-speech tagger, morphological analyzer, dan dependency parser untuk mengekstrak informasi konteks dari kalimat. Kumpulan data sintetik dibangkitkan dengan menggunakan kalimat yang benar secara tata bahasa dari halaman0halaman situs Wikipedia sebagai kalimat input. Dataset ini menyediakan data dalam dua format yang berbeda, yaitu dalam format M2 dan dalam bentuk pasangan kalimat salah dan benar. Pembangkitan kesalahan tata bahasa akan memiliki 17 kemungkinan jenis kesalahan tata bahasa yang berbeda dengan total 16.898 kalimat salah yang dibentuk. Pengujian Gramatika dilakukan dengan melakukan evaluasi secara manual mengenai ketepatan pembangkitan tiap kesalahan pada kalimat. Pengujian manual dilakukan dengan melakukan stratified random sampling untuk mengambil sampel 100 kalimat. Sampel tersebut minimal memiliki 5 contoh untuk setiap jenis kesalahan tata bahasa. Dari pengevaluasian yang dilalukan oleh dua penguji, didapatkan nilai accuracy sebesar 91,1%.

Grammatical Error Correction (GEC) is a part of Natural Language Processing which deals with the task of detecting and correcting a text. This includes correcting grammatical errors, semantic errors, and orthographic errors. GEC development in Indonesian language has been hindered by the lack of suitable dataset that can be used to train GEC models. This research proposes a rule-based approach to develop a synthetic dataset that contains sentences in Indonesian with grammar errors and its corresponding corrections. It’s done with the help of dictionaries such as Indonesian thesaurus and NLP tools such as a tokenizer, part of speech tagger, morphological analyzer, and dependency parser to extract contextual information of sentences. The synthetic dataset is generated by using grammatically correct sentences from Wikipedia pages as the input. The resulting dataset is formatted to M2 format and pairs of correct and false sentences, containing 17 types of errors with a total of 16.898 sentences. The evaluation of Gramatika is done by manually assessing the accuracy of the sentence modifications. To do this, stratified random sampling is conducted to select 100 sentences with a minimum of 5 examples for each error type. From the manual evaluation by two evaluators, an average accuracy score of 91.1% is obtained.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Faisal Adi Soesatyo
"Pendekatan transfer learning telah digunakan di beragam permasalahan, khususnya low-resource language untuk meningkatkan performa model di masing-masing permasalahan tersebut. Fokus pada penelitian ini ingin menyelidiki apakah pendekatan cross-lingual transfer learning mampu meningkatkan performa pada model constituency parsing bahasa Indonesia. Constituency parsing adalah proses penguraian kalimat berdasarkan konstituen penyusunnya. Terdapat dua jenis label yang disematkan pada konstituen penyusun tersebut, yakni POS tag dan syntactic tag. Parser model yang digunakan di penelitian ini berbasis encoder-decoder bernama Berkeley Neural Parser. Terdapat sebelas macam bahasa yang digunakan sebagai source language pada penelitian ini, di antaranya bahasa Inggris, Jerman, Prancis, Arab, Ibrani, Polandia, Swedia, Basque, Mandarin, Korea, dan Hungaria. Terdapat dua macam dataset bahasa Indonesia berformat Penn Treebank yang digunakan, yakni Kethu dan ICON. Penelitian ini merancang tiga jenis skenario uji coba, di antaranya learning from scratch (LS), zero-shot transfer learning (ZS), dan transfer learning dengan fine-tune (FT). Pada dataset Kethu terdapat peningkatan F1 score dari 82.75 (LS) menjadi 84.53 (FT) atau sebesar 2.15%. Sementara itu, pada dataset ICON terjadi penurunan F1 score dari 88.57 (LS) menjadi 84.93 (FT) atau sebesar 4.11%. Terdapat kesamaan hasil akhir di antara kedua dataset tersebut, di mana masing-masing dataset menyajikan bahwa bahasa dari famili Semitic memiliki skor yang lebih tinggi dari famili bahasa lainnya.

The transfer learning approach has been used in various problems, especially the low-resource languages, to improve the model performance in each of these problems. This research investigates whether the cross-lingual transfer learning approach manages to enhance the performance of the Indonesian constituency parsing model. Constituency parsing analyzes a sentence by breaking it down by its constituents. Two labels are attached to these constituents: POS tags and syntactic tags. The parser model used in this study is based on the encoder-decoder named the Berkeley Neural Parser. Eleven languages are used as the source languages in this research, including English, German, French, Arabic, Hebrew, Polish, Swedish, Basque, Chinese, Korean, and Hungarian. Two Indonesian PTB treebank datasets are used, i.e., the Kethu and the ICON. This study designed three types of experiment scenarios, including learning from scratch (LS), zero-shot transfer learning (ZS), and transfer learning with fine-tune (FT). There is an increase in the F1 score on the Kethu from 82.75 (LS) to 84.53 (FT) or 2.15%. Meanwhile, the ICON suffers a decrease in F1 score from 88.57 (LS) to 84.93 (FT) or 4.11%. There are similarities in the final results between the two datasets, where each dataset presents that the languages from the Semitic family have a higher score than the other language families."
Depok;;: Fakultas Ilmu Komputer Universitas Indonesia;;, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Yudistira Hanifmuti
"Morphological analyzer merupakan sebuah alat yang digunakan untuk melihat bagaimana proses pembentukan kata, menentukan kata dasar pembentuk, dan menge- tahui informasi linguistik yang terkandung pada suatu kata. Universal Dependencies (UD) merupakan sebuah framework acuan yang digunakan pada proses anotasi morfologi untuk berbagai bahasa. Sayangnya, belum ditemukan morphological analyzer untuk bahasa Indonesia yang menerapkan pedoman UD ini. Penelitian ini mengembangkan morphological analyzer untuk bahasa Indonesia yang diberi nama Aksara. Aksara dibangun menggunakan finite state compiler bernama Foma yang digunakan pada Mor- phind, morphological analyzer pada penelitian sebelumnya. Foma dapat memodelkan aturan-aturan pembentukan kata dalam bentuk finite state transducer. Pada Aksara juga dikembangkan tokenizer yang hasilnya menyesuaikan dengan hasil tokenisasi pada treebank UD. Implementasi Aksara menerapkan pedoman UD versi terbaru yaitu UDv2. Pengujian Aksara dilakukan dengan membandingkan performa Aksara dengan Morhpind. Hasil pengujian menunjukkan bahwa komponen tokenizer Aksara berhasil memiliki akurasi tokenisasi sebesar 96.60%, meningkat 23.89% dari akurasi tokenisasi oleh Mor- phind. Evaluasi POS tagging Aksara juga berhasil melewati hasil pemetaan Morphind dengan akurasi F1-score sebesar 87%, dengan kenaikan relatif sebesar 18% dari baseline.

Morphological analyzer is a tool used to do an analysis on word formation process, to identify the lemma for each word, and to do an analysis on the linguistic information. Universal Dependencies (UD) is a framework commonly used in morphological annota- tion process. Unfortunately, there is not a single Indonesian morphological analyzer that applies UDv2. This research is a development of morphological analyzer for Indonesian language named Aksara. Aksara was build using finite state compiler named Foma, which was used in Morphind, the previous research on Indonesian morphological analyzer. Foma can model the rules of word formation which is represented in the form of finite state transducer. This research also develops a tokenizer which its results are adjusted to the tokenization example on UD treebank. The Aksara implementation applies the latest UD guidelines, UDv2. Testing of Aksara is done by comparing the performance of Aksara with Morphind. The test results show that the tokenizer component of Aksara managed to have a tokenization accuracy of 96.60%, an increase of 23.89% from the accuracy of tokenization by Morphind. Evaluation of POS tagging with Aksara also managed to pass Morphind with an accuracy of F1-score of 87%, with a relative increase of 18% from the accuracy of Morphind."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fadli Aulawi Al Ghiffari
"Penelitian ini bertujuan untuk membangun model dependency parser untuk bahasa Jawa menggunakan pendekatan cross-lingual transfer learning. Metode transfer learning dipilih untuk mengatasi kurangnya dataset yang tersedia untuk proses training model pada bahasa Jawa yang merupakan low-resource language. Model dibangun menggunakan arsitektur encoder-decoder, tepatnya menggunakan gabungan dari self-attention encoder dan deep biaffine decoder. Terdapat tiga skenario yang diuji yaitu model tanpa transfer learning, model dengan transfer learning, dan model dengan hierarchical transfer learning. Metode transfer learning menggunakan bahasa Indonesia, bahasa Korea, bahasa Kroasia, dan bahasa Inggris sebagai source language. Sementara metode hierarchical transfer learning menggunakan bahasa Prancis, bahasa Italia, dan bahasa Inggris sebagai source language tahap satu, serta bahasa Indonesia sebagai source language tahap dua (intermediary language). Penelitian ini juga mengujikan empat word embedding yaitu fastText, BERT Jawa, RoBERTa Jawa, dan multilingual BERT. Hasilnya metode transfer learning secara efektif mampu menaikkan performa model sebesar 10%, di mana model tanpa transfer learning yang memiliki performa awal unlabeled attachment score (UAS) sebesar 75.87% dan labeled attachment score (LAS) sebesar 69.04% mampu ditingkatkan performanya hingga mencapai 85.84% pada UAS dan 79.22% pada LAS. Skenario hierarchical transfer learning mendapatkan hasil yang lebih baik daripada transfer learning biasa, namun perbedaannya tidak cukup signifikan.

This research aims to develop a Javanese dependency parser model using a cross-lingual transfer learning approach. The transfer learning method was chosen to overcome the lack of available datasets for the model training process in Javanese, a low-resource language. The model uses an encoder-decoder architecture, precisely combining a self-attention encoder and a deep biaffine decoder. Three scenarios are experimented with: a model without transfer learning, a model with transfer learning, and a model with hierarchical transfer learning. The transfer learning process uses Indonesian, Korean, Croatian, and English as source languages. In contrast, the hierarchical transfer learning process uses French, Italian, and English as the first-stage source languages and Indonesian as the second-stage source language (intermediary language). This research also experimented with four word embedding types: fastText, Javanese BERT, Javanese RoBERTa, and multilingual BERT. The results show that the transfer learning method effectively improves the model’s performance by 10%, where the model without transfer learning has an initial unlabeled attachment score (UAS) performance of 75.87% and labeled attachment score (LAS) of 69.04% can be increased to 85.84% in UAS and 79.22% in LAS. Hierarchical transfer learning has a slightly better result than standard transfer learning, but the difference is insignificant."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Salman Al-Farisi
"Penelitian ini bertujuan untuk meningkatkan kemampuan morphological analyzer pada Aksara agar dapat melakukan pemrosesan bahasa Indonesia informal. Metode yang digunakan pada Aksara adalah rule-based menggunakan nite-state trans- ducer dengan compiler bernama Foma. Adapun komponen yang ditingkatkan adalah komponen tokenizer, lemmatizer, dan POS tagger. Untuk menguji peneli- tian ini, dibuatlah sebuah gold standard yang terdiri dari 102 kalimat dengan 1434 token. Hasil pengujian memperlihatkan bahwa penelitian ini berhasil memiliki pen- ingkatan akurasi tokenisasi sebesar 4.6% dari Aksara v1.1. Untuk tahapan lemati- sasi pada kasus case sensitive terjadi peningkatan akurasi sebesar 11.82%. Evaluasi POS tagging juga berhasil mengalami peningkatan pada nilai F1-Score sebesar 14% dibandingkan dengan Aksara v1.1.

This study aims to improve the ability of the morphological analyzer in Aksara in order to be able to process the informal Indonesian. The method used in Aksara is rule-based, using a nite-state transducer with a compiler named Foma. The components that are being improved are tokenizer, lemmatizer, and POS tagger components. To test this research, a gold standard was created; It consists of 102 sentences with 1434 tokens. The test results show that this study has an increase in tokenization accuracy of 4.6% compared to Aksara v1.1. For the lematization stage in the case of case-sensitive word, there is an increase in accuracy of 11.82%. The POS tagging evaluation also increased its F1-Score value by 14% compared to Aksara v1.1."
Depok: 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
<<   1 2   >>