Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 165934 dokumen yang sesuai dengan query
cover
Julian Fernando
"Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel. Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual, kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar pada kualitas hasil ekstraksi.

The development of regional language NLP in Indonesia is still relatively slow. There are several factors behind this, such as poor language documentation, a small number of speakers of the language, and lack of the resources needed to study regional language NLP. This research aims to develop a general extraction method for Indonesian and regional bilingual dictionaries to produce NLP resources. The resulting system is able to process multiple bilingual dictionaries at once into NLP resources. Dictionaries are converted to machine readable form and processed to the form of a corpus of entries in advance before extraction is carried out. A corpus of entries means corpus that contains full information of each entry in the dictionary as well as font style, font size, and the position of each word of the entry in the bilingual dictionary. The extraction process is carried out by observing the entry's pattern resulting in the entry standardization phase having to be done prior before resources are produced. Besides resource production, spell checking is also carried out specifically for parallel corpus resources. In order to evaluate the extraction results, several bilingual dictionaries are taken to be samples. Evaluation process is carried out by observing the accuracy of each entry component’s placement in the extraction results. Research team found that the resulting system has succeeded in extracting NLP resources optimally in the form of bilingual lexicon, morphology, and parallel corpus on 32 Indonesian and regional bilingual dictionaries. There are still some deficiencies in the developed system since the extraction process is highly dependent on the accuracy of font detection such that the qualities of dictionaries still have a big impact on the quality of extraction results."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Raden Fausta Anugrah Dianparama
"Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel. Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual, kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar pada kualitas hasil ekstraksi.

The development of regional language NLP in Indonesia is still relatively slow. There are several factors behind this, such as poor language documentation, a small number of speakers of the language, and lack of the resources needed to study regional language NLP. This research aims to develop a general extraction method for Indonesian and regional bilingual dictionaries to produce NLP resources. The resulting system is able to process multiple bilingual dictionaries at once into NLP resources. Dictionaries are converted to machine readable form and processed to the form of a corpus of entries in advance before extraction is carried out. A corpus of entries means corpus that contains full information of each entry in the dictionary as well as font style, font size, and the position of each word of the entry in the bilingual dictionary. The extraction process is carried out by observing the entry's pattern resulting in the entry standardization phase having to be done prior before resources are produced. Besides resource production, spell checking is also carried out specifically for parallel corpus resources. In order to evaluate the extraction results, several bilingual dictionaries are taken to be samples. Evaluation process is carried out by observing the accuracy of each entry component’s placement in the extraction results. Research team found that the resulting system has succeeded in extracting NLP resources optimally in the form of bilingual lexicon, morphology, and parallel corpus on 32 Indonesian and regional bilingual dictionaries. There are still some deficiencies in the developed system since the extraction process is highly dependent on the accuracy of font detection such that the qualities of dictionaries still have a big impact on the quality of extraction results."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Harakan Akbar
"Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel. Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual, kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar pada kualitas hasil ekstraksi.

The development of regional language NLP in Indonesia is still relatively slow. There are several factors behind this, such as poor language documentation, a small number of speakers of the language, and lack of the resources needed to study regional language NLP. This research aims to develop a general extraction method for Indonesian and regional bilingual dictionaries to produce NLP resources. The resulting system is able to process multiple bilingual dictionaries at once into NLP resources. Dictionaries are converted to machine readable form and processed to the form of a corpus of entries in advance before extraction is carried out. A corpus of entries means corpus that contains full information of each entry in the dictionary as well as font style, font size, and the position of each word of the entry in the bilingual dictionary. The extraction process is carried out by observing the entry's pattern resulting in the entry standardization phase having to be done prior before resources are produced. Besides resource production, spell checking is also carried out specifically for parallel corpus resources. In order to evaluate the extraction results, several bilingual dictionaries are taken to be samples. Evaluation process is carried out by observing the accuracy of each entry component’s placement in the extraction results. Research team found that the resulting system has succeeded in extracting NLP resources optimally in the form of bilingual lexicon, morphology, and parallel corpus on 32 Indonesian and regional bilingual dictionaries. There are still some deficiencies in the developed system since the extraction process is highly dependent on the accuracy of font detection such that the qualities of dictionaries still have a big impact on the quality of extraction results."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Arief Fauzan
"Riset terdahulu menunjukkan adanya misrepresentasi identitas agama pada media Indonesia. Menurut studi sebelumnya, misrepresentasi identitas marjinal pada dataset dan word embedding untuk natural language processing dapat merugikan identitas marjinal tersebut, dan karenanya harus dimitigasi. Riset ini menganalisis keberadaan bias agama pada beberapa dataset dan word embedding NLP berbahasa Indonesia, dampak bias yang ditemukan pada downstream performance, serta proses dan dampak debiasing untuk dataset dan word embedding. Dengan menggunakan metode uji Pointwise Mutual Information  (PMI ) untuk deteksi bias pada dataset dan word similarity untuk deteksi bias pada word embedding, ditemukan bahwa dua dari tiga dataset, serta satu dari empat word embedding yang digunakan pada studi ini mengandung bias agama. Model machine learning yang dibentuk dari dataset dan word embedding yang mengandung bias agama memiliki dampak negatif untuk downstream performance model tersebut, yang direpresentasikan dengan allocation harm dan representation harm. Allocation harm direpresentasikan oleh performa false negative rate (FNR) dan false positive rate (FPR) model machine learning yang lebih buruk untuk identitas agama tertentu, sedangkan representation harm direpresentasi oleh kesalahan model dalam mengasosiasikan kalimat non-negatif yang mengandung identitas agama sebagai kalimat negatif. Metode debiasing pada dataset dan word embedding mampu memitigasi bias agama yang muncul pada dataset dan word embedding, tetapi memiliki performa yang beragam dalam mitigasi allocation dan representation harm. Dalam riset ini, akan digunakan lima metode debiasing: dataset debiasing dengan menggunakan sentence templates, dataset debiasing dengan menggunakan kalimat dari Wikipedia, word embedding debiasing dengan menggunakan Hard Debiasing,  joint debiasing dengan sentence templates, serta joint debiasing menggunakan kalimat dari Wikipedia. Dari lima metode debiasing, joint debiasing dengan sentence templates memiliki performa yang paling baik dalam mitigasi allocation harm dan representation harm.

Previous research has shown the existence of misrepresentation regarding various religious identities in Indonesian media. Misrepresentations of other marginalized identities in natural language processing (NLP) resources have been recorded to inflict harm against such marginalized identities, and as such must be mitigated. This research analyzes several Indonesian language NLP datasets and word embeddings to see whether they contain unwanted bias, the impact of bias on downstream performance, the process of debiasing datasets or word embeddings, and the effect of debiasing on them. By using the Pointwise Mutual Test (PMI) test to detect dataset bias and word similarity to detect word embedding bias, it is found that two out of three datasets and one out of four word embeddings contain religion bias. The downstream performances of machine learning models which learn from biased datasets and word embeddings are found to be negatively impacted by the biases, represented in the form of allocation and representation harms. Allocation harm is represented by worse false negative rate (FNR) and false positive rate (TPR) of models with respect to certain religious identities, whereas representation harm is represented by the misprediction of non-negative sentences containing religious identity terms as negative sentences. Debiasing at dataset and word embedding level was found to correctly mitigate the respective biases at dataset and word embedding level. Nevertheless, depending on the dataset and word embedding used to train the model, the performance of each debiasing method can vary highly at downstream performance. This research utilizes five debiasing methods: dataset debiasing using sentence templates, dataset debiasing using sentences obtained from Wikipedia, word embedding debiasing using Hard Debiasing, joint debiasing using sentence templates, as well as joint debiasing using sentences obtained from Wikipedia. Out of all five debiasing techniques, joint debiasing using sentence templates performs the best on mitigating both allocation and representation harm."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Adi Sunaryo
Jakarta: Departemen Pendidikan dan Kebudayaan RI, 1990
R 413.03 ADI p
Buku Referensi  Universitas Indonesia Library
cover
Kevin Ahmad Faisal
"Grammatical Error Correction (GEC) merupakan salah satu topik yang menarik dalam penelitian Natural Language Processing (NLP). Sudah banyak penelitian mengenai GEC untuk bahasa universal seperti Inggris dan Cina, namun sedikit penelitian mengenai GEC untuk bahasa Indonesia. Pada penelitian ini penulis mengembangkan framework GEC untuk memperbaiki kesalahan 10 jenis Part of Speech (POS) bahasa Indonesia dengan arsitektur Gated Recurrent Unit (GRU). Dataset yang digunakan adalah Indonesian POS Tagged Corpus yang disusun oleh Ruli Manurung dari Universitas Indonesia. Hasil penelitian ini berhasil memberikan rata-rata Macro-Average F0.5 Score sebesar 0.4882 dan meningkatkan kecepatan prediksi sebesar 30.1%.

Grammatical Error Correction (GEC) is one of the exciting topics in Natural Language Processing (NLP) research. There have been many studies on GEC for universal languages such as English and Chinese, but little research on GEC for indonesian. In this study, the authors developed a GEC framework to correct ten Indonesian Part of Speech (POS) errors with the Gated Recurrent Unit (GRU) architecture. The dataset used is the Indonesian POS Tagged Corpus compiled by Ruli Manurung from the University of Indonesia. The results of this study succeeded in providing an average Macro-Average F0.5 Score of 0.4882 and increase prediction time by 30.1% "
Depok: Fakultas Teknik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ricky Nauvaldy Ruliputra
"ABSTRAK
Banyaknya pengguna internet di Indonesia berkontribusi pada potensi pertumbuhan Indonesia secara umum terutama dalam sisi ekonomi digital. Pesatnya pertumbuhan ini mendorong pemerintah untuk merencanakan revolusi industri 4.0. Pada praktisnya, landasan dalam membangun sistem yang diperlukan dalam revolusi industri 4.0 adalah teknologi artificial intelligence (AI). Inovasi dalam bidang AI banyak datang dari perusahaan startup. Meskipun pemanfaatan AI membawa banyak manfaat, 60% dari perusahaan belum memanfaatkan teknologi tersebut pada area fungsional seperti layanan chatbot, robot layanan pelanggan, otomasi proses robotik, monitoring media, dan pengamatan sosial. Celah ini perlu disikapi melihat bahwa 89% dari pengguna internet di Indonesia memanfaatkan layanan chatting, dan 87% lebih untuk media sosial. Pemanfaatan AI dapat dilakukan salah satu caranya adalah dengan menggunakan jasa perusahaan yang bergerak di bidang AI, namun pemetaan dari startup yang bergerak di bidang AI belum tersedia. Selain itu, dampak praktis dari penerapan AI di Indonesia perlu untuk dilakukan sebagai motivasi dan juga pengetahuan bagi pihak yang belum menerapkan AI sebagai bagian dari proses bisnis perusahaan. Penelitian ini melakukan pemetaan terhadap perusahaan startup di Indonesia yang bergerak di bidang AI, dan didapatkan 68 perusahaan startup yang terpetakan. Selain itu, penelitian ini juga melakukan identifikasi dampak dari penerapan AI bagi perusahaan dari perspektif startup penyedia layanan dengan melakukan wawancara kepada level-C dan manajer produk perusahaan penyedia layanan, dan mendapatkan bahwa dampak yang terjadi dapat dikategorikan ke dalam delapan aspek, yaitu motivasi, keuntungan, kepentingan, perubahan strategi, tantangan, kepuasan, kepercayaan, dan etika. Rekomendasi yang dapat diberikan kepada perusahaan klien terkait dengan penerapan NLP meliputi otomasi, kolaborasi, pengembangan berlanjut, humanisasi, melihat pasar, melihat peluang, tahu tujuan, siap secara teknis, dan berani mencoba.

ABSTRACT
The large number of internet users in Indonesia contributes to Indonesia's growth potential in general, especially in the digital economy. This rapid growth urged the government to plan for the industrial 4.0 revolution. In practice, the basis for building industrial 4.0 system is artificial intelligence (AI) technology. Innovations in the field of AI come from many startup companies. Despite of many benefits obtained from the use of AI, 60% of the companies have not utilized the technology in functional areas such as chatbot services, customer service robots, automation of robotic processes, media monitoring, and social observation. This gap needs to be addressed considering that more than 89% of internet users in Indonesia utilize chat services, and more than 87% of them use it for social media. The use of AI can be done one way is to use the services of companies engaged in AI. However, startup mapping from AI-based startups is not yet available. In addition, the practical impact of implementing AI in Indonesia needs to be done as motivation and knowledge for those who have not implemented AI as part of the company's business processes. This research mapped the startups in Indonesia who are engaged in AI, and obtained 68 mapped startup companies. In addition, this study also evaluates the implementation of AI for companies from the perspective of the implementor by conducting interviews with C-Levels and product managers of the service provider, and found that the impacts can be categorized into eight categories, namely motivation, profit, interest, change in strategy, competition, satisfaction, trust, and ethics. Recommendations is given to companies related to NLP related to automation, collaboration, accepted development, humanization, looking at the market, seeing opportunities, knowing goals, preparing technically, and dare to try.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019
TA-Pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Hitoshi Sahara, editor
"This book constitutes the refereed proceedings of the 8th International Conference on Advances in Natural Language Processing, JapTAL 2012, Kanazawa, Japan, in October 2012.
The 27 revised full papers and 5 revised short papers presented were carefully reviewed and selected from 42 submissions. The papers are organized in topical sections on machine translation, multilingual issues, resouces, semantic analysis, sentiment analysis, as well as speech and generation.
"
Berlin: [, Springer-Verlag], 2012
e20408520
eBooks  Universitas Indonesia Library
cover
Heninggar Septiantri
"Ambiguitas adalah masalah yang seringkali ditemui dalam pemrosesan bahasa alami oleh komputer. Word Sense Disambiguation (WSD) adalah upaya untuk menentukan makna yang tepat dari sebuah kata yang ambigu. Berbagai penelitian tentang WSD telah banyak dikerjakan, namun penelitian WSD untuk bahasa Indonesia belum banyak dilakukan. Ketersediaan korpus paralel berbahasa Inggris-Indonesia dan sumber pengetahuan bahasa berupa WordNet bahasa Inggris dan bahasa Indonesia dapat dimanfaatkan untuk menyediakan data pelatihan untuk WSD dengan metode Cross-Lingual WSD (CLWSD). Data pelatihan ini kemudian dijadikan input untuk klasifikasi dengan algoritma Naive Bayes, sehingga model klasifikasinya dapat digunakan untuk melakukan monolingual WSD untuk bahasa Indonesia.
Evaluasi klasifikasi menunjukkan rata-rata akurasi hasil klasifikasi lebih tinggi dari baseline. Penelitian ini juga menggunakan stemming dan stopwords removal untuk mengetahui bagaimana efeknya terhadap klasifikasi. Penggunaan stemming menaikkan rata-rata akurasi, sedangkan penerapan stopwords removal menurunkan rata-rata akurasi. Namun pada kata yang memiliki dua makna dalam konteks yang cukup jelas berbeda, stemming dan stopwords removal dapat menaikkan rata-rata akurasi.

Ambiguity is a problem we frequently face in natural languange processing. Word Sense Disambiguation (WSD) is an attempt to decide the correct sense of an ambiguous word. Various research in WSD have been conducted, but research in WSD for Indonesian Language is still rare to find. The availability of parallel corpora in English and Indonesian language and WordNet for both language can be used to provide training data for WSD with Cross-Lingual WSD (CLWSD) method. This training data can be used as input to the classification process using Naive Bayes classifier.
The model resulted by the classification process is then used to do monolingual WSD for Indonesian language. The whole process in this research results in higher accuracy compared to baseline. This research also includes the use of stemming and stopwords removal. The effect of stemming is increasing the average accuracy, whereas stopwords removal is decreasing average accuracy. Nevertheless, for ambiguous words that have distinct context of usage, the use of stemming and stopwords removal can increase average accuracy."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Ambon: Kementrian Pendidikan Dan Kebudayaan. Badan Pengembangan Dan Pembinaan Bahasa. Kantor Bahasa Maluku, 2018
499.221 KAM
Buku Teks  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>