Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 179542 dokumen yang sesuai dengan query
cover
Thariq Razan
"Tidak dapat dipungkiri bahwa teknologi semakin berkembang dan inovasi baru terus bermunculan. ChatGPT merupakan salah satunya; dan menjadi buah bibir di awal tahun 2023. Teknologi ini dapat melayani aktivitas tanya-jawab yang membuat pengguna dapat merasa telah melakukan percakapan dengan manusia lainnya, alih-alih dengan mesin. Kemampuan ChatGPT bersumber dari model GPT yang digunakannya. Selaku large language model, GPT dapat memproses banyak teks untuk memproduksi teks lainnya. Walaupun secara umum dapat memberikan jawaban yang memadai, saat berurusan dengan domain yang spesifik, misalnya legal, ChatGPT memberikan jawaban yang kurang memuaskan. Penelitian ini dilakukan untuk mengatasi hal tersebut dengan menyisipkan konteks atau kepingan informasi yang spesifik kepada model melalui suatu prompt (in-context learning). Karena domain legal menjadi fokus penelitian ini, maka teks yang akan diproses berasal dari dokumen peraturan perundang-undangan. Penelitian ini diawali dengan preliminary research, sehingga diidentifikasi permasalahan yang telah dijabarkan. Kemudian, dilanjutkan dengan perancangan serta pengembangan dua sistem tanya-jawab yang menggunakan dua framework LlamaIndex dan LangChain. Sebelum mengembangkan sistem, peneliti mempersiapkan terlebih dahulu data/teks yang perlu diekstrak dari dokumen peraturan perundang-undangan. Pengembangan sistem dilakukan secara iteratif dan evaluasi diadakan pada setiap iterasi. Evaluasi dilakukan secara kualitatif dengan menggunakan human judgement serta secara kuantitatif dengan menggunakan metrik ROUGE dan SAS. Hasil akhir evaluasi menunjukkan bahwa kedua sistem tersebut baik dalam menjawab pertanyaan terkait definisi dan substansi pada domain legal. Selain itu, dilakukan juga perbandingan hasil evaluasi terhadap ChatGPT dan ditemukan bahwa kedua sistem unggul. Penelitian ini telah menunjukkan bahwa teknologi GPT dapat dimanfaatkan pada domain spesifik, yaitu legal, melalui kedua sistem yang dibuat.

It cannot be denied that technology is constantly advancing and new innovations continue to emerge. ChatGPT is one of them and has become the talk of the town in early 2023. This technology can facilitate question-and-answer interactions that make users feel like they are having a conversation with another human rather than a machine. This capability of ChatGPT is derived from the GPT model it uses. As a large language model, GPT can process a large amount of text to generate new text. Although it generally provides adequate answers, when dealing with specific domains such as legal matters, ChatGPT may give unsatisfactory responses. This research was conducted to overcome this issue by incorporating specific context or pieces of information into the model through a prompt (in-context learning). As the legal domain is the focus of this research, the text to be processed are Indonesian legal regulatory documents. The research begins with preliminary research. It is then followed by the design and development of two question-and-answer systems using two frameworks: LlamaIndex and LangChain. Before developing the systems, the researcher first prepares the data/text that needs to be extracted from the legal documents. The system development is carried out iteratively and evaluations are conducted at each iteration. The evaluations are performed qualitatively using human judgment and quantitatively using ROUGE and SAS metrics. The final evaluation results indicate that both systems perform well in answering questions related to definitions and substance in the legal domain. Additionally, a comparison of the evaluation results with ChatGPT shows that both systems outperform it. This research has demonstrated that GPT technology can be utilized in specific domains, namely legal, through the two developed systems.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Simangusnsong, Daniel Fernando P.
"Tidak dapat dipungkiri bahwa teknologi semakin berkembang dan inovasi baru terus bermunculan. ChatGPT merupakan salah satunya; dan menjadi buah bibir di awal tahun 2023. Teknologi ini dapat melayani aktivitas tanya-jawab yang membuat pengguna dapat merasa telah melakukan percakapan dengan manusia lainnya, alih-alih dengan mesin. Kemampuan ChatGPT bersumber dari model GPT yang digunakannya. Selaku large language model, GPT dapat memproses banyak teks untuk memproduksi teks lainnya. Walaupun secara umum dapat memberikan jawaban yang memadai, saat berurusan dengan domain yang spesifik, misalnya legal, ChatGPT memberikan jawaban yang kurang memuaskan. Penelitian ini dilakukan untuk mengatasi hal tersebut dengan menyisipkan konteks atau kepingan informasi yang spesifik kepada model melalui suatu prompt (in-context learning). Karena domain legal menjadi fokus penelitian ini, maka teks yang akan diproses berasal dari dokumen peraturan perundang-undangan. Penelitian ini diawali dengan preliminary research, sehingga diidentifikasi permasalahan yang telah dijabarkan. Kemudian, dilanjutkan dengan perancangan serta pengembangan dua sistem tanya-jawab yang menggunakan dua framework LlamaIndex dan LangChain. Sebelum mengembangkan sistem, peneliti mempersiapkan terlebih dahulu data/teks yang perlu diekstrak dari dokumen peraturan perundang-undangan. Pengembangan sistem dilakukan secara iteratif dan evaluasi diadakan pada setiap iterasi. Evaluasi dilakukan secara kualitatif dengan menggunakan human judgement serta secara kualitatif dengan menggunakan metrik ROUGE dan SAS. Hasil akhir evaluasi menunjukkan bahwa kedua sistem tersebut baik dalam menjawab pertanyaan terkait definisi dan substansi pada domain legal. Selain itu, dilakukan juga perbandingan hasil evaluasi terhadap ChatGPT dan ditemukan bahwa kedua sistem unggul. Penelitian ini telah menunjukkan bahwa teknologi GPT dapat dimanfaatkan pada domain spesifik, yaitu legal, melalui kedua sistem yang dibuat.

It cannot be denied that technology is constantly advancing and new innovations continue to emerge. ChatGPT is one of them and has become the talk of the town in early 2023. This technology can facilitate question-and-answer interactions that make users feel like they are having a conversation with another human rather than a machine. This capability of ChatGPT is derived from the GPT model it uses. As a large language model, GPT can process a large amount of text to generate new text. Although it generally provides adequate answers, when dealing with specific domains such as legal matters, ChatGPT may give unsatisfactory responses. This research was conducted to overcome this issue by incorporating specific context or pieces of information into the model through a prompt (in-context learning). As the legal domain is the focus of this research, the text to be processed are Indonesian legal regulatory documents. The research begins with preliminary research. It is then followed by the design and development of two question-and-answer systems using two frameworks: LlamaIndex and LangChain. Before developing the systems, the researcher first prepares the data/text that needs to be extracted from the legal documents. The system development is carried out iteratively and evaluations are conducted at each iteration. The evaluations are performed qualitatively using human judgment and quantitatively using ROUGE and SAS metrics. The final evaluation results indicate that both systems perform well in answering questions related to definitions and substance in the legal domain. Additionally, a comparison of the evaluation results with ChatGPT shows that both systems outperform it. This research has demonstrated that GPT technology can be utilized in specific domains, namely legal, through the two developed systems."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alif Mahardhika
"Ujaran kasar dan ujaran kebencian telah menjadi fenomena yang banyak ditemukan di media sosial. Penyalahgunaan kebebasan berpendapat ini berpotensi memicu terjadinya konflik dan ketidakstabilan sosial dikalangan masyarakat, baik dalam interaksi sosial secara digital maupun secara fisik. Diperlukan upaya identifikasi ujaran kasar dan ujaran kebencian secara otomatis, akurat, dan efisien untuk mempermudah penegakkan hukum oleh pihak berwenang. Penelitian pada skripsi ini melakukan perbandingan performa klasifikasi ujaran kasar dan ujaran kebencian pada data teks mixed-coded berbahasa Indonesia-Jawa, menggunakan model klasifikasi berbasis BERT. Eksperimen perbandingan dilakukan dengan membandingkan pre-trained model berbasis BERT dengan berbagai arsitektur dan jenis berbeda, yaitu BERT (dengan arsitektur base dan large), RoBERTa (arsitektur base), dan DistilBERT (arsitektur base). Untuk mengatasi keterbatasan mesin dalam memahami teks mixed-coded, penelitian ini dirancang dalam dua skenario yang membandingkan performa klasifikasi pada teks mixed-coded Indonesia-Jawa dan teks mixed coded yang diterjemahkan ke Bahasa Indonesia. Hasil terbaik berdasarkan F1-Score didapatkan pada klasifikasi menggunakan model berbasis BERT dengan nama IndoBERT-large-p2 pada kedua skenario, dengan F1-Score 78,86% pada skenario tanpa proses translasi, dan F1-Score 77,22% pada skenario dengan proses translasi ke Bahasa Indonesia.

Hateful and abusive speech has become a phenomenon that becomes common in social media. This abuse of freedom of speech presents significant risk of starting social conflicts, be it in the form of digital or physical social interactions. An accurate, efficient, and automated hate speech and abusive language identification effort needs to be developed to help authorities address this problem properly. This research conducts a comparison on hate speech and abusive language identification using several BERT-based language models. The comparisons are made using a variety of BERT-based language models with different types and architecture, including BERT (base and large architecture), RoBERTa (base architecture), and DistilBERT (base architecture). To address the mixed-coded nature of social media texts, this research was conducted under two different scenario that compares the classification performance using a mixed-coded Indonesian-Javanese text and texts that have been translated to Indonesian. The best classification output was measured using F1-Score, with a BERT-based model named IndoBERT-large-p2 outscoring the other BERT-based models in both scenario, scoring an F1-Score of 78.86% in untranslated scenario, and 72.22% F1-Score on the Indonesian-translated scenario."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Keyza Asyadda Ramadhan Mufron
"Berdasarkan UU Nomor 12 Tahun 2011, peraturan perundang-undangan harus ditempatkan dalam beberapa media agar dapat diakses seluruh warga. Akan tetapi, beberapa layanan resmi memiliki isu efisiensi bagi pengguna untuk mencari informasi antar peraturan hukum. Solusi alternatif sistem tanya jawab hukum berbasis knowledge graph, yaitu LexID QA memiliki keterbatasan pada pertanyaan yang lebih ekspresif. Penelitian ini mengusulkan sistem tanya jawab hukum berbasis LLM dengan knowledge graph LexID melalui few-shot prompting. Sistem yang dibangun menerjemahkan pertanyaan menjadi kueri SPARQL. Sistem terdiri dari dua komponen, yaitu tanya jawab dan entity linking. Entity linking dilakukan dengan model berbahasa Indonesia untuk memetakan pertanyaan yang diberikan pengguna menjadi pemetaan entitas dan IRI. Kemudian, tanya jawab dilakukan dengan model code generation untuk menerjemahkan pertanyaan beserta informasi entity linking menjadi kueri SPARQL, bahasa kueri knowledge graph.

Based on Act 12/2011, legal document must be placed in several medias for citizen to access it. However, government services have shortcoming in efficiently retrieving information involving two or more legal documents. Existing solution to this issue is LexID QA yet unable to process more expressive question. This research proposes knowledge graph legal question answering based on LLM utilizing few-shot prompting. Proposed system is expected to transform question into SPARQL query. Proposed system is composed of two components, that is question answering and entity linking. Entity linking utilize Indonesian LLM to map user's question into entity-IRI mapping. Question answering model then translate question to SPARQL query with entity linking as an additional context."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Ravi Shulthan Habibi
"Sistem tanya jawab merupakan salah satu tugas dalam domain natural language processing (NLP) yang sederhananya bertugas untuk menjawab pertanyaan sesuai konteks yang pengguna berikan ke sistem tanya jawab tersebut. Sistem tanya jawab berbahasa Indonesia sebenarnya sudah ada, namun masih memiliki performa yang terbilang kurang baik. Penelitian ini bereksperimen untuk mencoba meningkatkan performa dari sistem tanya jawab berbahasa Indonesia dengan memanfaatkan natural language inference (NLI). Eksperimen untuk meningkatkan sistem tanya jawab berbahasa Indonesia, penulis menggunakan dua metode, yaitu: intermediate-task transfer learning dan task recasting sebagai verifikator. Dengan metode intermediate-task transfer learning, performa sistem tanya jawab berbahasa Indonesia meningkat, hingga skor F1-nya naik sekitar 5.69 dibandingkan tanpa menggunakan pemanfaatan NLI sama sekali, dan berhasil mendapatkan skor F1 tertinggi sebesar 85.14, namun, peningkatan performa dengan metode intermediate-task transfer learning cenderung tidak signifikan, kecuali pada beberapa kasus khusus model tertentu. Sedangkan dengan metode task recasting sebagai verifikator dengan parameter tipe filtering dan tipe perubahan format kalimat, performa sistem tanya jawab berbahasa Indonesia cenderung menurun, penurunan performa ini bervariasi signifikansinya. Pada penelitian ini juga dilakukan analisis karakteristik pasangan konteks-pertanyaan-jawaban seperti apa yang bisa dijawab dengan lebih baik oleh sistem tanya jawab dengan memanfaatkan NLI, dan didapatkan kesimpulan bahwa: performa sistem tanya jawab meningkat dibandingkan hasil baseline-nya pada berbagai karakteristik, antara lain: pada tipe pertanyaan apa, dimana, kapan, siapa, bagaimana, dan lainnya; kemudian pada panjang konteks ≤ 100 dan 101 ≤ 150; lalu pada panjang pertanyaan ≤ 5 dan 6 ≤ 10; kemudian pada panjang jawaban golden truth ≤ 5 dan 6 ≤ 10; lalu pada keseluruhan answer type selain law dan time; terakhir pada reasoning type WM, SSR, dan MSR.

The question-answering system is one of the tasks within the domain of natural language processing (NLP) that, in simple terms, aims to answer questions based on the context provided by the user to the question-answering system. While there is an existing Indonesian question-answering system, its performance is considered somewhat inadequate. This research conducts experiments to improve the performance of the Indonesian question answering system by utilizing natural language inference (NLI). In order to enhance the Indonesian question-answering system, the author employs two methods: intermediate task transfer learning and task recasting as verifiers. Using the intermediate-task transfer learning method, the performance of the Indonesian question-answering system improves significantly, with an increase of approximately 5.69 in F1 score compared to not utilizing NLI at all, achieving the highest F1 score of 85.14. However, the performance improvement with the intermediate-task transfer learning method tends to be non-significant, except in certain specific cases and particular models. On the other hand, employing the task recasting method as a verifier with filtering parameter type and sentence format change type leads to a decline in the performance of the Indonesian question-answering system, with the significance of this performance decrease varying. Additionally, this research conducts an analysis on the characteristics of context-question-answer pairs that can be better answered by the question-answering system utilizing NLI. The findings conclude that the question-answering system’s performance improves compared to its baseline across various characteristics, including different question types such as what, where, when, who, how, and others. Furthermore, it improves with context lengths ≤ 100 and 101 ≤ 150, question lengths ≤ 5 and 6 ≤ 10, as well as answer lengths (golden truth) ≤ 5 and 6 ≤ 10. Additionally, it performs better in overall answer types excluding law and time, and lastly, in reasoning types WM, SSR, and MSR.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Anwar Farihin
"Pengenalan Entitas Bernama (NER) telah diteliti cukup dalam, khususnya pada korpus berbahasa Inggris. Namun, penelitian NER pada korpus twit berbahasa Indonesia masih sangat sedikit karena minimnya dataset yang tersedia secara publik. BERT sebagai salah satu model state-of-the-art pada permasalahan NER belum diimplementasikan pada korpus twit berbahasa Indonesia. Kontribusi kami pada penelitian ini adalah mengembangkan dataset NER baru pada korpus twit berbahasa Indonesia sebanyak 7.426 twit, serta melakukan eksperimen pada model CRF dan BERT pada dataset tersebut. Pada akhirnya, model terbaik pada penelitian ini menghasilkan nilai F1 72,35% pada evaluasi tingkat token, serta nilai F1 79,27% (partial match) dan 75,40% (exact match) pada evaluasi tingkat entitas.

Named Entity Recognition (NER) has been extensively researched, primarily for understanding the English corpus. However, there has been very little NER research for understanding Indonesian-language tweet corpus due to the lack of publicly available datasets. As one of the state-of-the-art models in NER, BERT has not yet been implemented in the Indonesian-language tweet corpus. Our contribution to this research is to develop a new NER dataset on the corpus of 7.426 Indonesian-language tweets and to conduct experiments on the CRF and BERT models on the dataset. In the end, the best model of this research resulted in an F1 score of 72,35% at the token level evaluation and an F1 score of 79,27% (partial match) and 75,40% (exact match) at the entity level evaluation."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ilma Alpha Mannix
"Penelitian ini bertujuan untuk menguji efektivitas pre-trained language model BERT pada tugas pencarian dosen pakar. Bidirectional Encoder Representations from Transformers (BERT) merupakan salah satu state-of-the-art model saat ini yang menerapkan contextual word representation (contextual embedding). Dataset yang digunakan pada penelitian ini terdiri dari data pakar dan bukti kepakaran. Data pakar merupakan data dosen Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI). Data bukti kepakaran merupakan data abstrak digital tugas akhir mahasiswa Fasilkom UI. Model yang diusulkan pada penelitian ini terdiri dari tiga variasi BERT, yaitu IndoBERT (Indonesian BERT), mBERT (Multilingual BERT), dan SciBERT (Scientific BERT) yang akan dibandingkan dengan model baseline menggunakan word2vec. Terdapat dua pendekatan yang dilakukan untuk mendapatkan urutan dosen pakar pada variasi model BERT, yaitu pendekatan feature-based dan fine-tuning. Penelitian ini menunjukkan bahwa model IndoBERT dengan pendekatan feature-based memberikan hasil yang lebih baik dibandingkan baseline dengan peningkatan 6% untuk metrik MRR hingga 9% untuk metrik NDCG@10. Pendekatan fine-tuning juga memberikan hasil yang lebih baik pada model IndoBERT dibandingkan baseline dengan peningkatan 10% untuk metrik MRR hingga 18% untuk metrik P@5. Diantara kedua pendekatan tersebut, dibuktikan bahwa pendekatan fine-tuning memberikan hasil yang lebih baik dibandingkan dengan pendekatan feature-based dengan peningkatan 1% untuk metrik P@10 hingga 5% untuk metrik MRR. Penelitian ini menunjukkan bahwa penggunaan pre-trained language model BERT memberikan hasil yang lebih baik dibandingkan baseline word2vec dalam tugas pencarian dosen pakar.

This study aims to test the effectiveness of the pre-trained language model BERT on the task of expert finding. Bidirectional Encoder Representations from Transformers (BERT) is one of the current state-of-the-art models that applies contextual word representation (contextual embedding). The dataset used in this study consists of expert data and expertise evidence. The expert data is composed of faculty members from the Faculty of Computer Science, University of Indonesia (Fasilkom UI). The expertise evidence data consists of digital abstracts by Fasilkom UI students. The proposed model in this research consists of three variations of BERT, namely IndoBERT (Indonesian BERT), mBERT (Multilingual BERT), and SciBERT (Scientific BERT), which will be compared to a baseline model using word2vec. Two approaches were employed to obtain the ranking of expert faculty members using the BERT variations, namely the feature-based approach and fine-tuning. The results of this study shows that the IndoBERT model with the feature-based approach outperforms the baseline, with an improvement of 6% for the MRR metric and up to 9% for the NDCG@10 metric. The fine-tuning approach also yields better results for the IndoBERT model compared to the baseline, with an improvement of 10% for the MRR metric and up to 18% for the P@5 metric. Among these two approaches, it is proven that the fine-tuning approach performs better than the feature-based approach, with an improvement of 1% for the P@10 metric and up to 5% for the MRR metric. This research shows that the use of the pre-trained language model BERT provides better results compared to the baseline word2vec in the task of expert finding."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Naufal Faza
"Penelitian ini bertujuan untuk mengembangkan sistem chatbot yang mampu menjawab pertanyaan seputar akademik Teknik Komputer UI. Sistem ini memanfaatkan teknologi Large Language Model (LLM) Komodo-7B yang telah di-fine-tuning dengan teknik Low-Rank Adaptation (LoRA) dan diintegrasikan dengan Retrieval Augmented Generation (RAG). Dataset Ultrachat yang diterjemahkan ke Bahasa Indonesia digunakan untuk fine-tuning model Komodo-7B, sementara dokumen PDF Kurikulum Teknik Komputer UI 2020 v4 digunakan sebagai sumber informasi untuk model RAG.
Pengujian performa model Komodo-7B menunjukkan bahwa LoRA efektif dalam meningkatkan kemampuan model dalam memahami dan menghasilkan teks percakapan Bahasa Indonesia. Namun, pengujian performa chatbot menggunakan dua dataset pertanyaan, yaitu dataset custom yang dihasilkan menggunakan Giskard dan API ChatGPT, dan dataset Fathurrahman Irwansa yang telah diadaptasi, menunjukkan bahwa sistem chatbot masih memiliki ruang untuk peningkatan. Tingkat akurasi yang rendah pada kedua dataset (32% pada dataset custom dan 24,1% pada dataset Fathur) mengindikasikan bahwa sistem retrieval yang digunakan kurang akurat dalam menemukan konteks yang relevan. Meskipun demikian, ketika model RAG dapat mengambil konteks yang relevan, model Komodo-7B menunjukkan akurasi yang cukup tinggi (80% pada dataset custom dan 91,29% pada dataset Fathur, dihitung dari jumlah ketika kedua Komodo-7B dan konteks benar, kemudian dibagi dengan jumlah ketika konteks benar).
Hasil penelitian menunjukkan bahwa model Komodo-7B memiliki potensi yang baik untuk digunakan pada sistem chatbot jika dikombinasikan dengan sistem retrieval yang lebih akurat. Penelitian ini memberikan kontribusi dalam pengembangan sistem chatbot berbasis LLM untuk menjawab pertanyaan seputar akademik, dan membuka peluang untuk penggunaan yang lebih luas di lingkungan Universitas Indonesia.

This research aims to develop a chatbot system capable of answering questions regarding the academic curriculum of Computer Engineering at Universitas Indonesia. The system utilizes the Komodo-7B Large Language Model (LLM), fine-tuned with Low-Rank Adaptation (LoRA) and integrated with Retrieval Augmented Generation (RAG). The Ultrachat dataset, translated into Indonesian, is used for fine-tuning the Komodo-7B model, while the 2020 v4 Computer Engineering Curriculum PDF document serves as the information source for the RAG model. Performance evaluation of the Komodo-7B model demonstrates that LoRA effectively enhances the model's ability to understand and generate Indonesian text. However, chatbot performance testing using two question datasets, a custom dataset generated using Giskard and the ChatGPT API, and the Fathur dataset adapted from prior research, reveals that the chatbot system still has room for improvement. The low accuracy on both datasets (32% on the custom dataset and 24.1% on the Fathur dataset) indicates that the retrieval system employed is not sufficiently accurate in finding relevant context. Nevertheless, when the RAG model successfully identifies relevant context, the Komodo-7B model exhibits relatively high accuracy (80% on the custom dataset and 91.29% on the Fathur dataset, calculated from the total of when Komodo-7B and the context are both correct, then divided by the total of when the context is correct). The research findings suggest that the Komodo-7B model holds significant potential for chatbot systems when combined with a more accurate retrieval system. This study contributes to the development of LLM-based chatbot systems for answering academic-related questions and opens up opportunities for broader applications within Universitas Indonesia."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ageng Anugrah Wardoyo Putra
"

Walaupun belum semaju dan sekomprehensif bahasa-bahasa lainnya, penelitian NLP bahasa Indonesia telah mengalami perkembangan yang cukup signifikan. Penelitian NLP tersebut mencakup POS-Tagging, Named Entity Recognition, dependency parsing, coreference resolution, dan lain sebagainya. Dari penelitian-penelitian NLP bahasa Indonesia yang telah ada, perlu dilakukan validasi dan verifikasi apakah modul NLP pada penelitian tersebut masih relevan atau tidak. Hal tersebut perlu dilakukan karena mungkin saja terjadi kesalahan pada penelitian sebelumnya atau terdapat model yang lebih baik dari penelitian tersebut. Proses tersebut dapat dilakukan melalui evaluasi intrinsik maupun ekstrinsik. Evaluasi intrinsik dapat dilakukan dari reproduksi atau replikasi penelitian yang telah ada, sementara itu evaluasi ekstrinsik dilakukan dengan membangun sistem tanya jawab dari modul-modul NLP tersebut. Hasilnya, didapatkan beberapa modul seperti POS-Tagging dan NER masih cukup relevan dan memiliki dataset yang berkualitas. Namun, beberapa modul lain seperti coreference resolution, constituency parsing, dan dependency parsing masih perlu perkembangan lebih lanjut. Berdasarkan hasil evaluasi, sistem yang dibangun memiliki performa terbaik untuk metrik exact match dan F1 berturut-turut di angka 0,108 dan 0,151 untuk dataset SQuAD, 0,063 dan 0,191 untuk dataset TyDiQA, serta 0,127 dan 0,173 untuk dataset IDK-MRC. Dari evaluasi tersebut diketahui juga bahwa sistem tanya jawab yang dibangun menggunakan pipeline modul-modul NLP tidak sebaik model tanya jawab end-to-end menggunakan BERT yang telah di-finetuning. Meskipun begitu, dari hasil penelitian ini ditunjukkan bahwa kita dapat membangun suatu sistem tanya jawab berdasarkan modul-modul NLP bahasa Indonesia yang tersedia.


Although not as advanced and comprehensive as in other languages, research in Indonesian NLP has experienced significant development. This NLP research encompasses POS-Tagging, Named Entity Recognition, dependency parsing, coreference resolution, and other related areas. From the existing NLP studies conducted in the Indonesian language, it is essential to validate and verify whether the NLP modules used in the research are still relevant. This is important because there might have been errors in previous research or there might be better models available. This process can be accomplished through both intrinsic and extrinsic evaluations. Intrinsic evaluation can be conducted by reproducing or replicating existing research, while extrinsic evaluation involves building a question answering system using these NLP modules. The results show that some modules, such as POS-Tagging and NER, are still quite relevant and have high-quality datasets. However, other modules like coreference resolution, constituency parsing, and dependency parsing still require further development. Based on the evaluation results, the constructed system performs best in terms of exact match and F1 metrics, with scores of 0.108 and 0.151 for the SQuAD dataset, 0.063 and 0.191 for the TyDiQA dataset, and 0.127 and 0.173 for the IDK-MRC dataset, respectively. The evaluation also reveals that the question-answering system built using a pipeline of NLP modules does not perform as well as the end-to-end question-answering model using fine-tuned BERT. Nevertheless, this research demonstrates the feasibility of building a question-answering system based on the available Indonesian NLP modules.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Machffud Tra Harana Vova
"Indonesia merupakan negara yang wilayahnya sering mengalami bencana alam. Salah satu penanganan bencana alam adalah pengumpulan informasi berita bencana seperti artikel atau koran, yang mana berguna untuk meningkatkan readability. Meskipun be- gitu, sekadar pengumpulan artikel saja cukup sulit karena identfikasinya dapat memakan waktu serta makna yang termuat pada berita juga masih perlu diserap. Oleh karena itu perlu dilakukan klasifikasi dokumen untuk memilih teks dokumen yang relevan dengan bencana alam, kemudian dari teks dokumen yang relevan dilakukan ekstraksi informasi. Penelitian mengenai klasifikasi teks bencana alam serta ekstraksi informasi yang sudah dilakukan masih menggunakan pendekatan pemelajaran mesin tradisional serta belum memanfaatkan pre-trained model berbasis bahasa Indonesia. Penggunaan pre-trained model dan pendekatan deep learning sendiri sering memperoleh performa yang lebih baik, sehingga ada kemungkinan performa yang dihasilkan dapat ditingkatkan. Dalam penelitian ini dilakukan eksperimen menggunakan pre-trained word embedding seperti Word2Vec dan fastText, pendekatan deep learning seperti BERT dan BiLSTM untuk task klasifikasi. Hasil dengan pendekatan pemelajaran mesin tradisional dengan BoW yang sudah direproduksi menjadi yang terbaik hampir secara keseluruhan, meskipun jenis classifier yang digunakan adalah MLP yang mana sudah menerapkan deep learning karena memiliki beberapa neuron. Kemudian pada penggunaan model pre-trained seperti BERT, terdapat keterbatasan panjang masukan. Keterbatasan ini dapat ditangani dengan membuat representasi dokumen menjadi lebih pendek menggunakan metode peringkasan teks. Hasil representasi ringkasan dokumen dalam penelitian ini mampu meningkatkan performa akurasi klasifikasi baik pada pendekatan pemelajaran mesin tradisional maupun deep learning. Penelitian ini juga melakukan ekperimen penggunaan pre-trained model yang sudah fine-tuned untuk task ekstraksi lokasi seperti NER dan dependency parsing berbasis bahasa Indonesia, meskipun belum dihasilkan performa yang cukup baik.

Indonesia is a country whose often experiences natural disasters. One way to deal with natural disasters is to collect disaster news information such as articles or newspapers, which are useful for increasing readability. Even so, just collecting articles is quite difficult because identification can take time and the meaning contained in the news still needs to be absorbed. Therefore, it is necessary to classify documents to select document texts that are relevant to natural disasters, then extract information from the relevant document texts. Research on natural disaster text classification and information extraction that has been carried out still uses the traditional machine learning approach and has not yet utilized Indonesian language-based pre-trained models. The use of pre- trained models and deep learning approaches themselves often get better performance, so there is a possibility that the resulting performance can be improved. In this study, experiments were carried out using pre-trained word embedding such as Word2Vec and fastText, deep learning approaches such as BERT and BiLSTM for classification tasks. The results with traditional machine learning approaches with reproducible BoW are the best almost overall, even though the type of classifier used is MLP which already implements deep learning because it has few neurons. Then in the use of pre-trained models such as BERT, there are limitations to the length of the input. This limitation can be overcome by making the document representation shorter using the text summary method. The results of the document summary representation in this study were able to improve the performance of classification accuracy in both traditional and deep learning machine learning approaches. This study also conducted experiments using pre-trained models that had been fine-tuned for location extraction tasks such as NER and Indonesian language-based dependency parsing, although they did not produce sufficiently good performance."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>