Hasil Pencarian

Ditemukan 189575 dokumen yang sesuai dengan query

Fransisco William Sudianto

Pengembangan Alat Ekstraksi Informasi Pada Teks Berita Dengan Large Language Model Dan Knowledge Graph = Development of Information Extraction Tools for News Texts with Large Language Model and Knowledge Graph

"Perkembangan Large Language Model (LLM) terjadi secara cepat dan mengalami kemajuan yang signifikan.Hal ini mendorong penggunaandanpemanfaatan LLM pada berbagai bidang. Disisilain, Knowledge Graph (KG) menyediakan cara yang terstruktur dan bermakna untuk menyimpan informasi. KG sudah banyak digunakan secara luas di berbagai aplikasi, seperti mesin pencari,system rekomendasi, dan sistem penjawab pertanyaan. Salah satu pemanfaatan LLM dan KG yang masih jarang adalah pada bidang jurnalistik, khususnya untuk menganalisis dan memvisualisasikan berita. Penelitian ini bertujuan untuk mengembangkan alat ekstraksi informasi yang efisien, akurat, dan interaktif untuk menganalisis teks berita menggunakan pendekatan gabungan antara LLM dan KG. Metode ini menggabungkan keunggulan kedua teknik tersebut untuk meningkatkan pemahaman dan ekstraksi informasi dari teks berita yang kompleks. Tujuannya adalah agar pembaca dapat memahami informasi yang terdapat pada teks berita dengan lebih interaktif. Penulis memanfaatkan LLM yang telah terlatih secara luas dalam memahami dan menghasilkan teks untuk mengidentifikasi informasi penting dalam teks berita, seperti entitas, sentimen, kutipan, relasi antar entitas, dan unsur 5W1H (Who, What, Where, When, Why, How), urutan kronologis kejadian, dan hubungan bagian-keseluruhan (mereology) dalam teks berita. Untuk mengekstraksi informasiterse- but, prompt dimodifikasi dengan menggunakan pendekatan one-shot-prompting untuk memberikan konteks dan contoh kepada LLM dalam memahami teks berita. Kemudian, informasi yang diekstraksi di visualisasikan dalam bentuk KG yang merepresentasikan pengetahuan terstruktur tentang entitas dan hubungannya didalam teks. Selainitu, penelitian melibatkan pembuatan sebuah website yang akan menyediakan antarmuka untuk system agar pengguna dapat melakukan analisis teks berita secara langsung dan interaktif. Evaluasi utama yang dilakukan pada penelitian ini adalah mengukur akurasi jawaban yang dihasilkan oleh LLM pada setiap bagian informasi yang diekstraksi dan bagaimana visualisasi KG yang baik untuk informasi yang didapat. Penelitian ini menunjukkan bahwa LLM mampu mengekstraksi informasi yang diinginkan dengan cukup akurat dan visualisasi KG dapat menyajikan informasi dengan lebih interaktif dan mudah dimengerti. Penelitian initelah menunjukkan bahwa LLM dan KG dapat dimanfaatkan sebagai alat ekstraksi dan visualisasi informasi yang ada pada teks berita.

The development of Large Language Model (LLM) is happening rapidly and has made significant progress. This encourages the use and utilization of LLM in various fields. On the other hand, Knowledge Graph (KG) provides a structured and meaningful way to store information. KG has been widely used in various applications, such as search engines, recommendation systems, and question answering systems. One of the uses of LLM and KG that is still rare is in the field of journalism, especially for analyzing and visualizing news. This study aims to develop an efficient, accurate, and interactive information extraction tool for analyzing news texts using a combined approach between LLM and KG. This method combines the advantages of both techniques to improve understanding and information extraction from complex news texts. The goal is for readers to understand the information contained in the news text more interactively. The author uses LLM which has been widely trained in understanding and producing text to identify important information in news texts, such as entities, sentiments, quotes, relationships between entities, and 5W1H elements (Who, What, Where, When, Why, How), chronological sequence of events, and part-whole relationships (mereology) in news texts. To extract the information, the prompt is modified using a one-shot-prompting approach to provide context and examples to LLM in understanding the news text. Then, the extracted information is visualized in the form of KG which represents structured knowledge about entities and their relationships in the text. In addition, the study involves the creation of a website that will provide an interface for the system so that users can analyze news texts directly and interactively. The main evaluation carried out in this study is to measure the accuracy of the answers generated by LLM on each part of the extracted information and how good KG visualization is for the information obtained. This study shows that LLM is able to extract the desired information quite accurately and KG visualization can present information more interactively and easily understood. This study has shown that LLM and KG can be used as tools for extracting and visualizing information in news texts."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Aulia Nur Fadhilah

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

"Indonesia merupakan negara hukum yang mengadopsi asas Fictie Hukum. Asas tersebut memandang setiap orang tahu hukum tanpa pengecualian. Penyediaan akses yang mudah terhadap produk hukum merupakan konsekuensi dari hal tersebut. Meski telah tersedia beberapa layanan daring pencarian hukum, baik oleh pemerintah maupun swasta, layanan tersebut belum mampu menangkap relasi intradokumen dan antardokumen dengan baik. Dalam meningkatkan sistem pencarian hukum, terdapat knowledge graph (KG) bernama LexID yang menghadirkan representasi peraturan perundang-undangan Indonesia dalam sebuah graf. KG tersebut dikonstruksi dengan pendekatan rule-based. Namun, pendekatan rule-based tidak mudah beradaptasi dengan perubahan dalam format atau konten dokumen dan memerlukan pemeliharaan berkelanjutan. Penelitian ini mengusulkan pendekatan lain dalam konstruksi LexID. Proses konstruksi LexID dilakukan menggunakan pre-trained large language model (LLM) berupa CodeGemma parameter 7B, Code Llama parameter 7B, dan Phi-3 parameter 7B. Jenis prompt yang digunakan, yaitu prompt kode dan teks dengan variasi 1-shot dan 2-shot, sehingga total terdapat dua belas skenario percobaan. Hasil konstruksi KG kemudian dievaluasi terhadap KG LexID dan diukur menggunakan metrik precision, recall, dan skor F1. Dari hasil konstruksi, didapatkan skor F1 hasil dari prompt teks 1-shot: CodeGemma 0.405, CodeLlama 0.452, dan Phi 0.362; skor F1 hasil dari prompt kode 1-shot: CodeGemma 0.645, CodeLlama 0.567, dan Phi 0.526; skor F1 hasil dari prompt teks 2-shot: CodeGemma 0.572, CodeLlama 0.502, dan Phi 0.386; skor F1 hasil dari prompt kode 2-shot: CodeGemma 0.687, CodeLlama 0.583, dan Phi 0.539.

Indonesia operates under a legal system that adopts the principle of Legal Fiction, which posits that every individual is presumed to be aware of the law without exception. Consequently, providing easy access to legal documents is imperative. Despite the availability of several online legal search services offered by both government and private entities, these services have yet to effectively capture intra-document and inter-document relationships. To enhance the legal search system, a knowledge graph (KG) named LexID has been developed to represent Indonesian legislation in a graph format. This KG has traditionally been constructed using a rule-based approach. However, this approach struggles to adapt to changes in document format or content and necessitates continuous maintenance. This study proposes an alternative approach for the construction of LexID utilizing pre-trained large language models (LLMs), specifically CodeGemma with 7 billion parameters, Code Llama with 7 billion parameters, and Phi-3 with 7 billion parameters. The study employs both code and text prompts, with variations of 1-shot and 2-shot, resulting in a total of twelve experimental scenarios. The constructed KG is then evaluated against the existing LexID KG, using precision, recall, and F1 score metrics. The results of the construction indicate the following F1 scores: for 1-shot text prompts, CodeGemma achieved 0.405, Code Llama 0.452, and Phi 0.362; for 1-shot code prompts, CodeGemma achieved 0.645, Code Llama 0.567, and Phi 0.526; for 2-shot text prompts, CodeGemma achieved 0.572, Code Llama 0.502, and Phi 0.386; and for 2-shot code prompts, CodeGemma achieved 0.687, Code Llama 0.583, and Phi 0.539."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Halif

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Halif

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Haddad

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Haddad

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

Unggah3 Universitas Indonesia Library

Muhammad Haddad

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

Unggah3 Universitas Indonesia Library

Keyza Asyadda Ramadhan Mufron

Model Tanya Jawab bidang Hukum Menggunakan Large Language Model Generatif dengan Few-shot Prompting pada Knowledge Graph LexID = Legal Question Answering Model Using Generative Large Language Model with Few-shot Prompting on LexID Knowledge Graph

"Berdasarkan UU Nomor 12 Tahun 2011, peraturan perundang-undangan harus ditempatkan dalam beberapa media agar dapat diakses seluruh warga. Akan tetapi, beberapa layanan resmi memiliki isu efisiensi bagi pengguna untuk mencari informasi antar peraturan hukum. Solusi alternatif sistem tanya jawab hukum berbasis knowledge graph, yaitu LexID QA memiliki keterbatasan pada pertanyaan yang lebih ekspresif. Penelitian ini mengusulkan sistem tanya jawab hukum berbasis LLM dengan knowledge graph LexID melalui few-shot prompting. Sistem yang dibangun menerjemahkan pertanyaan menjadi kueri SPARQL. Sistem terdiri dari dua komponen, yaitu tanya jawab dan entity linking. Entity linking dilakukan dengan model berbahasa Indonesia untuk memetakan pertanyaan yang diberikan pengguna menjadi pemetaan entitas dan IRI. Kemudian, tanya jawab dilakukan dengan model code generation untuk menerjemahkan pertanyaan beserta informasi entity linking menjadi kueri SPARQL, bahasa kueri knowledge graph.

Based on Act 12/2011, legal document must be placed in several medias for citizen to access it. However, government services have shortcoming in efficiently retrieving information involving two or more legal documents. Existing solution to this issue is LexID QA yet unable to process more expressive question. This research proposes knowledge graph legal question answering based on LLM utilizing few-shot prompting. Proposed system is expected to transform question into SPARQL query. Proposed system is composed of two components, that is question answering and entity linking. Entity linking utilize Indonesian LLM to map user's question into entity-IRI mapping. Question answering model then translate question to SPARQL query with entity linking as an additional context."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Hanif Pramudya Zamzami

Analisis dan Pengembangan Penalaran Deduktif pada Large Language Model = Analysis and Development of Deductive Reasoning in Large Language Model

"Penalaran deduktif adalah suatu metode berpikir logis di mana seseorang menarik kesimpulan spesifik (hipotesis) berdasarkan premis atau pernyataan umum yang dianggap benar dengan menerapkan aturan inferensi logika. Aturan inferensi logika adalah prinsip-prinsip logika yang memungkinkan seseorang untuk mengambil hipotesis yang absah dari premis yang diberikan. Meskipun penalaran deduktif memiliki keunggulan pada penalaran yang absah, manusia cenderung membuat kesalahan dalam bernalar deduktif. Salah satu model bahasa untuk penalaran deduktif adalah Natural Logic (NatLog), yaitu model berbasis machine learning yang dilatih untuk melakukan klasifikasi kelas dari hubungan persyaratan antar kalimat. Namun, model memiliki keterbatasan pada rentang kalimat yang panjang. Di sisi lain, Large Language Model (LLM) seperti Generative Pre-trained Transformer (GPT) telah menunjukkan performa yang baik dalam tugas penalaran deduktif, terutama dengan menggunakan metode Chain of Thought (CoT). Namun, metode CoT masih menimbulkan masalah halusinasi dan inkonsistensi dari langkah perantaranya, yang berujung pada konklusi akhir yang tidak absah. Metode Chain of Thought - Self-Consistency (CoT-SC) merupakan pengembangan dari metode CoT yang bertujuan untuk meningkatkan kemampuan penalaran pada LLM. Dalam metode CoT-SC, CoT dijalankan beberapa kali untuk menghasilkan beberapa sampel jawaban. Setelah itu, dilakukan operasi modus, yaitu pemilihan jawaban yang paling sering muncul di antara sampel-sampel yang dihasilkan, untuk menentukan jawaban akhir. Jawaban dengan frekuensi kemunculan terbanyak dianggap sebagai jawaban yang paling konsisten dan akurat. Tujuan dari penelitian ini adalah untuk mengimplementasikan dan menganalisis kemampuan metode CoT-SC pada model GPT dalam menyelesaikan tugas penalaran deduktif. Penelitian ini akan mengevaluasi kemampuan penalaran deduktif pada model GPT menggunakan tiga sumber data yang merepresentasikan tiga domain tugas penalaran deduktif yang berbeda, yaitu ProntoQA, ProofWriter, dan FOLIO. Setelah itu, akan dilakukan analisis perbandingan performa LLM berbasis metode CoT-SC dengan manusia dalam menyelesaikan tugas penalaran deduktif. Hasil penelitian menunjukkan bahwa metode CoT-SC menunjukkan performa akurasi yang baik dalam mayoritas tugas penalaran deduktif serta LLM GPT dengan metode CoT-SC mengungguli 1 dari 3 domain tugas penalaran deduktif. Hasil ini menunjukkan model GPT berbasis metode CoT-SC memiliki potensi dalam tugas penalaran deduktif.

Deductive reasoning is a method of logical thinking in which one draws specific conclusions (hypotheses) based on general premises or statements that are considered true by applying the rules of logical inference. Rules of logical inference are principles of logic that allow one to derive valid hypotheses from given premises. Although deductive reasoning has the advantage of valid reasoning, humans tend to make mistakes in deductive reasoning. One of the language models for deductive reasoning is Natural Logic (NatLog), which is a machine learning-based model trained to perform class classification of conditional relations between sentences. However, the model has limitations on long sentence ranges. On the other hand, Large Language Models (LLMs) such as Generative Pre-trained Transformer (GPT) have shown good performance in deductive reasoning tasks, especially by using the Chain of Thought (CoT) method. However, the CoT method still raises the problem of hallucinations and inconsistencies of the intermediate steps, leading to invalid final conclusions. The Chain of Thought - Self-Consistency (CoT-SC) method is a development of the CoT method that aims to improve reasoning ability in LLM. In the CoT-SC method, CoT is run several times to produce several sample answers. After that, a mode operation is performed, which is the selection of the most frequently occurring answer among the generated samples, to determine the final answer. The answer with the highest frequency of occurrence is considered the most consistent and accurate answer. The purpose of this study is to implement and analyze the ability of the CoT-SC method on the GPT model in solving deductive reasoning tasks. This study will evaluate the deductive reasoning ability of the GPT model using three data sources representing three different deductive reasoning task domains, namely ProntoQA, ProofWriter, and FOLIO. After that, a comparative analysis of the performance of LLM based on the CoT-SC method with humans in solving deductive reasoning tasks. These results indicate the GPT model based on the CoT-SC method has a potential in deductive reasoning tasks."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Machffud Tra Harana Vova

Klasifikasi Dokumen dan Ekstraksi Lokasi pada Berita Bencana Alam dengan Pendekatan Neural Network dan Pre-Trained Language Model = Document Classification and Location Extraction in Natural Disaster News with Neural Network Approach and Pre-Trained Language Model

"Indonesia merupakan negara yang wilayahnya sering mengalami bencana alam. Salah satu penanganan bencana alam adalah pengumpulan informasi berita bencana seperti artikel atau koran, yang mana berguna untuk meningkatkan readability. Meskipun be- gitu, sekadar pengumpulan artikel saja cukup sulit karena identfikasinya dapat memakan waktu serta makna yang termuat pada berita juga masih perlu diserap. Oleh karena itu perlu dilakukan klasifikasi dokumen untuk memilih teks dokumen yang relevan dengan bencana alam, kemudian dari teks dokumen yang relevan dilakukan ekstraksi informasi. Penelitian mengenai klasifikasi teks bencana alam serta ekstraksi informasi yang sudah dilakukan masih menggunakan pendekatan pemelajaran mesin tradisional serta belum memanfaatkan pre-trained model berbasis bahasa Indonesia. Penggunaan pre-trained model dan pendekatan deep learning sendiri sering memperoleh performa yang lebih baik, sehingga ada kemungkinan performa yang dihasilkan dapat ditingkatkan. Dalam penelitian ini dilakukan eksperimen menggunakan pre-trained word embedding seperti Word2Vec dan fastText, pendekatan deep learning seperti BERT dan BiLSTM untuk task klasifikasi. Hasil dengan pendekatan pemelajaran mesin tradisional dengan BoW yang sudah direproduksi menjadi yang terbaik hampir secara keseluruhan, meskipun jenis classifier yang digunakan adalah MLP yang mana sudah menerapkan deep learning karena memiliki beberapa neuron. Kemudian pada penggunaan model pre-trained seperti BERT, terdapat keterbatasan panjang masukan. Keterbatasan ini dapat ditangani dengan membuat representasi dokumen menjadi lebih pendek menggunakan metode peringkasan teks. Hasil representasi ringkasan dokumen dalam penelitian ini mampu meningkatkan performa akurasi klasifikasi baik pada pendekatan pemelajaran mesin tradisional maupun deep learning. Penelitian ini juga melakukan ekperimen penggunaan pre-trained model yang sudah fine-tuned untuk task ekstraksi lokasi seperti NER dan dependency parsing berbasis bahasa Indonesia, meskipun belum dihasilkan performa yang cukup baik.

Indonesia is a country whose often experiences natural disasters. One way to deal with natural disasters is to collect disaster news information such as articles or newspapers, which are useful for increasing readability. Even so, just collecting articles is quite difficult because identification can take time and the meaning contained in the news still needs to be absorbed. Therefore, it is necessary to classify documents to select document texts that are relevant to natural disasters, then extract information from the relevant document texts. Research on natural disaster text classification and information extraction that has been carried out still uses the traditional machine learning approach and has not yet utilized Indonesian language-based pre-trained models. The use of pre- trained models and deep learning approaches themselves often get better performance, so there is a possibility that the resulting performance can be improved. In this study, experiments were carried out using pre-trained word embedding such as Word2Vec and fastText, deep learning approaches such as BERT and BiLSTM for classification tasks. The results with traditional machine learning approaches with reproducible BoW are the best almost overall, even though the type of classifier used is MLP which already implements deep learning because it has few neurons. Then in the use of pre-trained models such as BERT, there are limitations to the length of the input. This limitation can be overcome by making the document representation shorter using the text summary method. The results of the document summary representation in this study were able to improve the performance of classification accuracy in both traditional and deep learning machine learning approaches. This study also conducted experiments using pre-trained models that had been fine-tuned for location extraction tasks such as NER and Indonesian language-based dependency parsing, although they did not produce sufficiently good performance."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian