Hasil Pencarian

Ditemukan 19 dokumen yang sesuai dengan query

Naradhipa Mahardhika Setiawan Bhary

Named Entity Recognition pada Dokumen Legal Berbahasa Indonesia = Named Entity Recognition on Indonesian Legal Documents

"Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.

As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Tulus Setiawan

Studi Komparasi Kinerja Analisis Sentimen Bahasa Indonesia Berbasis Large Language Model BERT dan GPT = Comparative Study of Sentiment Analysis Performance of Indonesian Language Based on Large Language Model BERT and GPT

"Indonesia merupakan salah satu negara yang sempat terimbas COVID-19. Hal itu berdampak pada sektor pariwisata, khususnya industri perhotelan di Indonesia. Meskipun begitu, sekarang sektor pariwisata di Indonesia mulai pulih kembali, khususnya untuk industri perhotelan. Badan Pusat Statistik (BPS) mencatat bahwa pada tahun 2023, tingkat penghunian kamar (TPK) hotel bintang bahkan mengalami kenaikan dibandingkan dengan tahun 2022, kenaikan hotel bintang mencapai 51,12%. Dengan meningkatnya permintaan terhadap tingkat hunian hotel, ulasan yang diberikan oleh pelanggan terhadap hotel menjadi hal yang penting untuk dianalisis. Salah satu jenis analisis yang dapat dilakukan terhadap ulasan-ulasan tersebut adalah analisis sentimen untuk mengklasifikasi sentimen yang terkandung dalam ulasan ke dalam kelompok-kelompok sentimen tertentu. Walaupun model-model deep learning seperti Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), dan Gated Recurrent Unit (GRU) atau bahkan model hybrid dan fully-connected layer neural network dengan representasi Bidirectional Encoder Representations from Transformers (BERT) terbukti menghasilkan kinerja yang baik dalam melakukan analisis sentimen, tetapi beberapa masalah yang umumnya dihadapi adalah fleksibilitas, efisiensi waktu, dan sumber daya yang dibutuhkan dalam penggunaannya. Oleh sebab itu, metode GPT berbasis prompt dapat menjadi salah satu solusi untuk permasalahan tersebut. Dengan menggunakan GPT berbasis prompt, pengguna dapat langsung memanfaatkan pengetahuan dan pemahaman bahasa yang telah diperoleh model GPT selama proses pelatihan pada korpus teks yang sangat besar. Hal ini memungkinkan model untuk menghasilkan prediksi sentimen yang akurat tanpa perlu melalui proses pelatihan yang panjang dan kompleks. Penelitian ini menganalisis dan membandingkan kinerja Large Language Model BERT dan GPT sebagai metode untuk analisis sentimen berbahasa Indonesia. Hasil Penelitian menunjukkan bahwa rata-rata kinerja model GPT secara keseluruhan lebih unggul dibandingkan model BERT dengan fully-connected layer neural network (BERT-NN) untuk dataset tiket.com, PegiPegi, dan Traveloka. Secara spesifik, model GPT dengan pendekatan zero-shot memiliki rata-rata kinerja yang paling unggul dibandingkan dengan pendekatan one-shot dan few-shot. Untuk rata-rata kinerja terhadap ketiga dataset tersebut, GPT dengan pendekatan zero-shot memberikan peningkatan sebesar 1,28%, 1,45%, dan 6,2% untuk metrik akurasi, F1-score, dan sensitivity secara berurutan terhadap kinerja BERT-NN. Hasil ini menunjukkan potensi metode GPT berbasis prompt sebagai alternatif yang efisien dan fleksibel secara penggunaan untuk analisis sentimen pada ulasan hotel berbahasa Indonesia.

Indonesia was one of the countries affected by COVID-19. This impacted the tourism sector, particularly the hotel industry in Indonesia. However, the tourism sector in Indonesia is now beginning to recover, especially for the hotel industry. The Central Statistics Agency (BPS) recorded that in 2023, the occupancy rate of star-rated hotels even increased compared to 2022, with the increase reaching 51.12%. With the rising demand for hotel occupancy rates, customer reviews of hotels have become important to analyze. One type of analysis that can be performed on these reviews is sentiment analysis to classify the sentiments contained in the reviews into specific sentiment groups. Although deep learning models such as Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU), or even hybrid models and fully-connected layer neural networks with Bidirectional Encoder Representations from Transformers (BERT) representation have been proven to produce good performance in sentiment analysis, some common problems faced are flexibility, time efficiency, and resources required for their use. Therefore, prompt-based GPT methods can be a solution to these problems. By using prompt-based GPT, users can directly leverage the knowledge and language understanding that the GPT model has acquired during training on a vast text corpus. This allows the model to generate accurate sentiment predictions without going through a long and complex training process. This study analyzes and compares the performance of BERT and GPT Large Language Models as methods for Indonesian language sentiment analysis. The results show that the average overall performance of the GPT model is superior to the BERTmodel with a fully-connected layer neural network (BERT-NN) for datasets from tiket.com, PegiPegi, and Traveloka. Specifically, the GPT model with a zero-shot approach has the most superior average performance compared to the one-shot and few-shot approaches. For the average performance across these three datasets, GPT with a zero-shot approach provides improvements of 1.28%, 1.45%, and 6.2% for accuracy, F1-score, and sensitivity metrics, respectively, compared to BERT-NN performance. These results demonstrate the potential of prompt-based GPT methods as an efficient and flexible alternative for sentiment analysis on Indonesian language hotel reviews."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ezra Pasha Ramadhansyah

Neural Re-Ranker untuk Mengidentifikasi Pertanyaan Serupa pada Forum Kesehatan Berbahasa Indonesia = Neural Re-Rankers to Identify Duplicate Questions in Indonesian Health Forums

"Sistem perolehan pertanyaan serupa diimplementasikan pada banyak situs tanya jawab, khususnya pada forum tanya jawab kesehatan. Implementasi dari sistem pencarian pertanyaan serupa dapat beragam seperti text based retriever dan neural ranker. Permasalahan utama dari neural ranker adalah kurangnya penelitian dalam bahasa indonesia untuk modelnya, khususnya untuk yang menggunakan BERT sebagai model untuk deteksi pertanyaan serupa. Pada penelitian ini akan dicari tahu sejauh apa neural re-ranker BERT dapat memperbaiki kualitas ranking dari text-based retriever jika diterapkan fine-tuning pada model. Model yang digunakan oleh penelitian berupa BERT dan test collection yang digunakan merupakan dataset forum kesehatan yang disusun oleh Nurhayati (2019). Untuk mengetahui sejauh mana model berbasis BERT dapat berguna untuk re-ranking, eksperimen dilakukan pada model pre-trained multilingualBERT, indoBERT, stevenWH, dan distilBERT untuk melihat model yang terbaik untuk di-fine-tune. Penelitian juga mengusulkan dua metode fine-tuning yakni attention mask filter dengan IDF dan freezed layer dengan melakukan freezing pada beberapa layer di dalam BERT. Model dan metode ini kemudian diuji pada beberapa skenario yang telah ditentukan. Hasil dari eksperimen menunjukkan bahwa re-ranker dapat meningkatkan kualitas text based retriever bila di-fine-tune dengan metode dan skenario tertentu.

Beberapa model memberikan hasil yang lebih baik dengan dataset forum kesehatan dan dengan text based retriever BM25 dan TF-IDF. Model multilingualBERT dan metode fine-tuning layer freezing memberikan hasil yang terbaik dari semua kombinasi. Kenaikan tertinggi terdapat pada kombinasi BM25 dan multilingualBERT dengan layer freezing dengan kenaikan sebesar 0.051 dibandingkan BM25.

The system of acquiring similar questions is implemented on many Question and Answering sites, including health forums. Implementations of similar question search systems can vary, such as text-based retrievers and neural rankers. The main issue with neural rankers is the lack of research in Indonesian language for neural ranker models, especially those using BERT. This study aims to investigate how far BERT as a neural re-ranker can improve the ranking quality of a text-based retriever when applied with fine-tuning. The model used in this research is BERT, and the test collection used is a health forum dataset compiled by Nurhayati (2019). To answer the research question, experiments were conducted on multiple pre-trained models: multilingual BERT, IndoBERT, stevenWH, and distilBERT to identify the best model for fine-tuning. This study also proposes two new fine-tuning methods: attention mask filter with IDF threshholding and frozen layer by freezing some layers within BERT. These models and methods were then tested under predefined scenarios. The experiment results show that the re-ranker can enhance the quality of the text-based retriever when fine-tuned with specific methods and scenarios. These models perform especially well using the health form dataset aswell as using the text based retrievers BM25 and TF-IDF. Out of all models, multilingulBERT performed the best with freezed layer fine-tuning performing as the best fine-tuning method. The most significant increase of all combinations is the combination of BM25 and multilingualBERT with freezed layer fine-tuning with a 0.051 increase compared to the baseline BM25."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Aulia Nur Fadhilah

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

"Indonesia merupakan negara hukum yang mengadopsi asas Fictie Hukum. Asas tersebut memandang setiap orang tahu hukum tanpa pengecualian. Penyediaan akses yang mudah terhadap produk hukum merupakan konsekuensi dari hal tersebut. Meski telah tersedia beberapa layanan daring pencarian hukum, baik oleh pemerintah maupun swasta, layanan tersebut belum mampu menangkap relasi intradokumen dan antardokumen dengan baik. Dalam meningkatkan sistem pencarian hukum, terdapat knowledge graph (KG) bernama LexID yang menghadirkan representasi peraturan perundang-undangan Indonesia dalam sebuah graf. KG tersebut dikonstruksi dengan pendekatan rule-based. Namun, pendekatan rule-based tidak mudah beradaptasi dengan perubahan dalam format atau konten dokumen dan memerlukan pemeliharaan berkelanjutan. Penelitian ini mengusulkan pendekatan lain dalam konstruksi LexID. Proses konstruksi LexID dilakukan menggunakan pre-trained large language model (LLM) berupa CodeGemma parameter 7B, Code Llama parameter 7B, dan Phi-3 parameter 7B. Jenis prompt yang digunakan, yaitu prompt kode dan teks dengan variasi 1-shot dan 2-shot, sehingga total terdapat dua belas skenario percobaan. Hasil konstruksi KG kemudian dievaluasi terhadap KG LexID dan diukur menggunakan metrik precision, recall, dan skor F1. Dari hasil konstruksi, didapatkan skor F1 hasil dari prompt teks 1-shot: CodeGemma 0.405, CodeLlama 0.452, dan Phi 0.362; skor F1 hasil dari prompt kode 1-shot: CodeGemma 0.645, CodeLlama 0.567, dan Phi 0.526; skor F1 hasil dari prompt teks 2-shot: CodeGemma 0.572, CodeLlama 0.502, dan Phi 0.386; skor F1 hasil dari prompt kode 2-shot: CodeGemma 0.687, CodeLlama 0.583, dan Phi 0.539.

Indonesia operates under a legal system that adopts the principle of Legal Fiction, which posits that every individual is presumed to be aware of the law without exception. Consequently, providing easy access to legal documents is imperative. Despite the availability of several online legal search services offered by both government and private entities, these services have yet to effectively capture intra-document and inter-document relationships. To enhance the legal search system, a knowledge graph (KG) named LexID has been developed to represent Indonesian legislation in a graph format. This KG has traditionally been constructed using a rule-based approach. However, this approach struggles to adapt to changes in document format or content and necessitates continuous maintenance. This study proposes an alternative approach for the construction of LexID utilizing pre-trained large language models (LLMs), specifically CodeGemma with 7 billion parameters, Code Llama with 7 billion parameters, and Phi-3 with 7 billion parameters. The study employs both code and text prompts, with variations of 1-shot and 2-shot, resulting in a total of twelve experimental scenarios. The constructed KG is then evaluated against the existing LexID KG, using precision, recall, and F1 score metrics. The results of the construction indicate the following F1 scores: for 1-shot text prompts, CodeGemma achieved 0.405, Code Llama 0.452, and Phi 0.362; for 1-shot code prompts, CodeGemma achieved 0.645, Code Llama 0.567, and Phi 0.526; for 2-shot text prompts, CodeGemma achieved 0.572, Code Llama 0.502, and Phi 0.386; and for 2-shot code prompts, CodeGemma achieved 0.687, Code Llama 0.583, and Phi 0.539."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Halif

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Haddad

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Haddad

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

Unggah3 Universitas Indonesia Library

Muhammad Haddad

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

Unggah3 Universitas Indonesia Library

Muhammad Halif

Konstruksi Knowledge Graph pada Dokumen Peraturan Perundang-undangan Indonesia Menggunakan Large Language Model = Knowledge Graph Construction on Indonesian Legal Documents using Large Language Model

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Jafar Abdurrohman

Named Entity Recognition pada Dokumen Legal Berbahasa Indonesia = Named Entity Recognition on Indonesian Legal Documents

Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian