Hasil Pencarian

Ditemukan 110022 dokumen yang sesuai dengan query

Rama Rizki

Penggunaan pengelompokan dokumen untuk mengurangi ambigiuitas kata pada perolehan informasi lintas bahasa

"Tema sentral dari penelitian ini adalah ?Perolehan Informasi Lintas Bahasa? yang merupakan salah satu cabang dari perolehan informasi yang berhubungan dengan masalah dalam menyajikan suatu kueri dari satu bahasa dan memperoleh dokumen dalam satu bahasa ataupun beberapa bahasa yang lain. Penelitian ini mempelajari pengaruh teknik-teknik perolehan informasi lintas bahasa pada proses penerjemahan kueri. Teknik tersebut digunakan untuk mengurangi keambiguan pada kueri terjemahan sehingga dapat mendekati proses perolehan informasi satu bahasa. Teknik yang digunakan terdiri dari teknik perbaikan kueri sebelum penerjemahan, perbaikan terjemahan oleh kamus, dan pengelompokan dokumen, serta teknik perbaikan kueri dengan melakukan perluasan. Teknik perbaikan kueri sebelum penerjemahan menggunakan teknik pengelompokan kata. Teknik perbaikan terjemahan kamus terdiri dari penerjemahan langsung, penerjemahan dengan menggunakan terjemahan yang muncul berulangkali pada setiap kamus, dan teknik pengelompokan dokumen. Teknik perluasan kueri menggunakan umpan balik relevan semu. Teknik-teknik tersebut berbasiskan teknik perolehan informasi lintas bahasa Inggris-Indonesia menggunakan kamus dwi-bahasa. Teknik-teknik yang diterapkan untuk perolehan informasi lintas bahasa Inggris-Indonesia tidak dapat mendekati hasil perolehan informasi satu bahasa (Indonesia). Secara keseluruhan, hasil yang dicapai pada teknik untuk mengurangi keambiguan terjemahan mencapai hanya 63.84% terhadap perolehan informasi satu bahasa. Sedangkan penerapan teknik perluasan kueri hanya mencapai 47.56% terhadap perolehan informasi satu bahasa. Penerapan teknik perbaikan terjemahan mempergunakan kamus dwi-bahasa Inggris-Indonesia hanya dapat menghasilkan nilai hasil perolehan informasi tertinggi sebesar 60.80% terhadap hasil perolehan informasi satu bahasa (Indonesia). Pada penerapan teknik perbaikan kueri sebelum penerjemahan yang dikombinasikan dengan teknik perbaikan terjemahan oleh kamus, dapat ditemukan peningkatan nilai hasil perolehan informasi antara 2.63% - 2.84% bila dibandingkan dengan hasil perolehan informasi untuk teknik perbaikan terjemahan oleh kamus. Pada penerapan perluasan kueri menggunakan teknik umpan balik relevan semu terhadap hasil penerjemahan dengan teknik-teknik lain, dapat ditemukan bahwa teknik ini tidak dapat menaikkan hasil perolehan informasi. Hasil terbaik yang diperoleh pada perluasan kueri adalah pada teknik yang menggunakan kombinasi perluasan kueri pada perbaikan kueri sebelum penerjemahan dan perluasan kueri pada perbaikan hasil penerjemahan yang mencapai hasil perolehan informasi sebesar 47.56% terhadap perolehan informasi satu bahasa."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Ananda Budi Prasetya

Evaluasi teknik perolehan informasi pada dokumen web multibahasa

"Perolehan informasi Web adalah cabang perolehan informasi yang mengkhususkan pencarian informasi terhadap dokumen Web. Dokumen yang terdapat pada lingkungan Web memiliki struktur yang berbeda dengan dokumen teks biasa, sehingga menyebabkan pendekatan perolehan informasi pada dokumen Web berbeda dengan dokumen biasa. Pada penelitian ini digunakan koleksi dokumen EuroGOV yangmerupakan koleksi dokumen Web multibahasa yang digunakan pada WebCLEF, dan kueri atau topik yang digunakan adalah kueri yang diberikan pihak WebCLEF. Koleksi dokumen dan kueri yang digunakan terdiri dari 15 bahasa Eropa. Pada penelitian ini dipelajari pengaruh berbagai teknik perolehan informasi, yaitu operator kedekatan kata, umpan balik relevan semu, pendeteksian bahasa, analisis pranala, PageRank, dan pengelompokan dokumen, terhadap hasil perolehan informasi Web multi bahasa yang dihasilkan teknik-teknik tersebut. Selain itu pada penelitian ini juga dipelajari kemampuan dari sistem perolehan informasi Indri Search Engine dalam mencari dan memperoleh dokumen Web multibahasa.

Penelitian ini menemukan bahwa dengan melakukan evaluasi secara umum tanpa melihat bahasa, kenaikan nilai perolehan hanya didapatkan dengan menggunakan teknik pendeteksian bahasa sebesar 0.72% dan teknik umpan balik relevan semu sebesar 1.02% - 1.61%. Sedangkan pada teknik analisis pranala, PageRank, dan pengelompokan dokumen, nilai perolehan informasi yang didapatkan menurun sebesar -46.3431% - -0.60%. Dengan melakukan evaluasi berdasarkan bahasa, didapatkan bahwa setiap teknik yang diteliti dan dipelajari memiliki keunggulan masing-masing berdasarkan bahasa. Untuk teknik pengurutan ulang pendeteksian bahasa, peningkatan nilai perolehan informasi terdapat pada 6 bahasa sebesar 0.1478% - 27.1431%, dan penurunan terdapat pada 10 bahasa sebesar -0.7066% - -0.0156%. Untuk teknik analisis pranala dalam, peningkatan nilai perolehan informasi terdapat pada 4 bahasa sebesar 6.5585% - 77.1804%, dan penurunan terdapat pada 4 bahasa sebesar -60.9202% - -0.3339%, dan untuk analisis pranala luar terdapat kenaikan pada 9 bahasa sebesar 0.7151% - 134.9881%, dan penurunan terdapat pada 6 bahasa sebesar -23.2941% - -1.6330%, sedangkan untuk kombinasi analisis pranala dalam dan luar terdapat pada 5 bahasa sebesar 0.2809% - 100%, dan penurunan terdapat pada 10 bahasa sebesar -92.0830% - -3.1030%. Untuk teknik PageRank, peningkatan nilai informasi masi terdapat pada 4 bahasa sebesar 5.1083% - 77.1804%,dan penurunan terdapat pada 10 bahasa sebesar -96.4844% - -2.6968%. Dan untuk pengelompokan berdasarkan bahasa, peningkatan nilai informasi terdapat pada 3 bahasa sebesar 3.6440% - 38.7337%, dan penurunan terdapat pada 9 bahasa sebesar -53.6322% - -1.6715%. Untuk pengelompokan berdasarkan topik, peningkatan tertinggi terdapat pada satu bahasa, yaitu Spanyol sebesar 12.4754% dan penurunan terdapat pada 5 bahasa sebesar -97.5600% - -35.6133%. Untuk teknik umpan balik relevan semu, peningkatan nilai perolehan informasi terdapat pada 7 bahasa sebesar 0.0472% - 5.1523%, penurunan hanya terdapat pada dua bahasa sebesar -4.2597% - -0.2760%. Berdasarkan penelitian ini disimpulkan bahwa sistem perolehan in- formasi Indri Search Engine dapat mencari dan memperoleh dokumen Web multibahasa dengan baik, dan teknik perolehan Web standar dapat diterapkan juga pada koleksi dokumen Web multibahasa."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Ezra Pasha Ramadhansyah

Neural Re-Ranker untuk Mengidentifikasi Pertanyaan Serupa pada Forum Kesehatan Berbahasa Indonesia = Neural Re-Rankers to Identify Duplicate Questions in Indonesian Health Forums

"Sistem perolehan pertanyaan serupa diimplementasikan pada banyak situs tanya jawab, khususnya pada forum tanya jawab kesehatan. Implementasi dari sistem pencarian pertanyaan serupa dapat beragam seperti text based retriever dan neural ranker. Permasalahan utama dari neural ranker adalah kurangnya penelitian dalam bahasa indonesia untuk modelnya, khususnya untuk yang menggunakan BERT sebagai model untuk deteksi pertanyaan serupa. Pada penelitian ini akan dicari tahu sejauh apa neural re-ranker BERT dapat memperbaiki kualitas ranking dari text-based retriever jika diterapkan fine-tuning pada model. Model yang digunakan oleh penelitian berupa BERT dan test collection yang digunakan merupakan dataset forum kesehatan yang disusun oleh Nurhayati (2019). Untuk mengetahui sejauh mana model berbasis BERT dapat berguna untuk re-ranking, eksperimen dilakukan pada model pre-trained multilingualBERT, indoBERT, stevenWH, dan distilBERT untuk melihat model yang terbaik untuk di-fine-tune. Penelitian juga mengusulkan dua metode fine-tuning yakni attention mask filter dengan IDF dan freezed layer dengan melakukan freezing pada beberapa layer di dalam BERT. Model dan metode ini kemudian diuji pada beberapa skenario yang telah ditentukan. Hasil dari eksperimen menunjukkan bahwa re-ranker dapat meningkatkan kualitas text based retriever bila di-fine-tune dengan metode dan skenario tertentu.

Beberapa model memberikan hasil yang lebih baik dengan dataset forum kesehatan dan dengan text based retriever BM25 dan TF-IDF. Model multilingualBERT dan metode fine-tuning layer freezing memberikan hasil yang terbaik dari semua kombinasi. Kenaikan tertinggi terdapat pada kombinasi BM25 dan multilingualBERT dengan layer freezing dengan kenaikan sebesar 0.051 dibandingkan BM25.

The system of acquiring similar questions is implemented on many Question and Answering sites, including health forums. Implementations of similar question search systems can vary, such as text-based retrievers and neural rankers. The main issue with neural rankers is the lack of research in Indonesian language for neural ranker models, especially those using BERT. This study aims to investigate how far BERT as a neural re-ranker can improve the ranking quality of a text-based retriever when applied with fine-tuning. The model used in this research is BERT, and the test collection used is a health forum dataset compiled by Nurhayati (2019). To answer the research question, experiments were conducted on multiple pre-trained models: multilingual BERT, IndoBERT, stevenWH, and distilBERT to identify the best model for fine-tuning. This study also proposes two new fine-tuning methods: attention mask filter with IDF threshholding and frozen layer by freezing some layers within BERT. These models and methods were then tested under predefined scenarios. The experiment results show that the re-ranker can enhance the quality of the text-based retriever when fine-tuned with specific methods and scenarios. These models perform especially well using the health form dataset aswell as using the text based retrievers BM25 and TF-IDF. Out of all models, multilingulBERT performed the best with freezed layer fine-tuning performing as the best fine-tuning method. The most significant increase of all combinations is the combination of BM25 and multilingualBERT with freezed layer fine-tuning with a 0.051 increase compared to the baseline BM25."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Anisa Hasna Nabila

Pengembangan Fitur Data Gathering dan Data Retrieval pada Website ILUNI12 Channel = Data Gathering and Data Retrieval Features Development on ILUNI12 Channel Website

The Management of the Faculty of Computer Science, University of Indonesia (Fasilkom UI) has a need for a large amount of alumni data. The data required are varied and are intended for various purposes, including the interests of academic accreditation and academic cooperation. Unfortunately, the alumni data stored in the NextGeneration Academic Information System (SIAK-NG) as the main data source are no longer up-to-date and cannot be updated independently by the alumni. To solve this problem, a website-based alumni system called ILUNI12 Channel was developed. However, based on interviews conducted with Management of Fasilkom UI, the current system still has shortcomings and has not been able to meet their needs. Apart from Management of Fasilkom UI, ILUNI Fasilkom UI administrators and alumni themselves also experienced difficulties in obtaining alumni data for their needs. This research is aimed at developing solutions to the problems experienced by using agile methodology as a research methodology. This study identifies problems and needs using qualitative methods. The identified problems are grouped into two main problems, namely problems related to data gathering and data retrieval. Based on these problems, this research proposes a solution proposal as well as a solution design from the technical aspect. Through this solution design, this research succeeded in implementing a solution in the form of data gathering and data retrieval features on the ILUNI12 Channel system. This research then evaluates the solution by conducting usability testing and user acceptance testing on one management and five alumni. The results of the system usability scale questionnaire have an average score of 85.83 with a B grade scale. This grade indicates that the design of the implemented features has been well received by users. In addition, research respondents also stated that the features that were implemented were able to solve the problems at hand."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Anisa Hasna Nabila

Pengembangan Fitur Data Gathering dan Data Retrieval pada Website ILUNI12 Channel = Data Gathering and Data Retrieval Features Development on ILUNI12 Channel Website

"Manajemen Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI) memiliki kebutuhan akan data alumni dalam jumlah yang cukup besar. Data yang dibutuhkan juga beragam dan ditujukan untuk berbagai kepentingan, diantaranya adalah kepentingan akreditasi akademik serta kerja sama akademik. Sayangnya, data alumni yang tersimpan pada Sistem Informasi Akademik NextGeneration (SIAK-NG) sebagai sumber data utama sudah tidak lagi up-to-date dan tidak dapat diperbarui secara mandiri oleh alumni terkait. Untuk mengatasi masalah tersebut, sebuah sistem alumni berbasis website bernama ILUNI12 Channel dikembangkan. Akan tetapi, berdasarkan wawancara yang dilakukan kepada Manajemen Fasilkom UI, saat ini sistem masih memiliki kekurangan dan belum dapat memenuhi kebutuhan mereka. Selain Manajemen Fasilkom UI, pengurus ILUNI Fasilkom UI dan para alumni sendiri juga mengalami kesulitan dalam memperoleh data alumni untuk kebutuhan mereka. Penelitian ini ditujukan untuk mengembangkan solusi atas permasalahan yang dialami dengan menggunakan agile methodology sebagai metodologi penelitian. Penelitian ini mengidentifikasi masalah dan kebutuhan menggunakan metode kualitatif. Masalah yang diidentifikasi dikelompokkan menjadi dua masalah utama, yaitu masalah terkait data gathering dan data retrieval. Berdasarkan masalah-masalah tersebut, penelitian ini mengajukan proposal solusi serta rancangan solusi dari aspek teknis. Melalui rancangan solusi tersebut, penelitian ini berhasil mengimplementasi solusi berupa fitur-fitur data gathering dan data retrieval pada sistem ILUNI12 Channel. Penelitian ini kemudian mengevaluasi solusi dengan melakukan usability testing serta user acceptance testing kepada satu pihak manajemen dan lima orang alumni. Hasil kuesioner system usability scale memiliki nilai rata-rata 85.83 dengan grade scale B. Grade ini menunjukkan bahwa desain dari fitur-fitur yang diimplementasi sudah dapat diterima dengan baik oleh pengguna. Selain itu, responden penelitian juga menyatakan bahwa fitur-fitur yang diimplementasi sudah dapat memenuhi kebutuhan dan menyelesaikan masalah yang dihadapi.
The Management of the Faculty of Computer Science, University of Indonesia (Fasilkom UI) has a need for a large amount of alumni data. The data required are varied and are intended for various purposes, including the interests of academic accreditation and academic cooperation. Unfortunately, the alumni data stored in the NextGeneration Academic Information System (SIAK-NG) as the main data source are no longer up-to-date and cannot be updated independently by the alumni. To solve this problem, a website-based alumni system called ILUNI12 Channel was developed. However, based on interviews conducted with Management of Fasilkom UI, the current system still has shortcomings and has not been able to meet their needs. Apart from Management of Fasilkom UI, ILUNI Fasilkom UI administrators and alumni themselves also experienced difficulties in obtaining alumni data for their needs. This research is aimed at developing solutions to the problems experienced by using agile methodology as a research methodology. This study identifies problems and needs using qualitative methods. The identified problems are grouped into two main problems, namely problems related to data gathering and data retrieval. Based on these problems, this research proposes a solution proposal as well as a solution design from the technical aspect. Through this solution design, this research succeeded in implementing a solution in the form of data gathering and data retrieval features on the ILUNI12 Channel system. This research then evaluates the solution by conducting usability testing and user acceptance testing on one management and five alumni. The results of the system usability scale questionnaire have an average score of 85.83 with a B grade scale. This grade indicates that the design of the implemented features has been well received by users. In addition, research respondents also stated that the features that were implemented were able to solve the problems at hand."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Anisa Hasna Nabila

Pengembangan Fitur Data Gathering dan Data Retrieval pada Website ILUNI12 Channel = Data Gathering and Data Retrieval Features Development on ILUNI12 Channel Website

"Manajemen Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI) memiliki kebutuhan akan data alumni dalam jumlah yang cukup besar. Data yang dibutuhkan juga beragam dan ditujukan untuk berbagai kepentingan, diantaranya adalah kepentingan akreditasi akademik serta kerja sama akademik. Sayangnya, data alumni yang tersimpan pada Sistem Informasi Akademik NextGeneration (SIAKNG) sebagai sumber data utama sudah tidak lagi up-to-date dan tidak dapat diperbarui secara mandiri oleh alumni terkait. Untuk mengatasi masalah tersebut, sebuah sistem alumni berbasis website bernama ILUNI12 Channel dikembangkan. Akan tetapi, berdasarkan wawancara yang dilakukan kepada Manajemen Fasilkom UI, saat ini sistem masih memiliki kekurangan dan belum dapat memenuhi kebutuhan mereka. Selain Manajemen Fasilkom UI, pengurus ILUNI Fasilkom UI dan para alumni sendiri juga mengalami kesulitan dalam memperoleh data alumni untuk kebutuhan mereka. Penelitian ini ditujukan untuk mengembangkan solusi atas permasalahan yang dialami dengan menggunakan agile methodology sebagai metodologi penelitian. Penelitian ini mengidentifikasi masalah dan kebutuhan menggunakan metode kualitatif. Masalah yang diidentifikasi dikelompokkan menjadi dua masalah utama, yaitu masalah terkait data gathering dan data retrieval. Berdasarkan masalah-masalah tersebut, penelitian ini mengajukan proposal solusi serta rancangan solusi dari aspek teknis. Melalui rancangan solusi tersebut, penelitian ini berhasil mengimplementasi solusi berupa fitur-fitur data gathering dan data retrieval pada sistem ILUNI12 Channel. Penelitian ini kemudian mengevaluasi solusi dengan melakukan usability testing serta user acceptance testing kepada satu pihak manajemen dan lima orang alumni. Hasil kuesioner system usability scale memiliki nilai rata-rata 85.83 dengan grade scale B. Grade ini menunjukkan bahwa desain dari fitur-fitur yang diimplementasi sudah dapat diterima dengan baik oleh pengguna. Selain itu, responden penelitian juga menyatakan bahwa fitur-fitur yang diimplementasi sudah dapat memenuhi kebutuhan dan menyelesaikan masalah yang dihadapi.
The Management of the Faculty of Computer Science, University of Indonesia (Fasilkom UI) has a need for a large amount of alumni data. The data required are varied and are intended for various purposes, including the interests of academic accreditation and academic cooperation. Unfortunately, the alumni data stored in the NextGeneration Academic Information System (SIAK-NG) as the main data source are no longer up-to-date and cannot be updated independently by the alumni. To solve this problem, a website-based alumni system called ILUNI12 Channel was developed. However, based on interviews conducted with Management of Fasilkom UI, the current system still has shortcomings and has not been able to meet their needs. Apart from Management of Fasilkom UI, ILUNI Fasilkom UI administrators and alumni themselves also experienced difficulties in obtaining alumni data for their needs. This research is aimed at developing solutions to the problems experienced by using agile methodology as a research methodology. This study identifies problems and needs using qualitative methods. The identified problems are grouped into two main problems, namely problems related to data gathering and data retrieval. Based on these problems, this research proposes a solution proposal as well as a solution design from the technical aspect. Through this solution design, this research succeeded in implementing a solution in the form of data gathering and data retrieval features on the ILUNI12 Channel system. This research then evaluates the solution by conducting usability testing and user acceptance testing on one management and five alumni. The results of the system usability scale questionnaire have an average score of 85.83 with a B grade scale. This grade indicates that the design of the implemented features has been well received by users. In addition, research respondents also stated that the features that were implemented were able to solve the problems at hand."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Armando Yonathan

Perolehan informasi dokumen suara pembicaraan berdasarkan hasil dari sistem pengenalan suara untuk bahasa indonesia

"Informasi yang terdapat saat ini tidak hanya terbatas disimpan dalam bentuk dokumen teks saja, tetapi banyak juga dalam bentuk dokumen suara. Banyaknya informasi yang disimpan dalam bentuk dokumen suara menyebabkan diperlukannya teknik perolehan informasi yang dapat diterapkan kepada koleksi dokumen tersebut. Pendekatan yang banyak dilakukan adalah dengan menggunakan hasil pengenalan suara oleh Sistem Pengenalan Suara Otomatis (SPSO). Tetapi, hasil pengenalan suara oleh SPSO tidak sepenuhnya benar sehingga menurunkan tingkat akurasi perolehan informasi dokumen suara. Pada penelitian ini penulis mencoba empat jenis hasil pengenalan suara untuk melakukan perolehan informasi dokumen suara, yaitu 1-best output, n-best word output, n-best pronounciation output, word posterior lattice. Selain itu, penulis juga mencoba tiga jenis kueri pada penelitian ini, yaitu kueri satu kata, kueri frase dua kata dan kueri kalimat. Hasil yang didapat pada penelitian ini menyimpulkan bahwa penggunaan 1-best output pada perolehan informasi dokumen suara menghasilkan kinerja yang lebih baik dibandingkan penggunaan hasil pengenalan suara yang lain. Mean Average Precision (MAP) hasil eksperimen dengan 1-best output lebih besar 0.64% dibandingkan penggunaan n-best output , 8,88% lebih besar dibandingkan penggunaan word posterior lattice dan lebih besar 92.68% dibandingkan penggunaan n-best pronounciation output. Pada eksperimen dengan kueri frase, sistem dengan akurasi terbaik adalah sistem yang menggunakan word posterior lattice. Pada eksperimen dengan kueri satu kata dan kueri kalimat, sistem yang menggunakan n-best word output menghasilkan kinerja terbaik.
The information today is not only limited in the form of text documents, but also in the form of spoken documents. The growing number of those spoken documents requires the information retrieval techniques to make the retrieval process easier. The approach for spoken documents retrieval is using automatic speech recognition (ASR). However, the results of the speech recognition by ASR are not entirely correct, so reduce the level of accuracy of information retrieval of spoken documents. This experiment uses four types results of the speech recognition by ASR, the 1-best output, n-best output, n-best pronunciation output, word posterior lattice. In addition, this experiment also investigates the effect of the use of query types (phrase, single word and sentence). Results obtained from this experiment concluded that the use of 1-best output on spoken document retrieval produces better performance results than the use of other results of the speech recognition. Mean Average Precision (MAP) results of experiments with 1-best output is 0.64% higher than the use of n-best output, 8.88% higher than the use of word posterior lattice and 92.68% higher than the use of n-best pronunciation output. In phrase based query experiment, the best accuracy is word posterior lattice while the best accuracy in single word query and sentence query is n-best word output."

Depok: Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Arya Bintang Pratama Kumaladjati

Sistem Temu-Kembali Dokumen Hukum dengan Menggunakan Ekspansi Istilah = Legal Document Retrieval System by Using Term Expansion

"Penelitian ini bertujuan untuk meningkatkan efektivitas model Temu-kembali Informasi di bidang hukum dengan memanfaatkan metode Term Expansion. Latar belakang penelitian ini didasarkan pada kebutuhan praktisi hukum akan sistem yang dapat melakukan pencarian informasi secara otomatis dan efisien dalam database dokumen hukum yang besar dan kompleks. Pendekatan yang diusulkan dalam penelitian ini menggunakan arsitektur Cascade-Ranking Model, yang terdiri dari dua tahapan utama: Sparse Retrieval Model untuk pencarian awal dan algoritma Re-ranking untuk penyusunan ulang hasil pencarian. Penelitian ini berfokus pada eksplorasi kinerja Sparse Retrieval Model melalui penerapan teknik Term Expansion, yang mencakup Query Expansion dan Document Expansion. Query Expansion dilakukan dengan berbagai pendekatan, termasuk non-contextual word embedding, contextual word embedding dengan BERT, dan Local Analysis. Document Expansion melibatkan penambahan prediksi query yang relevan ke dalam dokumen untuk meningkatkan kecocokan dengan query pengguna. Hasil dari eksperimen menunjukkan bahwa tidak ada skenario yang secara mutlak unggul dalam semua metrik evaluasi yang digunakan. Beberapa skenario menunjukkan keunggulan dalam satu metrik tertentu namun mengalami penurunan pada metrik lainnya. Pada salah satu skenario berhasil meningkatkan R@20 dari 0,896 menjadi 0,906, selain itu pada skenario lainnya berhasil meningkatkan metrik P@5 dari 0,186 menjadi 0,192. Selain itu, pada skenario yang menggunakan stopword dengan konteks hukum untuk melakukan filter terhadap kata yang ingin diekspansi dengan word embedding, berhasil meningkatkan R@20 dari 0,896 menjadi 0,916 dan mendapatkan p-value sebesar 0,045. P-value yang dibawah 0,05 ini berarti terjadi peningkatan yang signifikan pada skenario tersebut. Meskipun dapat meningkatkan beberapa metrik, Query Expansion tidak selalu meningkatkan efektivitas Sparse Retrieval Model secara signifikan, terutama karena kurang presisinya kata yang diekspansi dan keterbatasan vocabulary model embedding yang digunakan. Penggunaan BERT untuk kontekstual checking juga belum memberikan hasil yang optimal.
This research aims to improve the effectiveness of Information Retrieval models in the legal field by utilizing Term Expansion methods. The background of this research is based on the need of legal practitioners for a system that can automatically and efficiently search for information in large and complex legal document databases. The proposed approach in this research uses a Cascade-Ranking Model architecture, which consists of two main stages: a Sparse Retrieval Model for initial searches and a Re-ranking algorithm for reordering search results. This study focuses on exploring the performance of the Sparse Retrieval Model through the application of Term Expansion techniques, which include Query Expansion and Document Expansion. Query Expansion is conducted using various approaches, including non-contextual word embedding, contextual word embedding with BERT, and Local Analysis. Document Expansion involves adding predicted relevant queries into the documents to enhance their match with user queries.The results of the experiments show that no scenario is absolutely superior in all evaluation metrics used. Some scenarios show advantages in one particular metric but experience a decline in others. In one scenario, the R@20 metric was successfully increased from 0.896 to 0.906, while in another scenario, the P@5 metric was increased from 0.186 to 0.192. Additionally, in a scenario that used legal context stopwords to filter the words to be expanded with word embedding, R@20 was increased from 0.896 to 0.916, achieving a p-value of 0.045. This p-value below 0.05 indicates a significant improvement in that scenario. Although some metrics improved, Query Expansion did not always significantly enhance the effectiveness of the Sparse Retrieval Model, primarily due to the imprecision of the expanded words and the limitations of the embedding model’s vocabulary used. The use of BERT for contextual checking also did not yield optimal results."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Dimas Ichsanul Arifin

Temu-balik Dokumen Hukum dengan Model Neural Re-Ranker = Legal Document Retrieval with Neural Re-Ranker Model

"Volume data hukum yang dihasilkan semakin besar setiap harinya. Oleh karena itu, kebutuhan akan sistem otomatis dan semi-otomatis, seperti sistem temu-balik informasi meningkat. Sistem temu-balik informasi dokumen hukum membantu praktisi hukum menemukan dokumen yang relevan dengan cepat dan efisien. Terkait hal tersebut, penelitian ini mengeksplorasi penggunaan model neural re-ranker pada sistem temu-balik informasi dokumen hukum dalam bahasa Inggris dan bahasa Indonesia. Tidak hanya itu, penelitian ini juga membahas beberapa pendekatan untuk meningkatkan efektivitas proses fine-tune dari model neural re-ranker. Model neural re-ranker dikembangkan untuk melakukan pengurutan ulang terhadap hasil pencarian awal yang didapat dari model pencocokan teks BM25. Implementasi ini menggunakan beberapa model neural re-ranker seperti BERT, IndoBERT, mBERT, dan XLM-RoBERTa yang melalui proses fine-tune. Hasil eksperimen menunjukkan bahwa model neural re-ranker BERT, IndoBERT, dan mBERT dapat meningkatkan performa dari sistem temu-balik informasi dokumen hukum yang sebelumnya hanya memanfaatkan model berbasis pencocokan teks seperti TF-IDF dan BM25. Peningkatan ini terlihat dari Skor Mean Average Percision (MAP) yang meningkat dari 0,760 menjadi 0,834 pada salah satu skenario yang dilakukan. Hal ini menunjukkan kinerja keseluruhan sistem temu-balik informasi yang lebih baik pada berbagai kueri. Sementara itu, pendekatan berupa pembekuan lapisan encoder berguna untuk meningkatkan efektifitas dari implementasi dari sistem temu-balik informasi yang memanfaatkan model neural re-ranker.
The volume of legal data produced is getting bigger every day. Therefore, the need for automated and semi-automatic systems, such as information retrieval systems, is increasing. Legal document information retrieval systems help legal practitioners find relevant documents quickly and efficiently. In this regard, this research explores the use of the neural re-ranker model in a legal document information retrieval system in English and Indonesian. Not only that, this research also discusses several approaches to increase the effectiveness of the fine-tune process of the neural re-ranker model. A neural re-ranker model was developed to re-rank the initial search results obtained from the BM25 text matching model. This implementation uses several neural re-ranker models such as BERT, IndoBERT, mBERT, and XLM-RoBERTa which go through a fine-tune process. Experimental results show that the neural re-ranker models BERT, IndoBERT, and mBERT can improve the performance of legal document information retrieval systems that previously only utilized text matching-based models such as TF-IDF and BM25. This improvement can be seen from the Mean Average Percision (MAP) score which increased from 0,760 to 0,834 in one of the scenarios carried out. This indicates better overall performance of the information retrieval system on various queries. Meanwhile, the approach of freezing the encoder layer is useful for increasing the effectiveness of the implementation of an information retrieval system that utilizes the neural re-ranker model."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Yans Sukma Pratama

Pengembangan sistem perolehan informasi untuk dokumen legal Indonesia

"Dokumen legal Indonesia memiliki karakteristik yang membedakannya dengan dokumen umum. Karakteristik tersebut ada yang kasat mata seperti struktur penulisan dan ada pula yang tidak kasat mata seperti frekuensi kata dan sebaran kata dalam dokumen. Adanya karakteristik tersebut membuat perolehan informasi pada dokumen legal berbeda dengan dokumen teks biasa, misalnya isu pemanfaatan struktur dokumen legal sebagai unit perolehan informasi dan penggunaan stopwords khusus dokumen legal. Dalam penelitian tugas akhir ini, dikembangkan sistem perolehan informasi untuk dokumen legal Indonesia. Sistem yang dikembangkan mencakup tiga komponen utama dalam perolehan informasi, yakni pengindeksan, pencarian, dan pemeringkatan hasil. Pengindeksan dilakukan dengan menggunakan dua buah pendekatan: pengindeksan elemen terbesar dan pengindeksan elemen yang dianggap berharga sebagai unit perolehan informasi, yaitu elemen bab dan elemen pasal. Pendekatan ini diambil dengan tujuan memanfaatkan struktur penulisan pada dokumen legal. Untuk itu, dalam penelitian ini digunakan koleksi dokumen legal yang sudah ditandai dengan tag XML. Isu penggunaan stopwords khusus dokumen legal tidak ditangani dalam penelitian ini, mengingat kata-kata yang umum muncul dalam dokumen legal direpresentasikan dengan tag-tag XML. Sejumlah ujicoba dilakukan untuk mengevaluasi sejauh mana kinerja setiap jenis pendekatan. Data yang digunakan sebagai ujicoba adalah undang-undang Republik Indonesia yang diundangkan mulai tahun 1983 hingga 2009. Hasil ujicoba menunjukkan bahwa elemen terbesar, yakni elemen undang-undang merupakan unit perolehan informasi terbaik dibanding elemen bab dan elemen pasal. Sementara itu, elemen pasal merupakan elemen yang memiliki dokumen relevan terbanyak dalam hasil pencarian.
Indonesian legal documents have some characteristics that differs it from general documents. The characteristics can be classified into two types: characteristic that can be seen clearly and characteristic that can be detected only by using statistical linguistic methods. The structural writing of legal document is a subset of the first type characteristic while words frequency and words distribution among collection can be included into the second type. Existence of those characteristics made information retrieval in legal document has differences compare to retrieval in general text collection, such as using document structure as a retrieval unit and using special stopwords for legal document. In this undergraduate thesis, we developed information retrieval system for Indonesian legal document. The system employed three information retrieval main components: indexing, searching, and ranking. We used two approaches in indexing step: made biggest element and valuable element (chapter and article) as an indexing unit. The approaches taken have a purpose to exploit the structural writing of legal document. We used legal document which has been tagged with XML syntax to make it easier to afford the purpose. The issue of using special stopwords for document legal were omitted in this research because it has been replaced by XML syntax. Finally, we conducted some experiments to evaluate performance of each indexing types. We used Indonesian law documents which released from 1983 until 2009 as experiments data. We conclude that the biggest element is the best indexing unit among others. Beside that, we found that article element is the most frequent element which occur in search result lists."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian