Hasil Pencarian

Fransisco William Sudianto

Pengembangan Alat Ekstraksi Informasi Pada Teks Berita Dengan Large Language Model Dan Knowledge Graph = Development of Information Extraction Tools for News Texts with Large Language Model and Knowledge Graph

"Perkembangan Large Language Model (LLM) terjadi secara cepat dan mengalami kemajuan yang signifikan.Hal ini mendorong penggunaandanpemanfaatan LLM pada berbagai bidang. Disisilain, Knowledge Graph (KG) menyediakan cara yang terstruktur dan bermakna untuk menyimpan informasi. KG sudah banyak digunakan secara luas di berbagai aplikasi, seperti mesin pencari,system rekomendasi, dan sistem penjawab pertanyaan. Salah satu pemanfaatan LLM dan KG yang masih jarang adalah pada bidang jurnalistik, khususnya untuk menganalisis dan memvisualisasikan berita. Penelitian ini bertujuan untuk mengembangkan alat ekstraksi informasi yang efisien, akurat, dan interaktif untuk menganalisis teks berita menggunakan pendekatan gabungan antara LLM dan KG. Metode ini menggabungkan keunggulan kedua teknik tersebut untuk meningkatkan pemahaman dan ekstraksi informasi dari teks berita yang kompleks. Tujuannya adalah agar pembaca dapat memahami informasi yang terdapat pada teks berita dengan lebih interaktif. Penulis memanfaatkan LLM yang telah terlatih secara luas dalam memahami dan menghasilkan teks untuk mengidentifikasi informasi penting dalam teks berita, seperti entitas, sentimen, kutipan, relasi antar entitas, dan unsur 5W1H (Who, What, Where, When, Why, How), urutan kronologis kejadian, dan hubungan bagian-keseluruhan (mereology) dalam teks berita. Untuk mengekstraksi informasiterse- but, prompt dimodifikasi dengan menggunakan pendekatan one-shot-prompting untuk memberikan konteks dan contoh kepada LLM dalam memahami teks berita. Kemudian, informasi yang diekstraksi di visualisasikan dalam bentuk KG yang merepresentasikan pengetahuan terstruktur tentang entitas dan hubungannya didalam teks. Selainitu, penelitian melibatkan pembuatan sebuah website yang akan menyediakan antarmuka untuk system agar pengguna dapat melakukan analisis teks berita secara langsung dan interaktif. Evaluasi utama yang dilakukan pada penelitian ini adalah mengukur akurasi jawaban yang dihasilkan oleh LLM pada setiap bagian informasi yang diekstraksi dan bagaimana visualisasi KG yang baik untuk informasi yang didapat. Penelitian ini menunjukkan bahwa LLM mampu mengekstraksi informasi yang diinginkan dengan cukup akurat dan visualisasi KG dapat menyajikan informasi dengan lebih interaktif dan mudah dimengerti. Penelitian initelah menunjukkan bahwa LLM dan KG dapat dimanfaatkan sebagai alat ekstraksi dan visualisasi informasi yang ada pada teks berita.

The development of Large Language Model (LLM) is happening rapidly and has made significant progress. This encourages the use and utilization of LLM in various fields. On the other hand, Knowledge Graph (KG) provides a structured and meaningful way to store information. KG has been widely used in various applications, such as search engines, recommendation systems, and question answering systems. One of the uses of LLM and KG that is still rare is in the field of journalism, especially for analyzing and visualizing news. This study aims to develop an efficient, accurate, and interactive information extraction tool for analyzing news texts using a combined approach between LLM and KG. This method combines the advantages of both techniques to improve understanding and information extraction from complex news texts. The goal is for readers to understand the information contained in the news text more interactively. The author uses LLM which has been widely trained in understanding and producing text to identify important information in news texts, such as entities, sentiments, quotes, relationships between entities, and 5W1H elements (Who, What, Where, When, Why, How), chronological sequence of events, and part-whole relationships (mereology) in news texts. To extract the information, the prompt is modified using a one-shot-prompting approach to provide context and examples to LLM in understanding the news text. Then, the extracted information is visualized in the form of KG which represents structured knowledge about entities and their relationships in the text. In addition, the study involves the creation of a website that will provide an interface for the system so that users can analyze news texts directly and interactively. The main evaluation carried out in this study is to measure the accuracy of the answers generated by LLM on each part of the extracted information and how good KG visualization is for the information obtained. This study shows that LLM is able to extract the desired information quite accurately and KG visualization can present information more interactively and easily understood. This study has shown that LLM and KG can be used as tools for extracting and visualizing information in news texts."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Febi Imanuela

Identifikasi Otomatis Pertanyaan Duplikat pada Forum Kesehatan Berbahasa Indonesia dengan Memanfaatkan Learning-to-Rank = Automatic Identification of Duplicate Questions in Indonesian Consumer Health Forums Using Learning-to-Rank

"Perkembangan teknologi pada bidang kesehatan di Indonesia telah menghadirkan layanan konsultasi dengan dokter melalui forum tanya jawab kesehatan. Seiring dengan berjalannya waktu, muncul permasalahan pertanyaan duplikat pada forum. Permasalahan ini perlu ditangani agar dapat mempercepat proses pengembalian jawaban untuk keluhan yang serupa dan menjaga jumlah pertanyaan agar tetap scalable dengan kapasitas dokter penjawab. Namun, pertanyaan duplikat merupakan suatu tantangan tersendiri karena kompleksitas bahasa natural. Penelitian ini memanfaatkan pendekatan Information Retrieval untuk mengidentifikasi pasangan pertanyaan duplikat pada domain ini sebagai suatu pasangan query dan dokumen yang relevan. Setelah melakukan ranking awal menggunakan BM25 sebagai model baseline, performa hasil ranking ditingkatkan melalui proses re-ranking menggunakan model learning-to-rank LambdaMART yang berbasis fitur. Penelitian ini memanfaatkan fitur perhitungan jarak dan similaritas antara pasangan vektor representasi query dan dokumen, yang diperoleh dari model word embeddings dan transformer. Selain itu, diusulkan fitur scoring yang diperoleh dari model Cross Encoder, serta model BM25 yang menjadi model baseline. Penelitian ini juga mengusulkan fitur-fitur yang mempertimbangkan jumlah keywords gagasan utama query yang dikandung dokumen. Evaluasi eksperimen dilakukan menggunakan cross validation dan error analysis, dengan MRR sebagai metrik utama. Performa tertinggi yang dicapai eksperimen adalah MRR senilai 0,951 dengan p value senilai 0,016 yang signifikan terhadap baseline. Dengan demikian, penelitian ini menunjukkan dukungan empiris terhadap peningkatan efektivitas model re-ranking yang diusulkan untuk melakukan identifikasi otomatis terhadap karakteristik query dan dokumen yang relevan, yakni pasangan pertanyaan duplikat dalam konteks ini.

The development of technology in the healthcare sector in Indonesia has introduced consultation services with doctors through consumer health forums. Over time, the issue of duplicate questions on these forums emerged. This problem needs to be addressed to accelerate the response process for similar questions and to keep the number of questions scalable with the capacity of the responding doctors. However, duplicate questions present their own challenge due to the complexity of natural language. This study utilizes Information Retrieval approach to identify pairs of duplicate questions in this domain as query and relevant document pairs. After initial ranking using BM25 as the baseline model, the ranking performance is improved through a re-ranking process using the feature-based LambdaMART model. This study leverages features that calculate the distance and similarity between vector representations of the query and document, obtained from word embedding and transformer models. Additionally, scoring features derived from the Cross Encoder model and the BM25 baseline model are proposed. The study also suggests features that consider the number of main idea keywords from the query that is also contained within the document. Experiment evaluation is conducted using cross validation and error analysis, with Mean Reciprocal Rank (MRR) as the primary metric. The highest performance achieved in the experiments is an MRR of 0.951 with a p-value of 0.016, which is significant to the baseline. Thus, this study provides empirical support for the effectiveness of the proposed re-ranking model for automatic identification of the query and relevant document, specifically duplicate question pairs in this context."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Okky Ibrohim

Klasifikasi multi label untuk identifikasi ujaran kebencian dan ujaran kasar pada Twitter berbahasa Indonesia = Multi-label classification to identify hate speech and abusive language on Indonesian Twitter

"ABSTRAK

Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), NaÃ¯ve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.

Hate speech and abusive language spreading on social media needs to be identified automatically to avoid conflict between citizen. Moreover, hate speech has target, criteria, and level that also needs to be identified to help the authority in prioritizing hate speech which must be addressed immediately. This thesis discusses multi-label text classification to identify abusive and hate speech including the target, category, and level of hate speech in Indonesian Twitter. This problem was done using machine learning approach with Support Vector Machine (SVM), NaÃ¯ve Bayes (NB), and Random Forest Decision Tree (RFDT) classifier and Binary Relevance (BR), Label Power-set (LP), and Classifier Chains (CC) as data transformation method. The features that used are term frequency (word n-grams and character n-grams), ortography (exclamation mark, question mark, uppercase, lowercase), and lexicon features (negative sentiment lexicon, positif sentiment lexicon, and abusive lexicon). The experiment results show that in general RFDT classifier using LP as the transformation method gives the best accuracy with fast computational time. RFDT classifier with LP transformation using word unigram feature give 66.16% of accuracy. If only for identifying abusive language and hate speech (without identifying the target, criteria, and level of hate speech), RFDT classifier with LP transformation using combined fitur word unigram, character quadgrams, positive sentiment lexicon, and abusive lexicon can gives 77,36% of accuracy.

"

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019

T52442

UI - Tesis Membership Universitas Indonesia Library

Luqman Maulana Rizki

Penambangan kamus dwibahasa : studi percontohan pada Bahasa Indonesia dan Bahasa-Bahasa Daerah = Bilingual dictionary mining : a pilot study on Indonesian and Local Languages in Indonesia

"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Nur Hamid

Adaptive Update pada Dynamic Graph Convolutional Neural Network untuk Segmentasi Semantik Tutupan Lahan dari Data LiDAR = Adaptive Update in Dynamic Graph Convolutional Neural Network for land cover semantic segmentation of LiDAR data

"

Data LiDAR banyak menggantikan data dua dimensi untuk merepresentasikan data geografis karena kekayaan informasi yang dimilikinya. Salah satu jenis pemrosesan data LiDAR adalah segmentasi semantik tutupan lahan yang mana telah banyak dikembangkan menggunakan pendekatan model deep learning. Algoritma-algoritma tersebut menggunakan representasi jarak Euclidean untuk menyatakan jarak antar poin atau node. Namun, sifat acak dari data LiDAR kurang sesuai jika representasi jarak Euclidean tersebut diterapkan. Untuk mengatasi ketidaksesuaian tersebut, penelitian ini menerapkan representasi jarak non-Euclidean yang secara adaptif diupdate menggunakan nilai kovarian dari set data point cloud. Ide penelitian ini diaplikasikan pada algoritma Dynamic Graph Convolutional Neural Network (DGCNN). Dataset yang digunakan dalam penelitian ini adalah data LiDAR Kupang. Metode pada penelitian ini menghasilkan performa nilai akurasi 75,55%, di mana nilai akurasi ini lebih baik dari algoritma dasar PointNet dengan 65,08% dan DGCNN asli 72,56%. Peningkatan performa yang disebabkan oleh faktor perkalian dengan invers kovarian dari data point cloud dapat meningkatkan kemiripan suatu poin terhadap kelasnya.

LiDAR data widely replaces two-dimensional geographic data representation due to its information resources. One of LiDAR data processing tasks is land cover semantic segmentation which has been developed by deep learning model approaches. These algorithms utilize Euclidean distance representation to express the distance between the points. However, LiDAR data with random properties are not suitable to use this distance representation. To overcome this discprepancy, this study implements a non-Euclidean distance representation which is adaptively updated by applying their covariance values. This research methodology was then implemented in Dynamic Graph Convolutional Neural Network (DGCNN) algorithm. The dataset in this research is Kupang LiDAR. The results obtained performance accuracy value of 75.55%, which is better than the baseline PointNet of 65.08% and Dynamic Graph CNN of 72.56%. This performance improvement is caused by a multiplication of the inverse covariance value of point cloud data, which raised the points similarity to the class.

"

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Eka Puji Widiyanto

Pengurutan berbasis analisis morfologis pada sinyal online ECG multilead = Online multilead ECG signal sorting based on morphological analysis / Eka Puji Widiyanto

"ABSTRAK

Elektrokardiogram (EKG) merupakan mekanisme yang dipergunakan untuk melakukan pemeriksaan kondisi jantung. EKG menghasilkan sinyal listrik yang menggambarkan aktivitas jantung. Penelitian ini akan melakukan pengolahan data EKG yang diambil secara langsung dari pasien sehingga siap untuk ditransmisikan. Untuk mengoptimalkan prosesnya maka data yang dikirimkan dikompresi sedemikian rupa tanpa mendistorsi informasi aslinya. Penelitian sebelumnya mengindikasikan bahwa untuk mencapai rasio kompresi optimal maka sinyal harus disusun sedemikian rupa sehingga menghasilkan regularitas yang tinggi. Akuisisi data dilakukan dengan ADC 24 bit, dilanjutkan penghilangan derau dan ekstraksi beat menggunakan teknik Multi Resolution Wavelet Analysis dengan Lifting Scheme dan normalisasi data. Pengurutan berbasis normalized cross correlation dilakukan sehingga diperoleh data dengan koefisien wavelet yang regularitasnya optimal. Hasil pengujian pada 10 record dari St. Petersburg INCART 12-lead Arrhythmia Database (incartdb) – PhysioNet menunjukkan bahwa penggunaan metode sorting ini dapat menurunkan distorsi sinyal hasil kompresi dengan rerata 3,76% dan perbedaan amplitudo sebesar 0,03mV dibandingkan tanpa sorting pada kompresi sinyal yang tinggi. Simplisitas metode yang dikembangkan memungkinkan implementasi pada platform embedded dengan kapabilitas komputasi yang terbatas.

ABSTRACT

Electrocardiogram (ECG) is common mechanism to monitor heart activity in form of electrical waveform. This research will process ECG signal directly from patient and process it to be ready for transmission. For optimum transmission, signal compression must be done with minimum original information distortion. And to achieve optimum compression rate, high signal regularity is a must. Data acquisition for the system is realized with 24 bit high resolution ADC, continued with noise elimination and beat extraction using Multi Resolution Wavelet Analysis with Lifting Scheme to achieve fast operation cycle. Periode normalization is implemented to the clean signal. Clean normalized signal is sorted using normalized cross correlation method to achieve optimum regularity signal in its wavelet coefficient. Test result on 10 records from St. Petersburg INCART 12-lead Arrhythmia Database (incartdb) – PhysioNet shows that the implemented sorting method can decrease reconstructed signal distortion by mean of 3.76% with amplitude difference of 0.03mV compare to its unsorted form in high compression ratio. The method simplicity offering efficient implementation on embedded system with minimum computation and resources capability."

2013

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Budi Hartadi

Ekstraksi informasi pidana pada teks undang-undang berbahasa indonesia dengan pendekatan klasifikasi = Punishment provision extraction from indonesian law texts with classification approach

"ABSTRAK

Undang-Undang adalah Peraturan Perundang-undangan yang dibentuk oleh Dewan Perwakilan Rakyat dengan persetujuan Presiden. Undang-Undang memiliki sifat mengikat secara umum. Semua ketentuan pada Undang-Undang berlaku untuk seluruh rakyat Indonesia, termasuk ketentuan pidana di dalamnya. Oleh karena itu, setiap warga negara Indonesia perlu memahami informasi sanksi pidana pada Undang-Undang. Melalui penelitian ini, peneliti mengajukan metode untuk mendapatkan informasi pidana dari Undang-Undang. Pendekatan yang dilakukan adalah dengan melakukan klasifikasi tiap pasal, ayat, dan poin huruf pada Undang-Undang. Penelitian ini menggunakan tiga metode klasifikasi, yaitu Support Vector Machine, Classification and Regression Tree, dan Ripple Down Rules Learner. Hasil pengujian menunjukkan bahwa metode Classification and Regression Tree memberikan hasil terbaik, dengan F1-score mencapai 93,3 .

ABSTRACT

Law is a set of provisions and rules formed by People 39 s Representative Council with the agreement of President. Law generally binds every people in Indonesia. In other words, all provisions in Law apply to all people in Indonesia, including the punishment provisions. Because of that, every Indonesian people needs to understand the punishment provisions in Law documents. In this research, we propose a method to get all the punishment provisions from Law text. The approach taken is by doing classification on every articles, verses, and points in Law document. We use three classification methods in this research, which are Support Vector Machine, Classification and Regression Tree, and Ripple Down Rules Learner. Experiment results show that Classification and Regression Tree gives the best results, with F1 score reaching 93,3 ."

Depok: 2018

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Intan Fadilla Andyani

Penambangan Kamus Dwibahasa: Studi Percontohan Pada Bahasa Indonesia dan Bahasa-Bahasa Daerah = Bilingual Dictionary Mining: A Pilot Study on Indonesian and Local Languages in Indonesia

"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Daniel Martin

Penambangan Kamus Dwibahasa: Studi Percontohan Pada Bahasa Indonesia dan Bahasa-Bahasa Daerah = Bilingual Dictionary Mining: A Pilot Study on Indonesian and Local Languages in Indonesia

"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Rahmat Rizkiyanto

Pendekatan Deep Learning Untuk Deteksi Awan Pada Citra Satelit Penginderaan Jauh Pleiades = Deep Learning Approach for Cloud Detection in Pleiades Remote Sensing Satellite Image

"Awan merupakan salah satu objek dalam citra satelit penginderaan jauh sensor optis yang keberadaanya sering kali mengganggu proses pengolahan citra penginderaan jauh. Deteksi awan secara akurat merupakan tugas utama dalam banyak aplikasi penginderaan jauh. Oleh karena itu, deteksi awan secara tepat khususnya pada citra satelit optis resolusi sangat tinggi merupakan suatu pekerjaan yang sangat menantang. Penelitian ini bertujuan untuk mendeteksi objek awan pada data citra satelit penginderaan jauh resolusi sangat tinggi. Penelitian ini menggunakan algoritma deep learning yaitu Convolutional Neural Network (CNN) dan segmentasi Simple Linear Iterative Clustering (SLIC) superpixel untuk mendeteksi objek awan pada citra satelit penginderaan jauh. Penelitian ini menggunakan SLIC untuk mengelompokkan citra ke dalam superpiksel. Penelitian ini juga merancang CNN untuk mengekstrak fitur dari citra dan memprediksi superpiksel sebagai salah satu dari dua kelas objek yaitu awan dan bukan awan. Penelitian ini menggunakan data citra satelit resolusi sangat tinggi Pleiades multispectral dengan resolusi 50 cm. Deteksi awan dilakukan dengan berbagai macam skenario. Hasilnya, metode yang diusulkan mampu mendeteksi objek awan dengan performa akurasi sebesar 91.33%.

Clouds are one of the objects in optical sensor remote sensing satellite images whose presence often interferes with the remote sensing image processing process. Accurate cloud detection is a key task in many remote sensing applications. Therefore, precise cloud detection, especially in very high-resolution optical satellite imagery, is a very challenging task. This study aims to detect cloud objects in very high-resolution remote sensing satellite imagery data. This study uses a deep learning algorithm, namely Convolutional Neural Network (CNN) and Simple Linear Iterative Clustering (SLIC) superpixel segmentation to detect cloud objects in remote sensing satellite images. This study uses SLIC to group images into superpixels. This study also designed a CNN to extract features from the image and predict the superpixel as one of two classes of objects, namely cloud, and non-cloud. This study uses very high-resolution Pleiades multispectral satellite imagery data with a resolution of 50 cm. Cloud detection is carried out in various scenarios. As a result, the proposed method can detect cloud objects with an accuracy performance of 91.33%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian