Hasil Pencarian

Ditemukan 8 dokumen yang sesuai dengan query

Muhammad Anwar Farihin

Pengenalan Entitas Bernama pada Twit Berbahasa Indonesia Menggunakan Model Pre-Trained BERT = BERT Pre-Trained Language Model for Named Entity Recognition on Indonesian Tweets

"Pengenalan Entitas Bernama (NER) telah diteliti cukup dalam, khususnya pada korpus berbahasa Inggris. Namun, penelitian NER pada korpus twit berbahasa Indonesia masih sangat sedikit karena minimnya dataset yang tersedia secara publik. BERT sebagai salah satu model state-of-the-art pada permasalahan NER belum diimplementasikan pada korpus twit berbahasa Indonesia. Kontribusi kami pada penelitian ini adalah mengembangkan dataset NER baru pada korpus twit berbahasa Indonesia sebanyak 7.426 twit, serta melakukan eksperimen pada model CRF dan BERT pada dataset tersebut. Pada akhirnya, model terbaik pada penelitian ini menghasilkan nilai F1 72,35% pada evaluasi tingkat token, serta nilai F1 79,27% (partial match) dan 75,40% (exact match) pada evaluasi tingkat entitas.

Named Entity Recognition (NER) has been extensively researched, primarily for understanding the English corpus. However, there has been very little NER research for understanding Indonesian-language tweet corpus due to the lack of publicly available datasets. As one of the state-of-the-art models in NER, BERT has not yet been implemented in the Indonesian-language tweet corpus. Our contribution to this research is to develop a new NER dataset on the corpus of 7.426 Indonesian-language tweets and to conduct experiments on the CRF and BERT models on the dataset. In the end, the best model of this research resulted in an F1 score of 72,35% at the token level evaluation and an F1 score of 79,27% (partial match) and 75,40% (exact match) at the entity level evaluation."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Maxalmina Satria Kahfi

Integrasi Tags dan Entitas Berita Pada Sistem Rekomendasi Berita dalam Bahasa Indonesia Menggunakan Neural News Recommendation with Attentive Multi-View Learning = Integration of Tags and News Entities in News Recommendation System in Indonesian Language Using Neural News Recommendation with Attentive Multi-View Learning

"Sistem rekomendasi berita berpotensi untuk membantu pengguna menemukan artikel yang sesuai dengan minat mereka, yang sangat penting untuk mengurangi kelebihan informasi pada pengguna. Untuk menghasilkan rekomendasi berita yang efektif, salah satu kemampuan utama adalah menangkap makna kontekstual dari teks dalam artikel berita secara akurat, karena ini penting untuk memperoleh representasi yang berguna untuk konten berita dan pengguna. Dalam penelitian ini, kami meneliti efektivitas rekomendasi berita neural dengan metode Neural News Recommendation with Attentive Multi-View Learning (NAML) untuk melakukan tugas rekomendasi berita dalam bahasa Indonesia. Kami juga mengusulkan untuk memasukkan tags berita dan entitas pada berita untuk meningkatkan efektivitas metode NAML dalam sistem rekomendasi berita Indonesia. Hasil kami menunjukkan bahwa metode NAML menghasilkan peningkatan yang signifikan dalam efektivitas rekomendasi berita dalam bahasa Indonesia. Penambahan tags berita dan entitas berita terbukti meningkatkan kinerja metode NAML masing-masing sebesar 3.65% dan 2.35% dalam metrik NDCG@5.

The news recommendation system has the potential to help users discover articles that match their interests, which is crucial to alleviate user information overload. To generate effective news recommendations, one key capability is to accurately capture the contextual meaning of the text in news articles, as this is essential for obtaining useful representations for both news content and users. In this study, we examine the effectiveness of neural news recommendation with the Neural News Recommendation with Attentive Multi-View Learning (NAML) method to perform the news recommendation task in the Indonesian language. We also propose to incorporate news tags and entities in the news to improve the effectiveness of the NAML method in the Indonesian news recommendation system. Our results show that the NAML method leads to significant improvement in the effectiveness of news recommendations in the Indonesian language. Further addition of news tags and news entities has been shown to improve the performance of the NAML method by 3.65% and 2.35%, respectively, in terms of the NDCG@5 metric."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Alif Ahsanil Satria

Pengenalan entitas bernama pada dokumen wikipedia dan berita bahasa Indonesia dengan pendekatan conditional random field = Named-entity recognition on indonesian wikipedia and news document using conditional random field approach.

"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pengenalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai sequence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Yosia Rimbo Deantama

Penggunaan text mining pada berita daring dan sosial media LAPOR! untuk penggalian informasi kedaulatan pangan di Indonesia = Text mining on online news and social media LAPOR! to extract information on food sovereignty in Indonesia

"ABSTRAK

Pangan merupakan hak asasi manusia yang harus senantiasa terpenuhi oleh masyarakat dengan daya beli yang sesuai dan mempunyai kualitas pangan yang tinggi dan aman. Hal tersebut mendorong kedaulatan pangan suatu negara, yang secara mandiri memenuhi kebutuhan pangan masyarakatnya berdasarkan sistem pangan yang adil bagi seluruh masyarakat. Peraturan Pemerintah Republik Indonesia Nomor 17 Tahun 2015 yang mewajibkan adanya sistem informasi tentang pangan dan gizi dan teori evolusi e-government 3.0. Oleh karena itu salah satu solusi yang mendukung peraturan tersebut dan pendekatan e-government 3.0 adalah dengan pendekatan text mining. Penelitian ini mengolah data dari LAPOR! dan berita daring mengenai kedaulatan pangan untuk mengekstrak informasi dan menemukan pola-pola yang akan menghasilkan informasi tentang kedaulatan pangan di Indonesia sehingga dapat membantu pengambilan keputusan yang berdasar pada data melalui representasi visualisasi berbasis web. Jenis analisis informasi yang digunakan adalah Klasifikasi Dokumen untuk penyaringan dokumen, Named Entitiy Recognition yang digunakan untuk mengetahui entitas lokasi dan komoditas pangan dari data tekstual, dan Topic Modelling untuk menemukan topik dari sekumpulan teks dokumen berita dan aduan LAPOR!. Algoritma yang dipakai dalam penelitian ini adalah Conditional Random Fields dan Conditional Markov Model untuk implementasi Named Entity Recognition. Latent Dirichlet Allocation dan Non-Negative Matrix Factorization untuk implementasi Topic Modelling. Selain itu NaÃ¯ve Bayes, Support Vector Machine, dan Logistic Regression digunakan untuk klasifikasi dokumen. Sedangkan pemilihan model ini menggunakan Conditional Random Field dengan nilai F1-score pada entitas lokasi sebesar 83.85 dan entitas komoditas pangan sebesar 90.98 yang digunakan pada data berita daring, pada data aduan LAPOR!, entitas lokasi menggunakan Conditional Markov Model dengan nilai F1-Score sebesar 60.35 dan entitas komoditas pangan sebesar 89.74. Pada klasfikasi dokumen, model Support Vector Machine dengan fitur unigram memiliki nilai presisi sebesar 92.00. Pada Topic Modelling, model Non-Negative Matrix Factorization memiliki nilai coherence yang lebih tinggi daripada Latent Direchlete Allocation pada tiga eksperimen dengan dataset yang berbeda. Di samping itu, dilakukan visualisasi tentang kedaulatan pangan berdasarkan pengolahan data tersebut di atas untuk memudahkan pengambilan kebijakan oleh pimpinan seperti Tim Ahli di Kantor Staf Presiden.

ABSTRACT

Food is a human right that must always be fulfilled by the society with the appropriate purchasing power and high and safe food quality. This encourages food sovereignty of a country, which independently meets the food needs of its people based on a food system that is fair to the entire community. Peraturan Pemerintah Republik Indonesia Nomor 17 Tahun 2015 requires an information system on food and nutrition and the theory of e-government 3.0 evolution. Therefore, one solution that supports these regulations and the e-government 3.0 approach is the text mining approach. This research processes data from LAPOR! and online news on food sovereignty to extract information and find patterns that will produce information on food sovereignty in Indonesia so that it can assist decision-making based on data through web-based visualization representation. The type of information analysis used is Document Classification for document filtering, Named Entity Recognition which is used to find out location entities and food commodities from textual data, and Topic Modeling to find topics from a collection of text news documents and complaints LAPOR !. The algorithm used in this study is Conditional Random Fields and Conditional Markov Models for the implementation of Named Entity Recognition. Latent Dirichlet Allocation and Non-Negative Matrix Factorization for the implementation of Topic Modeling. In addition NaÃ¯ve Bayes, Support Vector Machine, and Logistic Regression are used for document classification. Whereas the selection of this model uses Conditional Random Field with an F1-score value for location entities of 83.85 and a food commodity entity of 90.98 used in online news data. In the LAPOR! Complaint data, the location entity uses Conditional Markov Model with an F1-Score value of 60.35 and food commodity entities amounting to 89.74. In classifying documents, the Support Vector Machine model with unigram features has a precision value of 92.00. In Topic Modeling, the Non-Negative Matrix Factorization model has a higher coherence value than the Latent Direchlete Allocation in three experiments with different datasets. In addition, visualization of food sovereignty is based on the processing of the data above to facilitate policy making by leaders such as the Expert Team at the Kantor Staf Presiden.

2019

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

Jafar Abdurrohman

Named Entity Recognition pada Dokumen Legal Berbahasa Indonesia = Named Entity Recognition on Indonesian Legal Documents

Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.

As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Fariz Wahyuzan Dwitilas

Named Entity Recognition pada Dokumen Legal Berbahasa Indonesia = Named Entity Recognition on Indonesian Legal Documents

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Deden Ade Nurdeni

Penggalian informasi untuk identifikasi permintaan bantuan korban bencana alam menggunakan data twitter = Extracting information to identify assistance for natural disaster victims using twitter data.

"Kajian risiko bencana di Indonesia oleh BNPB menunjukkan jumlah jiwa terpapar risiko bencana tersebar di seluruh Indonesia dengan total potensi jiwa terpapar lebih dari 255 juta jiwa. Hasil kajian ini menunjukkan bahwa dampak bencana di Indonesia terbilang sangat tinggi. Sistem penanggulangan khususnya pada masa tanggap darurat menjadi hal yang krusial untuk dapat meminimalisir risiko. Namun, pemberian bantuan kepada korban bencana terkendala beberapa hal, antara lain keterlambatan dalam penyaluran, kurangnya informasi lokasi korban, dan distribusi bantuan yang tidak merata. Untuk memberikan informasi yang cepat dan tepat, BNPB telah membangun beberapa sistem informasi seperti DIBI, InAware, Geospasial, Petabencana.id dan InaRisk. Akan tetapi tidak secara realtime menampilkan wilayah terdampak bencana dengan memnunjukkan jenis kebutuhan bantuan apa yang dibutuhkan korban pada saat itu. Untuk memberikan solusi atas permasalah tersebut, penelitian ini membangun model yang mampu mengklasifikasikan data teks dari Twitter terkait bencana kedalam jenis bantuan yang diminta oleh korban bencana secara realtime. Selain itu visualisasi berupa dashboard dibangun dalam bentuk aplikasi berbasis peta untuk menampilkan lokasi korban yang terdampak. Penelitian ini mengunakan teknik text mining mengolah data Twitter dengan pendekatan metode klasifikasi multi label dan ekstraksi informasi lokasi menggunakan metode Stanford NER. Algoritme yang digunakan adalan Naive Bayes, Support Vector Machine, dan Logistic Regression dengan kombinasi metode tranformasi data multi label OneVsRest, Binary Relevance, Label Power-set, dan Classifier Chain. Representasi teks menggunakan N-Grams dengan pembobotan TF-IDF. Model terbaik untuk klasifikasi multi label pada penelitian ini adalah kombinasi Support Vector Machine dan Clasifier Chain dengan fitur UniGram+BiGram dengan nilai precision 82%, recall 70%, dan F1-score 75%. Stanford NER menghasilkan F1-score 83% untuk klasifikasi lokasi yang menjadi masukan untuk teknik geocoding. Hasil geocoding berupa informasi spasial ditampilkan dalam bentuk dashboard berbasis peta.

The study of disaster risk in Indonesia by BNPB shows the number of people exposed to disaster risk throughout Indonesia with a total potential life of 255 million people. The results of this study indicate that the impact of disasters in Indonesia is quite high. The response system, especially during the emergency response period, is crucial to be able to minimize risks. However, providing assistance to disaster victims is hampered by several things, including delays in providing assistance, lack of information on the location of victims, and uneven distribution of aid. To provide fast and accurate information, BNPB has built several information systems such as DIBI, InAware, Geospatial, Petabencana.id and InaRisk. However, it does not display the disaster area in real-time by showing what kind of assistance needs the victim needs at that time. To provide a solution to these problems, this study builds a model that is able to classify text data from Twitter related to the type of assistance requested by disaster victims in real-time. In addition, a dashboard is built in the form of a map-based application to display the location of the realized victim. This study uses text mining techniques to process Twitter data with a multi-label classification approach and location information extraction using the Stanford NER method. The algorithms used are Naive Bayes, Support Vector Machine, and Logistic Regression with a combination of OneVsRest, Binary Relevance, Power-set Label, and Classifier Chain. Text representation using N-Grams with TF-IDF weighting. The best model for multi-label classification in this study is a combination of Support Vector Machine and Classifier Chain with UniGram+BiGram features with 82% precision, 70% recall, and 75% F1-score. Stanford NER produces an F1-score of 83% for location classification which is the input for geocoding techniques. Geocoding results in the form of spatial information are displayed in a map-based dashboard."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Alif Ahsanil Satria

Pengenalan entitas bernama pada Dokumen Wikipedia dan Berita Bahasa Indonesia dengan Pendekatan Conditional Random Field = Named-Entity Recognition On Indonesian Wikipedia and News Document Using Conditional Random Field Approach

"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pen- genalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai se- quence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

Named Entity Recognition or NER is one of research topics in Natural Language Pro- cessing (NLP) subject. NER is the first step to transform unstructured text to structured text. NER is used for doing more high-level NLP task such as Information Extraction (IE), Question Answering (QA), etc. This research uses news and wikipedia data with 200 documents of each, which is used for training and testing process. This research tries exploring new named entities in addition to Person, Location, and Organization. These named entities are Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), and Miscellaneous. Therefore, this research uses 11 named entities. This research views this problem as sequence labelling. This research proposes conditional random field model as the solution for this problem. This research proposes some features, for example additional features such as previous word, next word, initial capital letter condition, etc, and word embedding. This research results p1qerformance with the best F-Measure of 67.09% for wikipedia data and 67.96% for news data."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian