Hasil Pencarian

Ditemukan 84 dokumen yang sesuai dengan query

Lily Fitria

Penemuan jawaban menggunakan analisis struktur ketergantungan kalimat pada sistem tanya jawab

"Penelitian ini bertujuan untuk mengembangkan sebuah Sistem Tanya Jawab (Question Answering System). Sistem Tanya Jawab merupakan sebuah sistem yang menerima masukan (input) pertanyaan dalam bahasa alami (natural language) bukan keywords, kemudian memproses koleksi dokumen yang tidak terstruktur, dan terakhir mengembalikan sebuah jawaban yang tepat sebagai keluaran (output), bukan dokumen. Sistem Tanya Jawab yang dihasilkan dalam penelitian ini menerima masukan sejumlah pertanyaan berbahasa Inggris dari query set Cross-Language Evaluation Forum (CLEF) dan menggunakan koleksi dokumen CLEF. Sistem Tanya Jawab ini dikembangkan dengan menerapkan teknik-teknik IR dan mengkombinasikannya dengan teknik pemrosesan bahasa alami. Aspek pemrosesan bahasa alami ditekankan pada analisis struktur ketergantungan (dependency structures) antar kata pada sebuah kalimat. Struktur ketergantungan antar kata diterjemahkan dalam skema anotasi hubungan sintaktik (syntactic relations annotation scheme). Hasil analisis struktur ketergantungan kalimat berupa aturanaturan yang dipakai untuk mengekstrak jawaban dan memperluas pertanyaan. Evaluasi terhadap Sistem Tanya Jawab menghasilkan 20 rights, 19 unsupporteds, dan 3 inexacts untuk query set tahun 2005 yang terdiri dari 92 queries. Sementara untuk query set tahun 2006 diperoleh 32 rights, 16 unsupporteds, dan 4 inexacts dari 152 queries."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Hanif Arkan Audah

Perbandingan Metode Pemeriksa Ejaan antara SymSpell dan Kombinasi Damerau-Levenshtein Distance dengan Struktur Data Trie = A Spell Checker Method Comparison Between SymSpell and a Combination of Damerau-Levenshtein Distance With the Trie Data Structure

"Non-word error merupakan kesalahan ejaan yang menghasilkan kata yang tidak ada dalam kamus. Tujuan dari penelitian ini adalah membandingkan dua metode pemeriksa ejaan non-word error, yaitu SymSpell dan kombinasi Damerau-Levenshtein distance dengan struktur data trie. Kedua metode tersebut melakukan isolated-word error correction terhadap non-word error. Dalam implementasi, SymSpell dibedakan menjadi dua, yaitu weighted dan unweighted. Proses perbandingan metode dimulai dengan penyusunan kamus menggunakan entri kata dari KBBI V yang diperkaya dengan kata-kata tambahan dari Wiktionary. Kamus yang dihasilkan memuat 91.557 kata. Selanjutnya, disusun dataset uji yang dibuat secara sintetis dengan memanfaatkan modifikasi dari candidate generation Peter Norvig. Dataset uji sintetis yang dihasilkan memuat 58.532 kata salah eja. Dilakukan perbandingan antara Weighted SymSpell, Unweighted SymSpell, dan kombinasi Damerau-Levenshtein distance dengan struktur data trie menggunakan dataset uji sintetis tersebut. Perbandingan tersebut mengukur best match accuracy, candidate accuracy, dan run time. Hasil perbandingan menyimpulkan bahwa SymSpell memiliki performa yang lebih baik dibandingkan dengan metode kombinasi Damerau-Levenshtein distance dan struktur data trie karena unggul dari aspek best match accuracy dan run time serta memperoleh candidate accuracy yang setara dengan metode-metode lain. Implementasi SymSpell yang unggul, yaitu Weighted SymSpell memperoleh best match accuracy 66,79%, candidate accuracy 99,33%, dan run time 0,39 ms per kata.

......Non-word errors are errors during writing where the resulting word does not exist in the dictionary. The objective is to compare non-word error spell checker methods, which are SymSpell and a combination of Damerau-Levenshtein distance with the trie data structure. Both methods handle non-word errors using isolated-word error correction.

During implementation, SymSpell is divided into two types: weighted and unweighted.

The comparison process starts by compiling a dictionary from word entries in KBBI V and Wiktionary. The resulting dictionary contains 91,557 words. The next step

is to synthetically generate a test dataset using a modified version of Peter Norvig’s candidate generation method. The resulting test dataset contains 58,532 misspellings.

A comparison is made between Weighted SymSpell, Unweighted SymSpell, and a

combination of Damerau-Levenshtein distance with the trie data structure using the synthetic test dataset that was generated. The comparison measures the best match accuracy, candidate accuracy, and run time. The results found that SymSpell performed better than the method that used a combination of Damerau-Levenshtein distance with the trie data structure because it obtained a higher best match accuracy, lower run time, and

an equivalent candidate accuracy compared to the other methods. The best performing

SymSpell implementation is Weighted SymSpell which obtained a best match accuracy of 66.79%, candidate accuracy of 99.33%, and a run time of 0.39 ms per word."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Princessa Victory Cintaqia

Do Kost Reviews and Subjective Perceptions Go Hand-in-Hand with Actual City Amenities?: An Indonesian Cross-City Study = Apakah Ulasan Kost dan Persepsi Subjektif Sejalan dengan Amenitas Lokal Kota Sesungguhnya?: Sebuah Penelitian Antar Kota di Indonesia

"Penelitian ini bertujuan untuk melihat apakah review Kost yang merupakan daya subjektif dapat menggambarkan kualitas amenitas lokal yang sebenarnya. Penelitian ini menggunakan metode Natural Language Processing (NLP) di mana setiap review Kost di 10 kota di Indonesia diberikan nilai VADER sentiment score serta dimasukan ke dalam Infranodus untuk ditemukan topik utama dari masing-masing kota. Setelah itu, juga dilihat korelasi antara nilai VADER sentiment score dan nilai kualitas amenitas lokal penelitian terdahulu untuk melihat hubungan antara review Kost dengan amenitas lokal yang sebenarnya. Ditemukan bahwa topik-topik Comfortable Stay, Kost Facilities, Affordability, dan Convenient Location merupakan topik-topik utama yang tenan Kost di mayoritas kota anggap penting. Namun, juga ditemukan bahwa arti dari topik-topik utama ini berbeda – subjektif – untuk setiap kota, menekankan kembali pentingnya data subjektif sebagai pelengkap data objektif walau hasil korelasi dari Spearman termasuk lemah.

......This research aims to see whether Kost reviews, which are subjective, can describe the actual quality of local amenities. This research uses the Natural Language Processing (NLP) method where each Kost review in 10 cities in Indonesia is given a VADER sentiment score and entered into Infranodus to find the main topics of each city. After that, the correlation between the VADER sentiment score and the quality of local amenities in previous research was also looked at to see the relationship between Kost reviews and actual local amenities. It was found that the topics Comfortable Stay, Kost Facilities, Affordability, and Convenient Location are the main topics that Kost tenants in the majority of cities consider important. However, it was also found that the meanings of these main topics were different – subjective – for each city, re-emphasizing the importance of subjective data as a complement to objective data even though Spearman's correlation results were weak."

Depok: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Heninggar Septiantri

Word sense disambiguation (WSD) untuk bahasa indonesia menggunakan cross-lingual WSD dengan korpus paralel dan wordnet = Word sense disambiguation WSD for Indonesian language using cross lingual WSD with parallel corpora and wordnet

"Ambiguitas adalah masalah yang seringkali ditemui dalam pemrosesan bahasa alami oleh komputer. Word Sense Disambiguation (WSD) adalah upaya untuk menentukan makna yang tepat dari sebuah kata yang ambigu. Berbagai penelitian tentang WSD telah banyak dikerjakan, namun penelitian WSD untuk bahasa Indonesia belum banyak dilakukan. Ketersediaan korpus paralel berbahasa Inggris-Indonesia dan sumber pengetahuan bahasa berupa WordNet bahasa Inggris dan bahasa Indonesia dapat dimanfaatkan untuk menyediakan data pelatihan untuk WSD dengan metode Cross-Lingual WSD (CLWSD). Data pelatihan ini kemudian dijadikan input untuk klasifikasi dengan algoritma Naive Bayes, sehingga model klasifikasinya dapat digunakan untuk melakukan monolingual WSD untuk bahasa Indonesia.

Evaluasi klasifikasi menunjukkan rata-rata akurasi hasil klasifikasi lebih tinggi dari baseline. Penelitian ini juga menggunakan stemming dan stopwords removal untuk mengetahui bagaimana efeknya terhadap klasifikasi. Penggunaan stemming menaikkan rata-rata akurasi, sedangkan penerapan stopwords removal menurunkan rata-rata akurasi. Namun pada kata yang memiliki dua makna dalam konteks yang cukup jelas berbeda, stemming dan stopwords removal dapat menaikkan rata-rata akurasi.

Ambiguity is a problem we frequently face in natural languange processing. Word Sense Disambiguation (WSD) is an attempt to decide the correct sense of an ambiguous word. Various research in WSD have been conducted, but research in WSD for Indonesian Language is still rare to find. The availability of parallel corpora in English and Indonesian language and WordNet for both language can be used to provide training data for WSD with Cross-Lingual WSD (CLWSD) method. This training data can be used as input to the classification process using Naive Bayes classifier.

The model resulted by the classification process is then used to do monolingual WSD for Indonesian language. The whole process in this research results in higher accuracy compared to baseline. This research also includes the use of stemming and stopwords removal. The effect of stemming is increasing the average accuracy, whereas stopwords removal is decreasing average accuracy. Nevertheless, for ambiguous words that have distinct context of usage, the use of stemming and stopwords removal can increase average accuracy."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Pengolahan bahasa alami sederhana untuk sistem perolehan informasi

Fakultas Teknik Universitas Indonesia, 1993

S38343

UI - Skripsi Membership Universitas Indonesia Library

Mochammad Shaffa Prawiranegara

Pengembangan Model Klasifikasi Teks Berbasis Convolutional Neural Network dan Bert Language Model untuk Mendeteksi Sql Injection pada Apache Web Server = Development Of Text Classification Model Based on Convolutional Neural Network and Bert Language Model to Detect Sql Injection on Apache Web Server

"Skripsi ini bertujuan untuk mengembangkan model klasifikasi teks berbasis Convolutional Neural Network (CNN) dan BERT Language Model untuk mendeteksi SQL Injection pada Apache Web Server. Skripsi ini melibatkan pengumpulan dan pemrosesan dataset, literasi teori dasar, perancangan sistem, implementasi sistem, dan evaluasi kinerja model deep learning. Dengan menggunakan dataset publik dari Kaggle, model yang dikembangkan berhasil mendeteksi SQL Injection dengan akurasi yang tinggi. Hasil eksperimen menunjukkan bahwa model BERT memberikan performa yang lebih baik dibandingkan dengan CNN dalam hal accuracy, precision, recall, dan F1-score. Implementasi teknik deep learning pada sistem SQL Injection Detection juga mempermudah log file analysis pada Apache Web Server. Kesimpulan dari skripsi ini adalah berhasilnya pengembangan sistem SQL Injection Detection berbasis Convolutional Neural Network (CNN) dan BERT Language Model dengan akurasi masing-masing sebesar 95.99% dan 99.84%.

......This undergraduate thesis aims to develop a text classification model based on Convolutional Neural Network (CNN) and BERT Language Model to detect SQL Injection on the Apache Web Server. The research involves data collection and preprocessing, basic theory literature review, system design, system implementation, and evaluation of deep learning model performance. By using a public dataset from Kaggle, the developed model successfully detects SQL Injection with high accuracy. The experimental results show that the BERT model outperforms CNN in terms of accuracy, precision, recall, and F1-score. The implementation of deep learning techniques in the SQL Injection Detection system also simplifies log file analysis on the Apache Web Server. The conclusion of this undergraduate thesis is the successful development of an SQL Injection detection system based on Convolutional Neural Network (CNN) and BERT Language Model with accuracies of 95.99% and 99.84% respectively."

Depok: Fakultas Teknik Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Julian Fernando

Pengembangan Metode Ekstraksi Sumber Daya NLP dari Kamus Dwibahasa Indonesia dan Bahasa Daerah = Extracting NLP Resources from Bilingual Dictionaries for Regional Languages in Indonesia

"Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel. Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual, kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar pada kualitas hasil ekstraksi.

......The development of regional language NLP in Indonesia is still relatively slow. There are several factors behind this, such as poor language documentation, a small number of speakers of the language, and lack of the resources needed to study regional language NLP. This research aims to develop a general extraction method for Indonesian and regional bilingual dictionaries to produce NLP resources. The resulting system is able to process multiple bilingual dictionaries at once into NLP resources. Dictionaries are converted to machine readable form and processed to the form of a corpus of entries in advance before extraction is carried out. A corpus of entries means corpus that contains full information of each entry in the dictionary as well as font style, font size, and the position of each word of the entry in the bilingual dictionary. The extraction process is carried out by observing the entry's pattern resulting in the entry standardization phase having to be done prior before resources are produced. Besides resource production, spell checking is also carried out specifically for parallel corpus resources. In order to evaluate the extraction results, several bilingual dictionaries are taken to be samples. Evaluation process is carried out by observing the accuracy of each entry component’s placement in the extraction results. Research team found that the resulting system has succeeded in extracting NLP resources optimally in the form of bilingual lexicon, morphology, and parallel corpus on 32 Indonesian and regional bilingual dictionaries. There are still some deficiencies in the developed system since the extraction process is highly dependent on the accuracy of font detection such that the qualities of dictionaries still have a big impact on the quality of extraction results."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Raden Fausta Anugrah Dianparama

Pengembangan Metode Ekstraksi Sumber Daya NLP dari Kamus Dwibahasa Indonesia dan Bahasa Daerah = Extracting NLP Resources from Bilingual Dictionaries for Regional Languages in Indonesia

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Kevin Ahmad Faisal

Pengembangan Framework Grammar Error Correction Bahasa Indonesia Menggunakan Gated Recurrent Unit = Development of Indonesian Grammar Error Correction Framework Using Gated Recurrent Unit

"Grammatical Error Correction (GEC) merupakan salah satu topik yang menarik dalam penelitian Natural Language Processing (NLP). Sudah banyak penelitian mengenai GEC untuk bahasa universal seperti Inggris dan Cina, namun sedikit penelitian mengenai GEC untuk bahasa Indonesia. Pada penelitian ini penulis mengembangkan framework GEC untuk memperbaiki kesalahan 10 jenis Part of Speech (POS) bahasa Indonesia dengan arsitektur Gated Recurrent Unit (GRU). Dataset yang digunakan adalah Indonesian POS Tagged Corpus yang disusun oleh Ruli Manurung dari Universitas Indonesia. Hasil penelitian ini berhasil memberikan rata-rata Macro-Average F0.5 Score sebesar 0.4882 dan meningkatkan kecepatan prediksi sebesar 30.1%.

......Grammatical Error Correction (GEC) is one of the exciting topics in Natural Language Processing (NLP) research. There have been many studies on GEC for universal languages such as English and Chinese, but little research on GEC for indonesian. In this study, the authors developed a GEC framework to correct ten Indonesian Part of Speech (POS) errors with the Gated Recurrent Unit (GRU) architecture. The dataset used is the Indonesian POS Tagged Corpus compiled by Ruli Manurung from the University of Indonesia. The results of this study succeeded in providing an average Macro-Average F0.5 Score of 0.4882 and increase prediction time by 30.1% "

Depok: Fakultas Teknik Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Harakan Akbar

Pengembangan Metode Ekstraksi Sumber Daya NLP dari Kamus Dwibahasa Indonesia dan Bahasa Daerah = Extracting NLP Resources from Bilingual Dictionaries for Regional Languages in Indonesia

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian