Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 124511 dokumen yang sesuai dengan query
cover
Markus
"Pengenalan entitas bernama merupakan tugas dasar dalam sistem ekstraksi informasi untuk mengenali entitas nama, entitas waktu, dan entitas bilangan. Entitas nama meliputi nama organisasi, nama orang, dan nama lokasi. Pengenalan entitas bernama dilakukan dengan menggunakan aturan yang dibentuk dari sekumpulan fitur suatu kata pada metode association rules. Pencocokan fitur-fitur kata dengan aturan dapat dilakukan dengan dua cara, exact match dan partial match. Pada partial match, digunakan nilai similarity yang merepresentasikan kesamaan suatu fitur-fitur kata dengan aturan. Fitur-fitur yang digunakan dalam penelitian ini dibagi menjadi empat bagian. Fitur pertama merupakan informasi orthographical suatu token (term feature), fitur kedua berisi informasi orthographical token sebelum dan sesudah (neighbourhood feature), fitur ketiga berisi informasi token dalam suatu daftar (list feature),dan fitur keempat berisi informasi global suatu token (global feature). Dokumen yang digunakan pada penelitian ini berjumlah 160 dokumen dengan perbandingan 100 dokumen untuk pelatihan dan 60 dokumen untuk pengujian. Dokumen-dokumen tersebut diperoleh dari koran online berbahasa Indonesia, yaitu Kompas dan Republika. Uji coba dilakukan pada beberapa kombinasi penggunaan keempat fitur di atas, variasi nilai similarity dari 0,1 sampai 0,9 pada partial match, dan variasi jumlah dokumen pelatihan dari 10 dokumen sampai 100 dokumen dengan penambahan jumlah dokumen sebanyak 10 dokumen. Jumlah dokumen pengujian yang digunakan berjumlah 60 dokumen. Hasil uji coba menunjukkan bahwa sistem dapat mengenali entitas bernama dengan nilai F-measure tertinggi 43,34% dengan menggunakan term feature, neighbourhood feature, dan list feature dengan nilai similarity 0,7 pada metode partial match dengan menggunakan 100 dokumen pelatihan."
Depok: Universitas Indonesia, 2007
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Budiono Wibowo, supervisor
"Penelitian ini mengembangkan sistem pengenalan entitas bernama pada teks dokumen berbahasa Indonesia menggunakan pendekatan machine learning. Metode dalam machine learning yang digunakan adalah association rules. Entitas yang dikenali pada penelitian ini adalah entitas nama orang, nama organisasi dan nama lokasi. Aturan-aturan untuk mengenali suatu entitas dibuat berdasarkan informasi morfologi dan kelas kata yang digunakan sebagai fitur term/token yang ingin dikenali. Suatu term dapat mempunyai satu fitur (fitur tunggal) atau banyak fitur (fitur berganda). Fitur berganda dapat dibuat berdasarkan informasi morfologi, informasi kelas kata dan gabungan keduanya. Uji coba sistem dilakukan pada beberapa kombinasi penggunaan informasi morfologi dan kelas kata dalam aturan. Hasil uji coba menunjukkan bahwa sistem dapat melakukan pengenalan entitas bernama dengan F-measure tertinggi sebesar 79.39%. Hasil ini diperoleh dengan aturan pengenalan entitas bernama yang dibuat berdasarkan gabungan informasi morfologi dan kelas kata."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2005
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Anwar Farihin
"Pengenalan Entitas Bernama (NER) telah diteliti cukup dalam, khususnya pada korpus berbahasa Inggris. Namun, penelitian NER pada korpus twit berbahasa Indonesia masih sangat sedikit karena minimnya dataset yang tersedia secara publik. BERT sebagai salah satu model state-of-the-art pada permasalahan NER belum diimplementasikan pada korpus twit berbahasa Indonesia. Kontribusi kami pada penelitian ini adalah mengembangkan dataset NER baru pada korpus twit berbahasa Indonesia sebanyak 7.426 twit, serta melakukan eksperimen pada model CRF dan BERT pada dataset tersebut. Pada akhirnya, model terbaik pada penelitian ini menghasilkan nilai F1 72,35% pada evaluasi tingkat token, serta nilai F1 79,27% (partial match) dan 75,40% (exact match) pada evaluasi tingkat entitas.

Named Entity Recognition (NER) has been extensively researched, primarily for understanding the English corpus. However, there has been very little NER research for understanding Indonesian-language tweet corpus due to the lack of publicly available datasets. As one of the state-of-the-art models in NER, BERT has not yet been implemented in the Indonesian-language tweet corpus. Our contribution to this research is to develop a new NER dataset on the corpus of 7.426 Indonesian-language tweets and to conduct experiments on the CRF and BERT models on the dataset. In the end, the best model of this research resulted in an F1 score of 72,35% at the token level evaluation and an F1 score of 79,27% (partial match) and 75,40% (exact match) at the entity level evaluation."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alif Ahsanil Satria
"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pengenalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai sequence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alif Ahsanil Satria
"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pen- genalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai se- quence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

Named Entity Recognition or NER is one of research topics in Natural Language Pro- cessing (NLP) subject. NER is the first step to transform unstructured text to structured text. NER is used for doing more high-level NLP task such as Information Extraction (IE), Question Answering (QA), etc. This research uses news and wikipedia data with 200 documents of each, which is used for training and testing process. This research tries exploring new named entities in addition to Person, Location, and Organization. These named entities are Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), and Miscellaneous. Therefore, this research uses 11 named entities. This research views this problem as sequence labelling. This research proposes conditional random field model as the solution for this problem. This research proposes some features, for example additional features such as previous word, next word, initial capital letter condition, etc, and word embedding. This research results p1qerformance with the best F-Measure of 67.09% for wikipedia data and 67.96% for news data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rani Aulia Hidayat
"Makanan merupakan salah satu kebutuhan penting bagi masyarakat, sehingga pencarian mengenai informasi yang berkaitan dengan makanan banyak dilakukan. Sering kali informasi yang dibutuhkan adalah informasi spesifik yang dapat direpresentasikan sebagai entitas. Sehingga saat seseorang melakukan pencarian menggunakan suatu kueri, hasil yang diharapkan dari proses pencarian tersebut berupa entitas yang relevan. Sistem yang dapat menangani tugas tersebut disebut sebagai sistem temu balik entitas.
Penelitian ini bertujuan untuk membangun sistem temu balik entitas makanan dengan memanfaatkan informasi relasi antar entitas, teknik ekstraksi entitas, document retrieval, dan word embedding pada korpus dokumen berbahasa Indonesia. Dokumen yang digunakan pada penelitian ini adalah dokumen resep, artikel terkait informasi kuliner, dan Wikipedia berbahasa Indonesia. Sebanyak tujuh kategori entitas terkait makanan didapatkan dari proses ekstraksi entitas.
Pendekatan rule-based dan lexicon-based digunakan untuk mengekstrak entitas dari dokumen. Aturan-aturan untuk pendekatan rule-based dibangun untuk masing-masing jenis dokumen berdasarkan sampel dokumen yang dipilih secara acak. Sebanyak tiga skenario eksperimen diujikan terhadap 14 kueri yang dikelompokkan ke dalam tujuh kategori. Setiap skenario dievaluasi menggunakan nilai rata-rata precision berdasarkan k entitas yang dikembalikan (AP@k).
Berdasarkan hasil evaluasi menggunakan seluruh kueri uji, skenario ketiga dengan menggunakan informasi relasi entitas menunjukkan performa terbaik dibandingkan dengan skenario lainnya. Nilai AP@15 tertinggi yang didapatkan menggunakan skenario eksperimen ketiga ini adalah sebesar 76,67% untuk kategori kueri hidangan dengan bahan dasar tertentu.

Food is known as one of the most important needs so that many people search for food-related information. The information that is needed is often specific information that can be represented as an entity. So that when someone performs a search from a certain query, the expected results are entities that are considered relevant. The task to solve this problem is known as entity retrieval.
This research aims to build a food entity retrieval model by utilizing information on relationships between entities, entity extraction techniques, document retrieval, and word embedding in the Indonesian document corpus. The documents used in this research are recipes, food-related articles, and articles of Wikipedia in Indonesian. A total of seven food-related categories of entities were obtained from the entity extraction process.
The approaches that are used in this study to extract entities from the documents are the rule-based and lexicon-based approaches. The rules in the rule-based approach are developed for each document category based on the sample documents that have been chosen randomly. The three experiments that were conducted were tested against 14 queries which were grouped into seven categories. Each scenario is evaluated using the average precision score based on k entities given as the result of entity retrieval (AP@k).
Based on the evaluation results using all the test queries, the third scenario that used entity-relationship information shows the best performance compared to other scenarios. The highest AP@15 value obtained when using this third experimental scenario is 76.67% for the query category dish based on certain ingredients.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Mirnasari Dewi
"Testing merupakan tahap penting yang harus dilakukan dalam setiap pengembangan perangkat lunak. Testing bertujuan untuk menjaga kualitas dari perangkat lunak. Testing dilakukan dengan cara menguji test case yang telah disusun. Langkah awal penyusunan test case adalah membuat use case scenario berdasarkan deskripsi tekstual use case. Untuk mendapatkan use case scenario secara otomatis, titik-titik percabangan pada deskripsi tekstual use case harus dapat dikenali. Pemrosesan bahasa alami dapat digunakan untuk mengenali titik-titik percabangan pada deskripsi tekstual use case. Penelitian ini membahas pembuatan use case scenario dengan melakukan pemrosesan bahasa alami terhadap deskripsi tekstual use case. Pemrosesan bahasa alami yang dilakukan adalah pengenalan entitas bernama atau name entity recognition (NER), dengan pendekatan machine learning. Metode dalam machine learning yang digunakan adalah Association Rule. Pengenalan entitas bernama digunakan untuk mendapatkan titik-titik percabangan pada deskripsi tekstual use case. Selanjutnya use case scenario dapat disusun berdasarkan titik-titik percabangan tersebut. Akurasi use case scenario yang dihasilkan bergantung pada ketepatan pengenalan entitas bernama dalam mengenali titik-titik percabangan pada deskripsi tekstual use case. Berdasarkan hasil uji coba didapat bahwa pengenalan entitas bernama dengan Fmeasure sebesar 96,34% mendapatkan use case scenario dengan akurasi senilai 96,53%. Sedangkan dengan F-measure 100% yang berarti bahwa sistem mengenali semua titik-titik percabangan dengan tepat, didapatkan use case scenario dengan akurasi 100%."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2005
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Siahaan, Edison Pardengganan
"Penelitian yang dilakukan pada tesis ini dimotivasi oleh adanya kebutuhan untuk dapat melakukan pengelolaan informasi pada dokumen suara khususnya berita berbahasa Indonesia. Informasi pada dokumen suara berita berbahasa Indonesia dapat diubah menjadi informasi berbentuk dokumen teks, dengan menggunakan perangkat lunak Automatic Speech Recognition (ASR). Pada penelitian ini perangkat ASR yang digunakan adalah perangkat ASR Sphinx 4.
Penggunaan perangkat Sphinx 4 ini didasari telah dilakukannya penelitian tentang transkripsi dokumen suara berbahasa Indonesia menggunakan perangkat ini. Hasil keluaran dari ASR berupa dokumen teks yang tidak memiliki batasan akhir dan tidak tersegmentasi secara jelas, tentu menyulitkan dalam pengolahan data teks tersebut. Dalam kerangka itu, maka penelitian yang dilakukan pada tesis ini ditujukan untuk mengetahui metode yang efektif dalam melakukan segmentasi hasil transkripsi berita suara berbahasa Indonesia. Metode yang akan diuji pada penelitian ini adalah metode TextTiling berbasis perbandingan blok dengan pembobotan TF-IDF-Mutual Information, TF-IDFMutual Information-Word Similarity, TF-IDF-Word Frequency, TF-IDF, Latent Semantic Analysis dan metode TextTiling berbasis Vocabulary Introduction. Segmentasi dilakukan untuk berita teks dan dokumen teks hasil transkripsi berita suara yang telahdikatagorikan menjadi 5 topik yaitu topik politik, sosial budaya, ekonomi, hukum dan olah raga. Hasil pengujian terhadap masing-masing teknik pembobotan menunjukkan bahwa metode segmentasi TextTiling dengan teknik pembobotan TF-IDF-Word Frequency merupakan metode segmentasi yang paling baik untuk dipakai dalam melakukan segmentasi hasil transkripsi dari perangkat pengenal suara (Automatic Speech Recognition). Pada penelitian ini telah dibuktikan bahwa teknik pembobotan TF-IDF-Word Frequency memiliki ketepatan segmentasi lebih tinggi baik pada dokumen teks hasil transkripsi (81,4%) ataupun pada dokumen berita teks (73,3%). Metode segmentasi yang dilakukan pada penelitian ini dapat terus dikembangkan menggunakan teknik-teknik lain dalam menunjang proses segmentasi hasil transkripsi berita berberbahasa Indonesia, seperti mempergunakan metode-metode optimalisasi dalam memperoleh urutan batas segmen yang optimal."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
T-804
UI - Tesis Membership  Universitas Indonesia Library
cover
M. Fatkhul Amin
"Event Extraction merupakan salah satu tugas dalam sistem ekstraksi informasi yang bertujuan untuk menemukan kumpulan informasi event dari suatu dokumen. Informasi tersebut dapat berupa informasi pihak-pihak yang terlibat, tempat kejadian, waktu, dan segala informasi yang terkait dengan event. Penelitian ini bertujuan untuk melakukan proses ekstraksi event (event pertemuan) pada teks berbahasa Indonesia. Dari event pertemuan tersebut, informasi yang dicari adalah informasi pihak yang terlibat (person), tempat (location), serta waktu (time) terjadinya event. Ekstraksi dilakukan dengan menggunakan pendekatan machine learning. Sedangkan metode machine learning yang digunakan adalah association rules, decision tree, dan neural networks. Penelitian bertujuan untuk melihat perbandingan kinerja ketiga metode tersebut terhadap ekstraksi event. Uji coba dilakukan pada artikel-artikel media massa online dari Kompas, Jawa Pos, Republika, dan Sinar Harapan. Pada ekstraksi event, diketahui bahwa metode decision tree menunjukkan kinerja yang lebih baik dibandingkan metode association rules dan metode neural networks dengan F-measure mencapai 83,95%. Metode association rules menunjukkan kinerja yang lebih baik dibandingkan dengan metode neural networks dengan F-measure masing-masing sebesar 82,41% dan 81,57%."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Franky
"Sentimen merupakan opini atau penilaian penulis dokumen mengenai topik yang dibahas dalam dokumen tersebut. Analisis sentimen merupakan suatu tugas yang melakukan polarisasi dokumen berupa pengklasifikasian dokumen ke dalam sentimen positif dan negatif. Penggunaan metode Naive Bayes, Maximum Entropy, dan Support Vector Machine telah ditunjukkan mampu untuk menangkap informasi sentimen dari dokumen review film pada domain bahasa Inggris (Pang, Lee, & Vaithyanathan, 2002). Laporan tugas akhir ini menjelaskan percobaan yang mengaplikasikan kembali metode Naive Bayes, Maximum Entropy, dan Support Vector Machine untuk analisis sentimen pada dokumen berbahasa Indonesia hasil penerjemahan otomatis menggunakan kamus bilingual dan program penerjemah, pada dokumen review film.
Hasil analisis sentimen yang didapat dibanding kan dengan hasil analisis sentimen pada dokumen berbahasa Inggris. Percobaan analisis sentimen dilakukan dengan memvariasikan metode penerjemahan dan pengolahan data, fitur yang digunakan, dan informasi nilai fitur berupa nilai kemunculan fitur (presence), frekuensi, normalisasi nilai frekuensi, dan pembobotan menggunakan tf-idf. Baseline untuk analisis sentimen pada bahasa Indonesia dibuat dengan metode klasifikasi yang sederhana.
Hasil yang didapat menunjukkan bahwa analisis sentimen menggunakan machine learning untuk dokumen berbahasa Indonesia hasil penerjemahan otomatis dapat dilakukan, dengan akurasi tertinggi sebesar 78.82%. Hasil ini lebih baik dari akurasi yang didapat dari baseline sebesar 52.43% tetapi tidak melebihi akurasi tertinggi pada dokumen berbahasa Inggris sebesar 80.09%, namun cukup dekat. Penggunaan fitur yang diambil dari 25% bagian terakhir dokumen memberikan hasil yang lebih baik dari penggunaan fitur yang diambil dari keseluruhan dokumen. Sementara, metode Support Vector Machine secara umum memberikan hasil analisis sentimen dengan akurasi yang lebih baik dari metode machine learning lain yang digunakan."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>