Hasil Pencarian

Ditemukan 3 dokumen yang sesuai dengan query

Indri Atmoko

Ekstraksi Kata Kunci pada Koleksi Dokumen Surat Proyek Petrokimia dengan Metode Adjusted TextRank = Adjusted Textrank for Keyword Extraction in Petrochemical Project Correspondence Documents

"Pelaksanaan sebuah proyek akan melibatkan pihak-pihak yang terikat oleh kontrak, dalam pelaksanaanya sering muncul permasalahan-permasalahan yang membutuhkan analisis lebih lanjut dalam penyelesaiannya. Masalah-masalah ini secara formal dikomunikasikan dan di simpan selama durasi proyek dalam bentuk media surat. Permasalahan yang diangkat dalam sebuah surat adalah isu yang dapat diidentifikasi melalui kata kunci yang merepresentasikan dokumen tersebut. Pada penelitian ini, diperkenalkan algoritma Adjusted TextRank yang mengintegrasikan fitur eksternal dari model FastText Bahasa Indonesia dan skor TF-IDF untuk mengidentifikasi kata kunci penting dalam kumpulan data surat korespondensi proyek petrokimia. adjustment juga dilakukan dalam deteksi frasa,

pendekatan hubungan semantik antar kata, dan penyaringan Part-of-Speech (POS) untuk kata atau frasa. Hasil eksperimen menunjukkan bahwa penyesuaian yang diusulkan menghasilkan peningkatan skor evaluasi dibandingkan dengan standar TextRank dan standar TF-IDF, masing-masing sebesar 24,1% dan 25% dalam hal skor F-1.

A large petrochemical construction project is typically executed by multiple parties, all bound by contract agreement. During the execution phase, issues and problems may arise because the work details are not clearly specified in the contractual agreement. These issues are formally communicated and documented through written correspondence letters. By identifying important keywords within these formal letters, a comprehensive narrative of the project, including its associated issues, can be identified and analyzed. In this research, we introduce an adjusted TextRank algorithm that integrates external features from the Indonesian FastText language model and TF-IDF scores to identify important keywords within a dataset of correspondence letters of petrochemical projects. This enhancement involves refining phrase detection, semantic relationship estimation between words, and Part-of-Speech (POS) identification for words or phrases. Our results show that the proposed adjustments result in improved evaluation scores compared to the baseline standard TextRank and standard TF-IDF, respectively by 24.1% and 25% in terms of F-1 scores."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Nicholas Pangestu

Penggunaan Word Embedding dan Bobot Kata pada Algoritma Textrank untuk Peringkasan Artikel Bahasa Indonesia = The Use of Word Embedding and Word Weight in Textrank Algorithm for Summarizing Indonesian Articles

"Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita, hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan diimplementasikan word embedding untuk membantu algoritma Textrank memahami makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga 13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat meningkatkan performa dari tiap model word embedding yang digunakan hingga 11% pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa pembobotan TF-IDF.

The length of article news sometimes reduces one's interest in reading the news, we can see this from the many terms "tl:dr" in threads on the internet. Document summarization can create news summaries and reduce the time it takes to read. One way to do document summarization is to use the Textrank algorithm. In this research, word embedding will be implemented to help the Textrank algorithm understand the meaning of a word better. The results show that the use of word embedding improves the performance of the Textrank algorithm up to 13% in ROUGE-1 and up to 21% in ROUGE-2. BERT word embedding model has the highest performance when compared to word2vec (3% higher in ROUGE-1 and 7% higher in ROUGE-2) and fasttext (5% higher in ROUGE-1 and 10% higher in ROUGE-2). This study also implements TF-IDF weighting to make a word representation. The results show that TF-IDF weighting can improve the performance of each word embedding model used up to 11% in ROUGE-1 and 19% in ROUGE-2 compared to the performance without using TF-IDF."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Piawai Said Umbara

Perbandingan Performa Algoritma TextRank dengan Unweighted dan Weighted Word Embedding pada Peringkasan Dataset IndoSum = Performance Comparison of TextRank Algorithm with Unweighted and Weighted Word Embedding on IndoSum Dataset Summarization

"Penelitian ini bertujuan untuk mengevaluasi efektivitas kombinasi metode TextRank dengan word embedding pada dataset IndoSum. Dua skenario eksperimen diterapkan: unweighted dan weighted. Hasil eksperimen menunjukkan bahwa penggunaan model word embedding pada algoritma TextRank terbukti meningkatkan performa sistem peringkasan. Skenario unweighted menguji perbandingan performa antara sistem baseline (kombinasi dari TextRank dengan Word2Vec dan pembobotan TF-IDF yang dilatih menggunakan dataset Liputan6) dengan beberapa sistem lainnya yang memadukan algoritma TextRank dengan model word embedding tanpa pembobotan TF-IDF. Skenario weighted menguji perbandingan sistem yang memadukan algoritma TextRank dengan model word embedding tanpa pembobotan TF-IDF dengan counterpart-nya yang memadukan algoritma TextRank dengan model word embedding ditambah pembobotan TF-IDF. Pada skenario unweighted, kombinasi TextRank dan fastText yang dilatih dengan dataset IndoSum menunjukkan peningkatan performa tertinggi untuk skor ROUGE-1 dan ROUGE-2 masing-masing sebesar 7,51% dan 4,24%. Sedangkan pada skenario weighted, pembobotan TF-IDF pada word embedding menunjukkan peningkatan performa sebagian besar sistem peringkasan dibandingkan penggunaan word embedding tanpa pembobotan TF-IDF, dengan rata-rata peningkatan performa sistem sebesar 5,55% pada ROUGE-1 dan 9,95% pada ROUGE-2.

This research evaluates the effectiveness of combining the TextRank method with word embedding on the IndoSum dataset. Two experimental scenarios were applied: unweighted and weighted. The experimental results show that using word embedding models in the TextRank algorithm significantly improves the summarization system's performance. The unweighted scenario tested the performance comparison between the baseline system (a combination of TextRank with Word2Vec and TF-IDF weighting trained using the Liputan6 dataset) and several other systems combining the TextRank algorithm with word embedding models without TF-IDF weighting. The weighted scenario compared systems that combined the TextRank algorithm with word embedding models without TF-IDF weighting to their counterparts that included TF-IDF weighting. In the unweighted scenario, the combination of TextRank and fastText trained with the IndoSum dataset demonstrated the highest performance improvement, with ROUGE-1 and ROUGE-2 scores increasing by 7.51% and 4.24%, respectively. Meanwhile, in the weighted scenario, applying TF-IDF weighting to word embedding showed performance improvement in most summarization systems compared to using word embedding without TF-IDF weighting, with an average performance increase of 5.55% in ROUGE-1 and 9.95% in ROUGE-2."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian