Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 10 dokumen yang sesuai dengan query
cover
Nicholas Pangestu
Abstrak :
Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita, hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan diimplementasikan word embedding untuk membantu algoritma Textrank memahami makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga 13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat meningkatkan performa dari tiap model word embedding yang digunakan hingga 11% pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa pembobotan TF-IDF. ......The length of article news sometimes reduces one's interest in reading the news, we can see this from the many terms "tl:dr" in threads on the internet. Document summarization can create news summaries and reduce the time it takes to read. One way to do document summarization is to use the Textrank algorithm. In this research, word embedding will be implemented to help the Textrank algorithm understand the meaning of a word better. The results show that the use of word embedding improves the performance of the Textrank algorithm up to 13% in ROUGE-1 and up to 21% in ROUGE-2. BERT word embedding model has the highest performance when compared to word2vec (3% higher in ROUGE-1 and 7% higher in ROUGE-2) and fasttext (5% higher in ROUGE-1 and 10% higher in ROUGE-2). This study also implements TF-IDF weighting to make a word representation. The results show that TF-IDF weighting can improve the performance of each word embedding model used up to 11% in ROUGE-1 and 19% in ROUGE-2 compared to the performance without using TF-IDF.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sugiri
Abstrak :
Sebagian besar studi terbaru dalam abstractive summarization melakukan pendekatan dengan melakukan fine-tuning pretrained language generation model (PLGM). PLGM yang digunakan biasanya merupakan versi monolingual, yang hanya memiliki informasi bahasa yang sesuai dengan dataset yang digunakan. Penelitian ini menggunakan PLGM berbasis multilingual, yang menghasilkan kinerja yang cukup kompetitif jika dibandingkan dengan solusi state-of-the-art yang ada. Dengan menggunakan PLGM berbasis multilingual manfaat yang dihasilkan akan berdampak lebih luas sebanyak informasi bahasa yang dimiliki oleh PLGM terkait. Teknik CTRLSum, yaitu penambahan keyphrase di awal source document, terbukti dapat membuat PLGM menghasilkan summary sesuai dengan keyphrase yang disertakan. Penelitian ini menggunakan teknik mCTRLSum, yaitu teknik CTRLSum dengan menggunakan multilingual PLGM. Untuk mendapatkan keyphrase, selain dengan menggunakan teknik keyphrase extraction (KPE) yang memilih kata yang ada di source document, juga digunakan teknik keyphrase generation (KPG) yaitu teknik pembangkitan suatu set kata/frasa berdasarkan suatu source document dataset berbahasa Inggris, tidak hanya dilatih menggunakan oracle keyphrase sebagai pseudo-target dari dataset summarization, model KPG juga dilatih menggunakan dataset khusus permasalahan KPG dengan domain dan bahasa yang sama. Dengan teknik mCTRLSum yang memanfaatkan oracle keyphrase,  penelitian ini mendeklarasikan batas atas solusi permasalahan abstractive summarization pada dataset Liputan6, dan XLSum berbahasa Inggris, Indonesia, Spanyol, dan Perancis dengan peningkatan terbesar pada dataset Liputan6 sebanyak 22.54 skor ROUGE-1, 18.36 skor ROUGE-2, 15.81 skor ROUGE-L, dan 7.16 skor BERTScore, dan rata-rata 9.36 skor ROUGE-1, 6.47 skor ROUGE-2, 6.68 skor ROUGE-L dan 3.14 BERTScore pada dataset XLSum yang digunakan pada penelitian ini. ......Most of the recent studies in abstractive summarization approach by fine-tuning the pre-trained language generation model (PLGM). PLGM used is usually a monolingual version, which only has language information that corresponds to the dataset used. This study uses amultilingual-basedd PLGM, which results in quite competitive performance, compared to existing state-of-the-art solutions. Using a PLGM based on the multilingual benefits generated, it will have a wider impact as much as the language information base owned by the related PLGM. The CTRLSum technique, which is the addition of a keyphrase at the beginning of the source document, is proven to be able to make PLGM produce a summary according to the included keyphrase. This study uses the mCTRLsum technique, namely the CTRLsum technique using multilingual PLGM. To get thekey phrasee, in addition to using the keyphrase extraction (KPE) technique, the words in the source document, keyphrase generation (KPG) techniques are also used, namely the technique of generating a set of words/phrases based on a source document. On the English dataset, not only using the oracle keyphrase as the pseudo-target of the dataset summariza buttion, the KPG model also uses the dataset specifically for KPG problems with the same domain and language. With the mCTRLsum technique that utilizes the oracle keyphrase, this study declares the upper bound of the solution to the abstractive summarization problem in the Liputan6 and XLSum in English, Indonesian, Spanish, and French datasets with the highest increase in Liputan6 dataset of 22.54 ROUGE-1 score, 18.36 ROUGE-2 score, 15.81 ROUGE-L score, and 7.16 BERTScore, and in average of 9.36 ROUGE-1 score, 6.47 ROUGE-2 score, 6.68 ROUGE-L score, and 3.14 BERTScore on XLSum dataset used in this research.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Dita Anggraeni Kusumaningrum
Abstrak :
Kepuasan pelanggan merupakan salah satu faktor penting bagi keberhasilan suatu bisnis, termasuk pada industri jasa penerbangan yang mengalami peningkatan dari tahun ke tahun. Salah satu cara untuk mengukur tingkat kepuasan pelanggan adalah dengan cara penyampaian opini atau ulasan. Opini atau ulasan disampaikan melalui pesan singkat, kotak saran, media sosial maupun halaman web sehingga data yang tersedia berjumlah banyak. Pendekatan text mining tepat digunakan untuk mengekstrak informasi dari data ulasan yang berjumlah banyak secara otomatis. Penelitian ini mengevaluasi dan menganalisis ulasan pelanggan terhadap layanan dan fasilitas Bandara Soekarno-Hatta yang merupakan bandara terbesar di Indonesia. Penelitian ini mengombinasikan pendekatan text mining berupa analisis sentimen dan text summarization. Teknik klasifikasi digunakan untuk mengidentifikasi sentimen positif atau negatif yang terkandung dalam kalimat ulasan. Teknik klasifikasi yang digunakan adalah support vector machine yang cocok digunakan untuk data yang berjumlah besar dan na ve bayes classifier yang hanya membutuhkan jumlah data latihan yang kecil untuk menentukan estimasi parameter dalam proses pengklasifikasian. Text summarization dengan teknik k-medoids clustering digunakan untuk memperoleh kalimat representatif yang menggambarkan keseluruhan isi ulasan. Hasil dari teknik klasifikasi pada penelitian ini menunjukkan bahwa algoritme support vector machine menghasilkan nilai akurasi yang lebih tinggi dibandingkan algoritme na ve bayes classifier dalam menganalisis sentimen. Tahap text summarization dengan teknik k-medoids clustering menghasilkan nilai Davies-Bouldin Index yang mendekati nol. Luaran dari penelitian ini berupa identifikasi aspek layanan dan fasilitas bandara yang menjadi kekuatan dan kelemahan serta penentuan prioritas perbaikan dan peningkatan kualitas aspek layanan dan fasilitas yang masih menjadi kelemahan. ...... Customer satisfaction is an important factor for the business rsquo success, including airline service industry which is increasing from year to year. One way to measure customer satisfaction level is by customer opinions or reviews. Opinions or reviews are conveyed via short messages, suggestion boxes, social media and web pages so customer reviews provided are numerous. Text mining is a right approach to extract information from a large number of review data automatically. This study evaluates and analyzes customer reviews of services and facilities of Soekarno Hatta Airport as the largest airport in Indonesia. This study combines text mining approach of sentimental analysis and text summarization. The classification technique is used to identify the positive or negative sentiments contained in the review sentence. The classification technique used is a support vector machine suitable for large amounts of data and na ve bayes classifier which requires only a small amount of exercise data to determine parameter estimation in the classification process. Text summarization with k medoids clustering technique is used to obtain representative sentences that describe the entire contents of the review. The results of the classification technique in this study indicate that support vector machine algorithm has a higher accuracy value than na ve bayes classifier algorithm in analyzing sentiments. Text summarization stage with k medoids clustering technique yields a near zero Davies Bouldin Index value. The output of this research is identification of service aspect and airport facility which become the strength and weakness as well as the improvement prioritization of aspects that still become weakness.
Depok: Fakultas Teknik Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Puteri Prameswari
Abstrak :
Ulasan hotel online di era modern ini memiliki peran besar mengingat hotel merupakan faktor penentu daya saing sebuah daerah wisata, namun pemanfaatannya masih jarang ditemukan. Berkaitan dengan rencana pemerintah untuk meningkatkan kunjungan wisatawan ke Indonesia, penelitian ini mengaplikasikan text mining terhadap ulasan hotel online untuk menemukan pengetahuan yang bermanfaat dalam membangun sektor perhotelan sebagai bagian integral dalam industri pariwisata. Teknik klasifikasi teks digunakan untuk mendapatkan informasi sentimen yang terkandung dalam kalimat ulasan melalui analisis sentimen, serta teknik klasterisasi pada text summarization untuk menemukan kalimat representatif yang mampu menggambarkan keseluruhan isi ulasan. Percobaan dengan ulasan hotel di Labuan Bajo, Lombok, dan Bali menghasilkan luaran yang memuaskan, di mana akurasi model penggolong klasifikasi sebesar 78 dan Davies-Bouldin Index DBI sebesar 0.071 untuk proses klasterisasi. Luaran penelitian ini diharapkan mampu menggambarkan kondisi hotel di daerah wisata unggulan Indonesia sehingga dapat berkontribusi dalam peningkatan kualitas sektor perhotelan sebagai penunjang industri pariwisata di Indonesia. ...... In this modern era, online hotel reviews have a big role considering the hotel is one the aspects in determining the competitiveness in the tourist area, but its implementation is still rare. Regarding the government 39 s plan to increase tourist arrivals to Indonesia, this research utilized text mining towards online hotel reviews to find useful knowledge in building the hospitality sector as an integral part of the tourism industry. Text classification technique was used to obtain sentiment information contained in review sentences through sentiment analysis, as well as clustering technique as a part of text summarization to find representative sentences that are able to describe the entire contents of the review. Experiments with hotel reviews in Labuan Bajo, Lombok and Bali generated surprising outcomes, where the accuracy of classification model reaches 78 and the Davies Bouldin Index DBI of clustering algorithm strikes 0.071. The output of this research is expected to be able to describe the condition of the hotel in tourist area based on the different level of tourism development so that it can contribute to improving the quality of the hotel industry as well as supporting the tourism industry in Indonesia.
Depok: Fakultas Teknik Universitas Indonesia, 2017
T48159
UI - Tesis Membership  Universitas Indonesia Library
cover
Cikita Berlian Hakim
Abstrak :
ABSTRAK
Bali masih menjadi pintu masuk utama bagi wisatawan mancanegara. Potensi besar yang dimiliki Bali untuk memikat wisatawan menikmati beragam petualangan mulai dari keindahan alam, budaya, makanan, bahasa, flora dan fauna. Meskipun begitu, bukan berarti Bali menjadi tanpa cela. Angka kecelakaan lalu lintas di Bali meningkat selama tahun 2015-2019. Data tahun 2019 menunjukkan jumlah kejadian kecelakaan lalu lintas meningkat 70% dibandingkan tahun 2015. Korban kecelakaan lalu lintas dengan luka ringan pada tahun 2019 meningkat 83% dibandingkan tahun 2015. Korban meninggal dunia karena kecelakaan lalu lintas pada tahun 2019 meningkat 6% dibandingkan tahun 2015. Peningkatan jumlah kecelakaan lalu lintas dapat merusak citra pariwisata Bali. Menurut penelitian terdahulu, citra pariwisata dapat dipengaruhi oleh wisatawan yang berbagi pengalaman perjalanan wisata mereka baik secara langsung ataupun melalui media sosial. Penelitian ini diharapkan mampu memberikan jawaban dari pertanyaan "Bagaimana pengalaman wisatawan tentang keselamatan selama melakukan perjalanan wisata di Bali yang dibagikan melalui media sosial?". Tujuan dari penelitian ini adalah untuk mengetahui aspek keselamatan yang mempengaruhi citra tujuan wisata Bali dan menganalisis faktor yang mempengaruhi peningkatan aspek keselamatan. Pengaplikasikan teknik text mining terhadap ulasan pengguna Twitter tentang aspek keselamatan di Bali digunakan dalam penelitian ini. Penelitian ini mengungkapkan bahwa aspek keselamatan yang memberikan penilaian negatif paling tinggi terhadap citra pariwisata di Bali adalah aspek keselamatan berkendara di jalan raya khususnya menggunakan sepeda motor. Faktor perbaikan fasilitas lalu lintas dan penegakan aturan untuk pengemudi dapat mempengaruhi peningkatan keselamatan di Bali.
ABSTRACT
Bali is still the main entrance for foreign tourists. Bali has great potential to lure tourists to enjoy a variety of adventures ranging from natural beauty, culture, food, language, flora and fauna. Even so, does not mean Bali to be flawless. The number of traffic accidents in Bali increased during 2015-2019. Data in 2019 shows the number of traffic accident incidents increased by 70% compared to 2015. Victims of traffic accidents with minor injuries in 2019 increased by 83% compared to 2015. The death toll due to traffic accidents in 2019 increased by 6% compared to 2015. The increased number of traffic accidents can damage the destination image of Bali. According to previous research, the destination image can be influenced by tourists who share their travel experiences with others directly or through social media. This research is expected to be able to provide answers to the question "How are tourists the experience about safety during their tour in Bali and shared through social media?". This study aims to determine of safety aspect influencing on Bali's destinations image and analyze the factors influencing of safety improvement. In this study, the text mining technique was used to Twitter user reviews about safety aspects in Bali. This study revealed the safety aspect which gave the highest negative rating on the image of tourism in Bali was the safety aspect of driving on the highway, especially using motorbikes. Factors improving traffic facilities and enforcing rules for drivers can influence safety improvements in Bali.
Depok: Fakultas Teknik Universitas Indonesia, 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Michael Harditya
Abstrak :
Penelitian ini melakukan pengembangan integrasi metode perangkum abstraktif dengan metode ekstraktif dalam merangkum teks berita yang melebihi input maksimal dari model machine learning. Penggabungan metode abstraktif dan ekstraktif menciptakan rangkuman yang lebih natural tanpa kehilangan makna semantiknya, serta menyelesaikan keterbatasan jumlah input maksimal dari model machine learning yang digunakan pada metode abstraktif. Bagian abstraktif dibuat menggunakan model machine learning yang menggunakan arsitektur Transformer, yaitu model BART. Bagian ekstraktif menggunakan algoritma gabungan untuk melakukan pembobotan tiap kalimat menggunakan term frequency – inverse document frequency (TF-IDF), konjungsi antar kalimat, dan peletakan kalimat pada paragraf yang dapat diidentifikasi menggunakan algoritma pemrograman. Dataset yang digunakan adalah benchmark IndoSum, yaitu dataset bahasa Indonesia untuk merangkum teks, sehingga dapat dievaluasikan dengan model pada penelitian yang serupa. Beberapa pengujian dilakukan pada model BART dan tokenizer, dengan nilai ROUGE Score menunjukan adanya peningkatan pada tokenizer bahasa Indonesia ketimbang bahasa Inggris. Hasil evaluasi pada finetuning model BART mendapatkan nilai ROUGE Score sebesar 0,725 untuk ROUGE-1, 0,635 untuk ROUGE-2, 0,699 untuk ROUGE-L, dan 0,718 untuk ROUGE-Lsum, menjadikan model BART lebih tinggi pada beberapa model lainnya pada riset terkait. Human evaluation dilakukan pada hasil integrasi, menunjukan hasil yang baik untuk morfologi, semantik, dan kenaturalan rangkuman, namun masih buruk untuk kesalahan pengetikan. ......This research develops the integration of abstractive summarization methods with extractive methods in summarizing news texts that exceed the maximum input from the machine learning model. Combining abstractive and extractive methods creates a more natural summary without losing its semantic meaning, and resolves the limitations of the maximum number of inputs from the machine learning model used in the abstractive method. The abstractive part was created using a machine learning model that uses the Transformer architecture, namely the BART model. The extractive section uses a combined algorithm to weight each sentence using term frequency - inverse document frequency (TF-IDF), conjunctions between sentences, and placement of sentences in paragraphs that can be identified using a programming algorithm. The dataset used is the IndoSum benchmark, namely an Indonesian language dataset for summarizing text, so that it can be evaluated with models in similar research. Several tests were carried out on the BART model and tokenizer, with the ROUGE Score showing an increase in the Indonesian language tokenizer compared to English. The evaluation results of finetuning the BART model obtained a ROUGE Score of 0.725 for ROUGE-1, 0.635 for ROUGE-2, 0.699 for ROUGE-L, and 0.718 for ROUGE-Lsum, making the BART model higher than several other models in related research. Human evaluation was carried out on the integration results, showing good results for morphology, semantics and naturalness of summaries, but still poor results for typing errors.
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gibran Brahmanta Patriajati
Abstrak :
Text Summarization secara ekstraktif merupakan suatu isu yang dapat meningkatkan kualitas pengalaman pengguna ketika menggunakan suatu sistem perolehan informasi. Pada bahasa Inggris, terdapat beberapa penelitian terkait Text Summarization secara ekstraktif salah satunya adalah penelitian Belwal et al. (2021) yang memperkenalkan suatu metode Text Summarization secara ekstraktif yang berbasiskan proses Topic Modeling serta Semantic Measure menggunakan WordNet. Sementara pada bahasa Indonesia, juga terdapat beberapa penelitian terkait Text Summarization secara ekstraktif tetapi belum ada yang menggunakan metode yang sama seperti yang diperkenalkan oleh Belwal et al. (2021). Agar metode yang diperkenalkan Belwal et al. (2021) dapat digunakan pada bahasa Indonesia, proses Semantic Measure menggunakan WordNet harus diganti dengan Similarity Measure menggunakan Vector Space Model karena tidak adanya model WordNet bahasa Indonesia yang dapat digunakan oleh umum. Dalam menggunakan metode yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia, terdapat beberapa metode yang dapat digunakan untuk melakukan Topic Modeling, Vector Space Model, serta Similarity Measure yang terdapat di dalamnya. Penelitian ini berfokus untuk mencari kombinasi metode ketiga hal yang telah disebutkan sebelumnya yang dapat memaksimalkan performa metode Text Summarization yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia dengan menggunakan pendekatan hill-climbing. Proses evaluasi dilakukan dengan menggunakan metrik ROUGE-N dalam bentuk F-1 Score pada dua buah dataset yaitu Liputan6 serta IndoSUM. Hasil penelitian menemukan bahwa kombinasi metode yang dapat memaksimalkan performa metode Text Summarization secara ekstraktif yang diperkenalkan oleh Belwal et al. (2021) adalah Non-Negative Matrix Factorization untuk Topic Modeling, Word2Vec untuk Vector Space Model, serta Euclidean Distance untuk Similarity Measure. Kombinasi metode tersebut memiliki nilai ROUGE-1 sebesar 0.291, ROUGE-2 sebesar 0.140, dan ROUGE-3 sebesar 0.079 pada dataset Liputan6. Sementara pada dataset IndoSUM, kombinasi metode tersebut memiliki nilai ROUGE-1 sebesar 0.455, ROUGE-2 sebesar 0.337, dan ROUGE-3 sebesar 0.300. Performa yang dihasilkan oleh kombinasi metode tersebut bersifat cukup kompetitif dengan performa metode lainnya seperti TextRank serta metode berbasiskan model Deep Learning BERT apabila dokumen masukannya bersifat koheren. ......Extractive text summarization is an issue that can improve the quality of user experience when using an information retrieval system. Research related to extractive text summarization is a language-specific research. In English, there are several studies related to extractive text summarization, one of them is the research of Belwal et al. (2021) They introduced an extractive Text Summarization method based on the Topic Modeling process and Semantic Measure using WordNet. While in Indonesian, there are also several studies related to extractive text summarization, but none have used the same method as introduced by Belwal et al. (2021). In order to use the method introduced by Belwal et al. (2021) in Indonesian, the Semantic Measure process using WordNet must be replaced with Similarity Measure using the Vector Space Model because there is no Indonesian WordNet model that can be used by the public. When using the method introduced by Belwal et al. (2021) in Indonesian, there are several methods that can be used to perform Topic Modeling, Vector Space Model, and Similarity Measure that contained in there. This study focuses on finding a combination of the three methods previously mentioned that can maximize the performance of the Text Summarization method introduced by Belwal et al. (2021) in Indonesian using hill-climbing approach. The evaluation process is carried out using the ROUGE-N metric in the form of F-1 Score on two datasets, namely Liputan6 and IndoSUM. The results of the study found that the combination of methods that can maximize the performance of the extractive text summarization method introduced by Belwal et al. (2021) are Non-Negative Matrix Factorization for Topic Modeling, Word2Vec for Vector Space Model, and Euclidean Distance for Similarity Measure. The combination of those methods has a ROUGE-1 value of 0.291, ROUGE-2 value of 0.140, and ROUGE-3 value of 0.079 in the Liputan6 dataset. Meanwhile, in the IndoSUM dataset, the combination of those methods has a ROUGE-1 value of 0.455, ROUGE-2 value of 0.337, and ROUGE-3 value of 0.300. The performance generated by the combination of those methods is quite competitive with the performance of other methods such as TextRank and Deep Learning BERT model based method if the input document is coherent.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Machffud Tra Harana Vova
Abstrak :
Indonesia merupakan negara yang wilayahnya sering mengalami bencana alam. Salah satu penanganan bencana alam adalah pengumpulan informasi berita bencana seperti artikel atau koran, yang mana berguna untuk meningkatkan readability. Meskipun be- gitu, sekadar pengumpulan artikel saja cukup sulit karena identfikasinya dapat memakan waktu serta makna yang termuat pada berita juga masih perlu diserap. Oleh karena itu perlu dilakukan klasifikasi dokumen untuk memilih teks dokumen yang relevan dengan bencana alam, kemudian dari teks dokumen yang relevan dilakukan ekstraksi informasi. Penelitian mengenai klasifikasi teks bencana alam serta ekstraksi informasi yang sudah dilakukan masih menggunakan pendekatan pemelajaran mesin tradisional serta belum memanfaatkan pre-trained model berbasis bahasa Indonesia. Penggunaan pre-trained model dan pendekatan deep learning sendiri sering memperoleh performa yang lebih baik, sehingga ada kemungkinan performa yang dihasilkan dapat ditingkatkan. Dalam penelitian ini dilakukan eksperimen menggunakan pre-trained word embedding seperti Word2Vec dan fastText, pendekatan deep learning seperti BERT dan BiLSTM untuk task klasifikasi. Hasil dengan pendekatan pemelajaran mesin tradisional dengan BoW yang sudah direproduksi menjadi yang terbaik hampir secara keseluruhan, meskipun jenis classifier yang digunakan adalah MLP yang mana sudah menerapkan deep learning karena memiliki beberapa neuron. Kemudian pada penggunaan model pre-trained seperti BERT, terdapat keterbatasan panjang masukan. Keterbatasan ini dapat ditangani dengan membuat representasi dokumen menjadi lebih pendek menggunakan metode peringkasan teks. Hasil representasi ringkasan dokumen dalam penelitian ini mampu meningkatkan performa akurasi klasifikasi baik pada pendekatan pemelajaran mesin tradisional maupun deep learning. Penelitian ini juga melakukan ekperimen penggunaan pre-trained model yang sudah fine-tuned untuk task ekstraksi lokasi seperti NER dan dependency parsing berbasis bahasa Indonesia, meskipun belum dihasilkan performa yang cukup baik. ......Indonesia is a country whose often experiences natural disasters. One way to deal with natural disasters is to collect disaster news information such as articles or newspapers, which are useful for increasing readability. Even so, just collecting articles is quite difficult because identification can take time and the meaning contained in the news still needs to be absorbed. Therefore, it is necessary to classify documents to select document texts that are relevant to natural disasters, then extract information from the relevant document texts. Research on natural disaster text classification and information extraction that has been carried out still uses the traditional machine learning approach and has not yet utilized Indonesian language-based pre-trained models. The use of pre- trained models and deep learning approaches themselves often get better performance, so there is a possibility that the resulting performance can be improved. In this study, experiments were carried out using pre-trained word embedding such as Word2Vec and fastText, deep learning approaches such as BERT and BiLSTM for classification tasks. The results with traditional machine learning approaches with reproducible BoW are the best almost overall, even though the type of classifier used is MLP which already implements deep learning because it has few neurons. Then in the use of pre-trained models such as BERT, there are limitations to the length of the input. This limitation can be overcome by making the document representation shorter using the text summary method. The results of the document summary representation in this study were able to improve the performance of classification accuracy in both traditional and deep learning machine learning approaches. This study also conducted experiments using pre-trained models that had been fine-tuned for location extraction tasks such as NER and Indonesian language-based dependency parsing, although they did not produce sufficiently good performance.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Abstrak :
A great summarization on multi-document with similar topics can help users to get useful informa-tion. A good summary must have an extensive coverage, minimum redundancy (high diversity), and smooth connection among sentences (high coherence). Therefore, multi-document summarization that considers the coverage, diversity, and coherence of summary is needed. In this paper we propose a novel method on multi-document summarization that optimizes the coverage, diversity, and coher-ence among the summary's sentences simultaneously. It integrates self-adaptive differential evolution (SaDE) algorithm to solve the optimization problem. Sentences ordering algorithm based on topical closeness approach is performed in SaDE iterations to improve coherences among the summary's sen-tences. Experiments have been performed on Text Analysis Conference (TAC) 2008 data sets. The experimental results showed that the proposed method generates summaries with average coherence and ROUGE scores 29-41.2 times and 46.97-64.71% better than any other method that only consider coverage and diversity, respectively.

Peringkasan yang baik terhadap dokumen-dokumen dengan topik yang seragam dapat membantu pembaca dalam memperoleh informasi secara cepat. Ringkasan yang baik merupakan ringkasan de-ngan cakupan pembahasan (coverage) yang luas dan dengan tingkat keberagaman (diversity) serta ke-terhubungan antarkalimat (coherence) yang tinggi. Oleh karena itu dibutuhkan metode peringkasan multi-dokumen yang mempertimbangkan tingkat coverage, diversity, dan coherence pada hasil ring-kasan. Pada paper ini dikembangkan sebuah metode baru dalam peringkasan multi-dokumen dengan mengoptimasi tingkat coverage, diversity, dan coherence antarkalimat hasil ringkasan secara simul-tan. Optimasi hasil ringkasan dilakukan dengan menggunakan algoritma self-adaptive differential evolution (SaDE). Algoritma pengurutan kalimat yang menggunakan pendekatan topical closeness ju-ga diintegrasikan ke dalam tiap iterasi algoritma SaDE untuk meningkatkan koherensi antarkalimat hasil ringkasan. Uji coba dilakukan pada 15 topik dataset Text Analysis Conference (TAC) 2008. Ha-sil uji coba menunjukkan bahwa metode yang diusulkan dapat menghasilkan ringkasan dengan rata-rata koherensi 29-41,2 kali lebih tinggi serta skor ROUGE 46,97-64,71% lebih besar dibandingkan dengan metode yang hanya mempertimbangkan coverage dan diversity hasil ringkasan.
Surabaya: Institut Teknologi Sepuluh Nopember, Faculty of Information and Technology, Department of Informatics, 2015
AJ-Pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Jo, Taeho
Abstrak :
This book discusses text mining and different ways this type of data mining can be used to find implicit knowledge from text collections. The author provides the guidelines for implementing text mining systems in Java, as well as concepts and approaches. The book starts by providing detailed text preprocessing techniques and then goes on to provide concepts, the techniques, the implementation, and the evaluation of text categorization. It then goes into more advanced topics including text summarization, text segmentation, topic mapping, and automatic text management.
Switzerland: Springer Cham, 2019
e20501288
eBooks  Universitas Indonesia Library