Hasil Pencarian

Ditemukan 2 dokumen yang sesuai dengan query

Rafi Dwi Rizqullah

Normalisasi Kata pada Teks Twitter Berbahasa Campuran Indonesia-Inggris menggunakan UFAL ByT5 = Text Normalization on Indonesian-English Code-Mixed Twitter Text using UFAL ByT5

"Media sosial telah berkembang pesat dalam masyarakat dunia. Tak terkecuali Twitter yang mendapatkan peningkatan baik dalam jumlah pengguna maupun konten yang dibuat. Namun, Twitter memiliki batasan karakter dalam satu tweet yang menyebabkan perubahan pada pola penulisan para penggunanya. Pengguna Twitter mulai memodifikasi penulisan dengan kata baku menjadi kata tidak baku, salah satunya dengan menggunakan bahasa campuran. Untuk keperluan analisis tweet, normalisasi teks diperlukan untuk mengubah kata tidak baku menjadi baku untuk memudahkan analisis. State-of-the-art pada normalisasi teks Twitter berbahasa campuran Indonesia dan Inggris saat ini adalah model statistical machine translation (SMT), namun model SMT masih memiliki kelemahan pada beberapa jenis perubahan kata. Penelitian ini berfokus pada normalisasi teks Twitter Indonesia berbahasa campuran Indonesia dan Inggris dengan menggunakan salah satu model transformer yaitu UFAL ByT5. Terdapat dua model UFAL ByT5 yang digunakan masing-masing untuk bahasa Indonesia serta bahasa Inggris. Hasil penelitian menunjukkan model UFAL ByT5 unggul dalam normalisasi teks dibandingkan model SMT, dengan selisih nilai BLEU 0,88 persen lebih besar.

Social media has been grown rapidly in the global community. It also includes Twitter, which is getting increase in both users and content created. However, Twitter has character limit in one tweet which causes changes to the writing patterns of its users. Twitter users began to modify their writing from using formal words into non-formal words, one of which was using code-mixed language. For tweet analysis purposes, text normalization is required to transform non-formal words into formal ones to help analysis process. The recent state-of-the-art for Indonesian-English code-mixed Twitter text normalization is with statistical machine translation (SMT) models, however the SMT model still has weakness in word recognition. This research focuses on the Indonesian and English code-mixed Twitter text normalization using one of transformer model which is UFAL ByT5. There are two UFAL ByT5 models that were used, each of them are for Indonesian and English language. Research result shows that UFAL ByT5 model outperform SMT model on text normalization by 0.88 percent of BLEU score in difference."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Ricky Chandra Johanes

Normalisasi teks pada judul Produk E-Commerce = Text normalization on E-Commerce Product title

"Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik per- hatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diper- baiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan nor- malisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, stan- dardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas em- pat tahapan, yaitu chunking, language identification, promotion words identification, dan normalization. Model yang digunakan pada modul chunking, language identification, dan promotion words identification adalah model Conditional Random Field. Evaluasi dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi ke- mungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik, atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul pro- duk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi, menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi pro- motion words, dan masih dapat dioptimisasi lagi pada tahapan chunking.

The product title on a e-commerce platform has a significant role in attracting consumers’ attention to the product. Poor quality of a product title needs to be fixed and standard- ized, led to a need of text normalization on e-commerce product title. However, this standardization cannot be done manually by humans because new products will continue to increase everyday, so it requires a machine that can do the job properly. Criteria or in- dicators of a good product title on the Indonesian e-commerce platform have never been defined before, so that this research proposes four criteria that can be parameters for a product title quality, namely consistency, conciseness, discoverability, and clarity. In ad- dition, this research also proposes an approach to normalize text on e-commerce product title, with a pipeline approach that consisting of four stages, namely chunking, language identification, promotion words identification, and normalization. The model used in module chunking, language identification, and promotion words identification involves the Conditional Random Field model. Evaluation was separated for each module and in- tegrated for pipeline evaluation. For each module, the experiment was used to evaluate the contribution of each feature towards the quality of the prediction, resulting in conclusion that there are several potential possibilities, which are features that contribute positively or negatively to all metrics, or features can contribute positively to certain metrics, but contribute negatively to the other metrics. The experiment was carried out by inserting product titles into all modules followed the modelling flow with two evaluation settings, resulting for the best accuracy of 49,14% for the WER value and 82,61% for the BLEU value. Based on all of these results, the performance of Conditional Random Field can be said to work well in language identification and promotion words identification module, and can still can be optimized in the chunking module."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian