Normalisasi teks pada judul Produk E-Commerce = Text normalization on E-Commerce Product title

Ricky Chandra Johanes, author

Normalisasi teks pada judul Produk E-Commerce = Text normalization on E-Commerce Product title

Ricky Chandra Johanes; Rahmad Mahendra, supervisor; Arlisa Yuliawati, examiner; Gladhi Guarddin, examiner (Fakultas Ilmu Komputer Universitas Indonesia, 2020)

Abstrak

Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik per- hatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diper- baiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan nor- malisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, stan- dardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas em- pat tahapan, yaitu chunking, language identification, promotion words identification, dan normalization. Model yang digunakan pada modul chunking, language identification, dan promotion words identification adalah model Conditional Random Field. Evaluasi dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi ke- mungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik, atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul pro- duk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi, menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi pro- motion words, dan masih dapat dioptimisasi lagi pada tahapan chunking.

The product title on a e-commerce platform has a significant role in attracting consumers’ attention to the product. Poor quality of a product title needs to be fixed and standard- ized, led to a need of text normalization on e-commerce product title. However, this standardization cannot be done manually by humans because new products will continue to increase everyday, so it requires a machine that can do the job properly. Criteria or in- dicators of a good product title on the Indonesian e-commerce platform have never been defined before, so that this research proposes four criteria that can be parameters for a product title quality, namely consistency, conciseness, discoverability, and clarity. In ad- dition, this research also proposes an approach to normalize text on e-commerce product title, with a pipeline approach that consisting of four stages, namely chunking, language identification, promotion words identification, and normalization. The model used in module chunking, language identification, and promotion words identification involves the Conditional Random Field model. Evaluation was separated for each module and in- tegrated for pipeline evaluation. For each module, the experiment was used to evaluate the contribution of each feature towards the quality of the prediction, resulting in conclusion that there are several potential possibilities, which are features that contribute positively or negatively to all metrics, or features can contribute positively to certain metrics, but contribute negatively to the other metrics. The experiment was carried out by inserting product titles into all modules followed the modelling flow with two evaluation settings, resulting for the best accuracy of 49,14% for the WER value and 82,61% for the BLEU value. Based on all of these results, the performance of Conditional Random Field can be said to work well in language identification and promotion words identification module, and can still can be optimized in the chunking module.

File Digital: 1

Shelf

S-Ricky Chandra Johanes.pdf :: Unduh

LOGIN required

Kata Kunci

consistency

judul produk

product title

E-Commerce

conditional random field

normalisasi teks

text normalization

Metadata

Jenis Koleksi :	UI - Skripsi Membership
No. Panggil :	S-pdf
Entri utama-Nama orang :	Ricky Chandra Johanes, author


Entri tambahan-Nama orang :	Rahmad Mahendra, supervisor Arlisa Yuliawati, examiner Gladhi Guarddin, examiner
Entri tambahan-Nama badan :	Universitas Indonesia. Fakultas Ilmu Komputer

Program Studi :	Sistem Informasi
Subjek :	E-commerce
Penerbitan :	Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

Bahasa :	ind
Sumber Pengatalogan :	LibUI ind rda
Tipe Konten :	text
Tipe Media :	unmediated ; computer
Tipe Carrier :	volume ; online resource
Deskripsi Fisik :	xvii, 82 pages : illustrations + appendix
Naskah Ringkas :
Lembaga Pemilik :	Universitas Indonesia
Lokasi :	Perpustakaan UI

Ketersediaan
Ulasan
Sampul

No. Panggil	No. Barkod	Ketersediaan
S-pdf	14-25-29655264	TERSEDIA

Ulasan:

Tidak ada ulasan pada koleksi ini: 9999920554797

UI - Skripsi Membership :: Kembali

UI - Skripsi Membership :: Kembali

Normalisasi teks pada judul Produk E-Commerce = Text normalization on E-Commerce Product title

Abstrak

File Digital: 1

LOGIN required

Kata Kunci

Metadata