Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik per- hatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diper- baiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan nor- malisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, stan- dardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas em- pat tahapan, yaitu chunking, language identification, promotion words identification, dan normalization. Model yang digunakan pada modul chunking, language identification, dan promotion words identification adalah model Conditional Random Field. Evaluasi dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi ke- mungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik, atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul pro- duk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi, menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi pro- motion words, dan masih dapat dioptimisasi lagi pada tahapan chunking.
The product title on a e-commerce platform has a significant role in attracting consumers’ attention to the product. Poor quality of a product title needs to be fixed and standard- ized, led to a need of text normalization on e-commerce product title. However, this standardization cannot be done manually by humans because new products will continue to increase everyday, so it requires a machine that can do the job properly. Criteria or in- dicators of a good product title on the Indonesian e-commerce platform have never been defined before, so that this research proposes four criteria that can be parameters for a product title quality, namely consistency, conciseness, discoverability, and clarity. In ad- dition, this research also proposes an approach to normalize text on e-commerce product title, with a pipeline approach that consisting of four stages, namely chunking, language identification, promotion words identification, and normalization. The model used in module chunking, language identification, and promotion words identification involves the Conditional Random Field model. Evaluation was separated for each module and in- tegrated for pipeline evaluation. For each module, the experiment was used to evaluate the contribution of each feature towards the quality of the prediction, resulting in conclusion that there are several potential possibilities, which are features that contribute positively or negatively to all metrics, or features can contribute positively to certain metrics, but contribute negatively to the other metrics. The experiment was carried out by inserting product titles into all modules followed the modelling flow with two evaluation settings, resulting for the best accuracy of 49,14% for the WER value and 82,61% for the BLEU value. Based on all of these results, the performance of Conditional Random Field can be said to work well in language identification and promotion words identification module, and can still can be optimized in the chunking module.