Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 10 dokumen yang sesuai dengan query
cover
Rico Tadjudin
Abstrak :

Grammatical Error Correction (GEC) merupakan bagian dari Natural Language Processing yang membahas suatu task untuk mendeteksi dan setelahnya mengoreksi suatu teks. Pekerjaan tersebut mencakup pendeteksian dan pengoreksian kesalahan tata bahasa, kesalahan ortografi, dan semantik. Perkembangan GEC untuk bahasa Indonesia terkendala oleh sedikitnya dataset yang dapat digunakan untuk melatih model GEC. Penelitian ini mengusulkan pendekatan rule-based untuk membangun sebuah dataset sintetik yang mengandung kalimat salah secara tata bahasa baku bahasa Indonesia beserta koreksinya. Hal tersebut dapat dilakukan dengan memanfaatkan kamus tesaurus bahasa Indonesia dan alat bantuan NLP seperti tokenizer, part-of-speech tagger, morphological analyzer, dan dependency parser untuk mengekstrak informasi konteks dari kalimat. Kumpulan data sintetik dibangkitkan dengan menggunakan kalimat yang benar secara tata bahasa dari halaman0halaman situs Wikipedia sebagai kalimat input. Dataset ini menyediakan data dalam dua format yang berbeda, yaitu dalam format M2 dan dalam bentuk pasangan kalimat salah dan benar. Pembangkitan kesalahan tata bahasa akan memiliki 17 kemungkinan jenis kesalahan tata bahasa yang berbeda dengan total 16.898 kalimat salah yang dibentuk. Pengujian Gramatika dilakukan dengan melakukan evaluasi secara manual mengenai ketepatan pembangkitan tiap kesalahan pada kalimat. Pengujian manual dilakukan dengan melakukan stratified random sampling untuk mengambil sampel 100 kalimat. Sampel tersebut minimal memiliki 5 contoh untuk setiap jenis kesalahan tata bahasa. Dari pengevaluasian yang dilalukan oleh dua penguji, didapatkan nilai accuracy sebesar 91,1%.


Grammatical Error Correction (GEC) is a part of Natural Language Processing which deals with the task of detecting and correcting a text. This includes correcting grammatical errors, semantic errors, and orthographic errors. GEC development in Indonesian language has been hindered by the lack of suitable dataset that can be used to train GEC models. This research proposes a rule-based approach to develop a synthetic dataset that contains sentences in Indonesian with grammar errors and its corresponding corrections. It’s done with the help of dictionaries such as Indonesian thesaurus and NLP tools such as a tokenizer, part of speech tagger, morphological analyzer, and dependency parser to extract contextual information of sentences. The synthetic dataset is generated by using grammatically correct sentences from Wikipedia pages as the input. The resulting dataset is formatted to M2 format and pairs of correct and false sentences, containing 17 types of errors with a total of 16.898 sentences. The evaluation of Gramatika is done by manually assessing the accuracy of the sentence modifications. To do this, stratified random sampling is conducted to select 100 sentences with a minimum of 5 examples for each error type. From the manual evaluation by two evaluators, an average accuracy score of 91.1% is obtained.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Michael Felix Haryono
Abstrak :
Grammatical Error Correction (GEC) merupakan bagian dari Natural Language Processing yang membahas suatu task untuk mendeteksi dan setelahnya mengoreksi suatu teks. Pekerjaan tersebut mencakup pendeteksian dan pengoreksian kesalahan tata bahasa, kesalahan ortografi, dan semantik. Perkembangan GEC untuk bahasa Indonesia terkendala oleh sedikitnya dataset yang dapat digunakan untuk melatih model GEC. Penelitian ini mengusulkan pendekatan rule-based untuk membangun sebuah dataset sintetik yang mengandung kalimat salah secara tata bahasa baku bahasa Indonesia beserta koreksinya. Hal tersebut dapat dilakukan dengan memanfaatkan kamus tesaurus bahasa Indonesia dan alat bantuan NLP seperti tokenizer, part-of-speech tagger, morphological analyzer, dan dependency parser untuk mengekstrak informasi konteks dari kalimat. Kumpulan data sintetik dibangkitkan dengan menggunakan kalimat yang benar secara tata bahasa dari halaman0halaman situs Wikipedia sebagai kalimat input. Dataset ini menyediakan data dalam dua format yang berbeda, yaitu dalam format M2 dan dalam bentuk pasangan kalimat salah dan benar. Pembangkitan kesalahan tata bahasa akan memiliki 17 kemungkinan jenis kesalahan tata bahasa yang berbeda dengan total 16.898 kalimat salah yang dibentuk. Pengujian Gramatika dilakukan dengan melakukan evaluasi secara manual mengenai ketepatan pembangkitan tiap kesalahan pada kalimat. Pengujian manual dilakukan dengan melakukan stratified random sampling untuk mengambil sampel 100 kalimat. Sampel tersebut minimal memiliki 5 contoh untuk setiap jenis kesalahan tata bahasa. Dari pengevaluasian yang dilalukan oleh dua penguji, didapatkan nilai accuracy sebesar 91,1%. ...... Grammatical Error Correction (GEC) is a part of Natural Language Processing which deals with the task of detecting and correcting a text. This includes correcting grammatical errors, semantic errors, and orthographic errors. GEC development in Indonesian language has been hindered by the lack of suitable dataset that can be used to train GEC models. This research proposes a rule-based approach to develop a synthetic dataset that contains sentences in Indonesian with grammar errors and its corresponding corrections. It’s done with the help of dictionaries such as Indonesian thesaurus and NLP tools such as a tokenizer, part of speech tagger, morphological analyzer, and dependency parser to extract contextual information of sentences. The synthetic dataset is generated by using grammatically correct sentences from Wikipedia pages as the input. The resulting dataset is formatted to M2 format and pairs of correct and false sentences, containing 17 types of errors with a total of 16.898 sentences. The evaluation of Gramatika is done by manually assessing the accuracy of the sentence modifications. To do this, stratified random sampling is conducted to select 100 sentences with a minimum of 5 examples for each error type. From the manual evaluation by two evaluators, an average accuracy score of 91.1% is obtained.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Matovanni, Puspita Sari
Abstrak :
Paradigma Software Product Line Engineering (SPLE) adalah paradigma yang mampu memproduksi software secara masif dalam waktu singkat melalui pemanfaatan kembali komponen dasar. Salah satu sistem yang mengadopsi paradigma tersebut adalah sistem AMANAH yang dikembangkan oleh Laboratorium Reliable Software Engineering. Produk AMANAH saat ini masih terus ditingkatkan dari sisi fitur dan usability. Aspek usability yang merupakan salah satu aspek dalam User Experience (UX) ini penting untuk dikaji karena aspek tersebut dapat menjamin pengguna menggunakan produk dengan benar sehingga kepuasan pengguna dalam memakai produk meningkat. Selain itu, aspek terkait usability menjadi sangat penting dalam pengembangan produk AMANAH karena antarmuka produk dibuat secara semi otomatis melalui paradigma SPLE. Pada penelitian ini dilakukan evaluasi terhadap produk AMANAH yang telah dikembangkan sebelumnya. Evaluasi usability dilakukan menggunakan usability testing serta wawancara kepada target pengguna yang berasal dari pengurus organisasi dan donatur. Hasil usability testing dan wawancara diobservasi lebih lanjut menggunakan prioritization template untuk mengukur perbaikan yang dapat dilakukan menggunakan parameter manusia/pengguna, bisnis, dan teknologi. Saran perbaikan yang dapat diimplementasikan memiliki kategori user value tinggi dan user value rendah, tetapi memiliki effort yang rendah. Rencana perubahan yang telah dibuat kemudian diimplementasikan pada komponen-komponen AMANAH. Setelah dilakukan perbaikan, produk AMANAH dilakukan evaluasi kembali dari segi sistem dan usability. Evaluasi dari segi sistem dilakukan menggunakan Selenium IDE untuk menjalankan serangkaian test scenario pada automated functional testing, sedangkan evaluasi dari segi usability dilakukan dengan memanfaatkan System Usability Scale (SUS). Berdasarkan serangkaian proses yang dilakukan, hasil yang didapatkan menunjukkan bahwa produk AMANAH yang telah diperbaiki mengalami perubahan alur kerja pada beberapa fitur, tetapi tidak ada fungsionalitas yang terganggu. Selain itu, produk AMANAH sudah tidak mengalami masalah terkait usability yang ditunjukkan dengan skor SUS di atas rata-rata. ......The paradigm of Software Product Line Engineering (SPLE) is capable of producing software on a large scale in a short time by reusing basic components. One system that adopts this paradigm is the AMANAH system developed by the Laboratory of Reliable Software Engineering, Faculty of Computer Science, University of Indonesia. The AMANAH product is currently being continuously improved in terms of features and usability. Usability, which is one aspect of User Experience (UX), is important to study because it ensures that users use the product correctly, resulting in increased user satisfaction when using the product. In this study, an evaluation was conducted on the previously developed AMANAH product. Usability evaluation was performed using usability testing and interviews with target users, including organization administrators and donors. The results of usability testing and interviews were further observed using a prioritization template to measure improvements that can be made based on human/user, business, and technology parameters. Improvement suggestions that can be implemented were categorized into high user value and low user value but with low effort. The planned changes were then implemented using Acceleo as the UI Generator, IFML, and ReactJS as the UI template. After the improvements were made, the AMANAH product was re-evaluated in terms of system and usability. System evaluation was conducted using Selenium web driver to execute a series of test scenarios in automated functional testing. Meanwhile, usability evaluation utilized the System usability Scale (SUS). Through the series of processes, the obtained results showed that the improved AMANAH product experienced changes in the workflow of certain features, but no functionality was disrupted. Additionally, the AMANAH product no longer had usability issues as indicated by the above-average SUS scores.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Fayaad
Abstrak :
Software Product Line Engineering (SPLE) merupakan paradigma pengembangan perangkat lunak yang memanfaatkan common platform (kemiripan) dan mass customisation (keragaman) dari berbagai aplikasi. Pengembangan perangkat lunak dengan paradigma SPLE pada penelitian ini menggunakan diagram Interaction Flow Modeling Language (IFML) sebagai pemodelan antarmuka dalam menghasilkan komponen user interface (UI) pada aplikasi front end. Diagram IFML digunakan sebagai masukan pada UI Generator Web Interface untuk menghasilkan proyek React sebagai aplikasi berbasis website. Namun, ketika aplikasi dibuka melalui tampilan mobile, antarmuka yang ditampilkan menjadi tidak teratur serta beberapa interaksi sulit untuk dilakukan. Selain itu, aplikasi yang dihasilkan juga belum dapat diinstal pada perangkat untuk digunakan secara offline. Oleh karenanya, penelitian ini bertujuan untuk mengembangkan UI Generator Web Interface agar aplikasi yang dihasilkan memiliki tampilan yang responsif serta mendukung Progressive Web Application (PWA). Selain itu, penelitian ini juga bertujuan untuk mengembangkan UI Generator Mobile Interface untuk menghasilkan proyek React Native sebagai aplikasi berbasis mobile. UI Generator Mobile Interface yang dikembangkan menggunakan diagram IFML yang sama dalam menghasilkan aplikasi mobile dengan antarmuka dan fungsionalitas yang serupa. Selanjutnya, antarmuka kedua aplikasi yang masing-masing dihasilkan oleh UI Generator Web Interface dan UI Generator Mobile Interface dievaluasi menggunakan prinsip Shneiderman’s Eight Golden Rules of Interface Design. Hal ini bertujuan untuk mencari tahu apakah antarmuka dari kedua aplikasi yang dihasilkan secara generated sudah memenuhi kaidah perancangan antarmuka. Dari penelitian ini dapat disimpulkan bahwa UI Generator Web Interface dan UI Generator Mobile Interface berhasil dikembangkan serta telah dilakukan evaluasi terhadap masing-masing aplikasi yang dihasilkan. Hasil evaluasi menunjukkan bahwa terdapat beberapa bagian yang dapat ditingkatkan lebih lanjut pada kedua antarmuka aplikasi. ...... Software Product Line Engineering (SPLE) is a software development paradigm that utilizes a common platform and mass customization of various applications. Software development with the SPLE paradigm in this study uses Interaction Flow Modeling Language (IFML) diagrams in modeling the user interface to generate user interface (UI) components for front end applications. IFML diagrams are used as input to the UI Generator Web Interface in generating React projects as web-based applications. However, when the application is opened in the mobile view, the user interface displayed becomes irregular and some interactions are difficult to complete. In addition, the resulting application cannot be installed on a device for offline use. Therefore, this study aims to develop a UI Generator Web Interface so that the resulting application has a responsive display and supports Progressive Web Application (PWA). In addition, this research also aims to develop a UI Generator Mobile Interface to produce React Native projects as mobile-based applications. The UI Generator Mobile Interface developed uses the same IFML diagram in producing mobile applications with similar interfaces and functionalities. Furthermore, the interfaces of the two applications each generated by the UI Generator Web Interface and UI Generator Mobile Interface are evaluated using the principle of Shneiderman’s Eight Golden Rules of Interface Design. This aims to find out whether the interface of the two generated applications already meet the rules of interface design. From this study it can be concluded that the UI Generator Web Interface and UI Generator Mobile Interface have been successfully developed and an evaluation has been carried out for each of the resulting applications. The evaluation results indicate that there are several areas for further improvement in both application interfaces.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Julian Fernando
Abstrak :
Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel. Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual, kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar pada kualitas hasil ekstraksi. ......The development of regional language NLP in Indonesia is still relatively slow. There are several factors behind this, such as poor language documentation, a small number of speakers of the language, and lack of the resources needed to study regional language NLP. This research aims to develop a general extraction method for Indonesian and regional bilingual dictionaries to produce NLP resources. The resulting system is able to process multiple bilingual dictionaries at once into NLP resources. Dictionaries are converted to machine readable form and processed to the form of a corpus of entries in advance before extraction is carried out. A corpus of entries means corpus that contains full information of each entry in the dictionary as well as font style, font size, and the position of each word of the entry in the bilingual dictionary. The extraction process is carried out by observing the entry's pattern resulting in the entry standardization phase having to be done prior before resources are produced. Besides resource production, spell checking is also carried out specifically for parallel corpus resources. In order to evaluate the extraction results, several bilingual dictionaries are taken to be samples. Evaluation process is carried out by observing the accuracy of each entry component’s placement in the extraction results. Research team found that the resulting system has succeeded in extracting NLP resources optimally in the form of bilingual lexicon, morphology, and parallel corpus on 32 Indonesian and regional bilingual dictionaries. There are still some deficiencies in the developed system since the extraction process is highly dependent on the accuracy of font detection such that the qualities of dictionaries still have a big impact on the quality of extraction results.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Raden Fausta Anugrah Dianparama
Abstrak :
Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel. Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual, kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar pada kualitas hasil ekstraksi. ......The development of regional language NLP in Indonesia is still relatively slow. There are several factors behind this, such as poor language documentation, a small number of speakers of the language, and lack of the resources needed to study regional language NLP. This research aims to develop a general extraction method for Indonesian and regional bilingual dictionaries to produce NLP resources. The resulting system is able to process multiple bilingual dictionaries at once into NLP resources. Dictionaries are converted to machine readable form and processed to the form of a corpus of entries in advance before extraction is carried out. A corpus of entries means corpus that contains full information of each entry in the dictionary as well as font style, font size, and the position of each word of the entry in the bilingual dictionary. The extraction process is carried out by observing the entry's pattern resulting in the entry standardization phase having to be done prior before resources are produced. Besides resource production, spell checking is also carried out specifically for parallel corpus resources. In order to evaluate the extraction results, several bilingual dictionaries are taken to be samples. Evaluation process is carried out by observing the accuracy of each entry component’s placement in the extraction results. Research team found that the resulting system has succeeded in extracting NLP resources optimally in the form of bilingual lexicon, morphology, and parallel corpus on 32 Indonesian and regional bilingual dictionaries. There are still some deficiencies in the developed system since the extraction process is highly dependent on the accuracy of font detection such that the qualities of dictionaries still have a big impact on the quality of extraction results.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Harakan Akbar
Abstrak :
Perkembangan NLP bahasa daerah di Indonesia masih tergolong lambat. Banyak faktor yang melatarbelakangi hal tersebut, seperti dokumentasi bahasa yang buruk, penutur bahasa yang sedikit, dan kurangnya sumber daya untuk mempelajari NLP bahasa daerah. Penelitian ini bertujuan untuk mengembangkan metode ekstraksi kamus dwibahasa Indonesia dan bahasa daerah yang umum untuk menghasilkan sumber daya NLP. Sistem yang dihasilkan mampu mengolah banyak kamus dwibahasa sekaligus menjadi sumber daya NLP. Kamus terlebih dahulu dikonversi ke dalam bentuk machine readable dan diolah ke bentuk korpus entri sebelum dilakukan ekstraksi. Korpus entri adalah korpus yang mengandung informasi lengkap setiap entri di dalam kamus beserta jenis font, ukuran, dan posisi setiap kata pada entri di dalam kamus dwibahasa. Proses ekstraksi dilakukan dengan memperhatikan pola entri sehingga perlu dilakukan tahap standardisasi entri terlebih dahulu sebelum sumber daya dibentuk. Selain pembentukan sumber daya, dilakukan pula perbaikan ejaan khusus untuk sumber daya korpus paralel. Dalam mengevaluasi hasil ekstraksi, diambil beberapa kamus dwibahasa sebagai sampel. Evaluasi dilakukan dengan memperhatikan ketepatan peletakan setiap komponen entri di dalam hasil ekstraksi. Tim peneliti menemukan bahwa sistem yang dibangun telah berhasil mengekstrak sumber daya NLP berupa leksikon bilingual, kamus morfologi, dan korpus paralel dengan optimal pada 32 kamus dwibahasa Indonesia dan bahasa daerah. Masih terdapat beberapa kekurangan pada sistem yang berhasil dibangun karena proses ekstraksi sangat bergantung dengan ketepatan pendeteksian font sehingga kualitas kamus masih memberikan pengaruh yang besar pada kualitas hasil ekstraksi. ......The development of regional language NLP in Indonesia is still relatively slow. There are several factors behind this, such as poor language documentation, a small number of speakers of the language, and lack of the resources needed to study regional language NLP. This research aims to develop a general extraction method for Indonesian and regional bilingual dictionaries to produce NLP resources. The resulting system is able to process multiple bilingual dictionaries at once into NLP resources. Dictionaries are converted to machine readable form and processed to the form of a corpus of entries in advance before extraction is carried out. A corpus of entries means corpus that contains full information of each entry in the dictionary as well as font style, font size, and the position of each word of the entry in the bilingual dictionary. The extraction process is carried out by observing the entry's pattern resulting in the entry standardization phase having to be done prior before resources are produced. Besides resource production, spell checking is also carried out specifically for parallel corpus resources. In order to evaluate the extraction results, several bilingual dictionaries are taken to be samples. Evaluation process is carried out by observing the accuracy of each entry component’s placement in the extraction results. Research team found that the resulting system has succeeded in extracting NLP resources optimally in the form of bilingual lexicon, morphology, and parallel corpus on 32 Indonesian and regional bilingual dictionaries. There are still some deficiencies in the developed system since the extraction process is highly dependent on the accuracy of font detection such that the qualities of dictionaries still have a big impact on the quality of extraction results.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nabila Dita Putri
Abstrak :
Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun. ......Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kaysa Syifa Wijdan Amin
Abstrak :
Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun. ......Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gilang Catur Yudishtira
Abstrak :
Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun. ......Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library