Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 85356 dokumen yang sesuai dengan query
cover
Muhammad Faisal Adi Soesatyo
"Pendekatan transfer learning telah digunakan di beragam permasalahan, khususnya low-resource language untuk meningkatkan performa model di masing-masing permasalahan tersebut. Fokus pada penelitian ini ingin menyelidiki apakah pendekatan cross-lingual transfer learning mampu meningkatkan performa pada model constituency parsing bahasa Indonesia. Constituency parsing adalah proses penguraian kalimat berdasarkan konstituen penyusunnya. Terdapat dua jenis label yang disematkan pada konstituen penyusun tersebut, yakni POS tag dan syntactic tag. Parser model yang digunakan di penelitian ini berbasis encoder-decoder bernama Berkeley Neural Parser. Terdapat sebelas macam bahasa yang digunakan sebagai source language pada penelitian ini, di antaranya bahasa Inggris, Jerman, Prancis, Arab, Ibrani, Polandia, Swedia, Basque, Mandarin, Korea, dan Hungaria. Terdapat dua macam dataset bahasa Indonesia berformat Penn Treebank yang digunakan, yakni Kethu dan ICON. Penelitian ini merancang tiga jenis skenario uji coba, di antaranya learning from scratch (LS), zero-shot transfer learning (ZS), dan transfer learning dengan fine-tune (FT). Pada dataset Kethu terdapat peningkatan F1 score dari 82.75 (LS) menjadi 84.53 (FT) atau sebesar 2.15%. Sementara itu, pada dataset ICON terjadi penurunan F1 score dari 88.57 (LS) menjadi 84.93 (FT) atau sebesar 4.11%. Terdapat kesamaan hasil akhir di antara kedua dataset tersebut, di mana masing-masing dataset menyajikan bahwa bahasa dari famili Semitic memiliki skor yang lebih tinggi dari famili bahasa lainnya.

The transfer learning approach has been used in various problems, especially the low-resource languages, to improve the model performance in each of these problems. This research investigates whether the cross-lingual transfer learning approach manages to enhance the performance of the Indonesian constituency parsing model. Constituency parsing analyzes a sentence by breaking it down by its constituents. Two labels are attached to these constituents: POS tags and syntactic tags. The parser model used in this study is based on the encoder-decoder named the Berkeley Neural Parser. Eleven languages are used as the source languages in this research, including English, German, French, Arabic, Hebrew, Polish, Swedish, Basque, Chinese, Korean, and Hungarian. Two Indonesian PTB treebank datasets are used, i.e., the Kethu and the ICON. This study designed three types of experiment scenarios, including learning from scratch (LS), zero-shot transfer learning (ZS), and transfer learning with fine-tune (FT). There is an increase in the F1 score on the Kethu from 82.75 (LS) to 84.53 (FT) or 2.15%. Meanwhile, the ICON suffers a decrease in F1 score from 88.57 (LS) to 84.93 (FT) or 4.11%. There are similarities in the final results between the two datasets, where each dataset presents that the languages from the Semitic family have a higher score than the other language families."
Depok;;: Fakultas Ilmu Komputer Universitas Indonesia;;, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gabriel Enrique
"Part-of-speech tagging, adalah task di bidang Natural Language Processing di mana setiap kata di dalam suatu kalimat dikategorisasi ke dalam kategori parts-of-speech (kelas kata) yang sesuai. Pengembangan model POS tagger menggunakan pendekatan machine learning membutuhkan dataset dengan ukuran yang besar. Namun, dataset POS tagging tidak selalu tersedia dalam jumlah banyak, seperti dataset POS tagging untuk bahasa Jawa. Dengan jumlah data yang sedikit, model POS tagger yang dilatih kemungkinan tidak akan memiliki performa yang optimal. Salah satu solusinya adalah dengan menggunakan pendekatan cross-lingual transfer learning, di mana model dilatih menggunakan suatu source language pada suatu task agar dapat menyelesaikan task yang sama pada suatu target language. Penelitian ini bertujuan untuk menguji performa pre-trained language model (mBERT, XLM-RoBERTa, IndoBERT) dan melihat pengaruh cross-lingual transfer learning terhadap performa pre-trained language model untuk POS tagging bahasa Jawa. Percobaan yang dilakukan menggunakan lima source language, yaitu bahasa Indonesia, bahasa Inggris, bahasa Uighur, bahasa Latin, dan bahasa Hungaria, serta lima jenis model, yaitu fastText + LSTM, fastText + BiLSTM, mBERT, XLM-RoBERTa, dan IndoBERT; sehingga secara keseluruhan ada total 35 jenis model POS tagger. Model terbaik yang dilatih tanpa pendekatan cross-lingual transfer learning dibangun menggunakan IndoBERT, dengan akurasi sebesar 86.22%. Sedangkan, model terbaik yang dilatih menggunakan pendekatan cross-lingual transfer learning dalam bentuk dua kali fine-tuning, pertama menggunakan source language dan kedua menggunakan bahasa Jawa, sekaligus model terbaik secara keseluruhan dibangun menggunakan XLM-RoBERTa dan bahasa Indonesia sebagai source language, dengan akurasi sebesar 87.65%. Penelitian ini menunjukkan bahwa pendektan cross-lingual transfer learning dalam bentuk dua kali fine-tuning dapat meningkatkan performa model POS tagger bahasa Jawa, dengan peningkatan akurasi sebesar 0.21%–3.95%.

Part-of-speech tagging is a task in the Natural Language Processing field where each word in a sentence is categorized into its respective parts-of-speech categories. The development of POS tagger models using machine learning approaches requires a large dataset. However, POS tagging datasets are not always available in large quantities, such as the POS tagging dataset for Javanese. With a low amount of data, the trained POS tagger model may not have optimal performance. One of the solution to this problem is using the cross-lingual transfer learning approach, where a model is trained using a source language for a task so that it can complete the same task on a target language. This research aims to test the performance of pre-trained language models (mBERT, XLM-RoBERTa, IndoBERT) and to see the effects of cross-lingual transfer learning on the performance of pre-trained language models for Javanese POS tagging. The experiment uses five source languages, which are Indonesian, English, Uyghur, Latin, and Hungarian, as well as five models, which are fastText + LSTM, fastText + BiLSTM, mBERT, XLM-RoBERTa, and IndoBERT; hence there are 35 POS tagger models in total. The best model that was trained without cross-lingual transfer learning approach uses IndoBERT, with an accuracy of 86.22%. While the best model that was trained using a cross-lingual transfer learning approach, implemented using a two fine-tuning process, first using the source language and second using Javanese, as well as the best model overall uses XLM-RoBERTa and Indonesian as the source language, with an accuracy of 87.65%. This research shows that the cross-lingual transfer learning approach, implemented using the two fine-tuning process, can increase the performance of Javanese POS tagger models, with a 0.21%–3.95% increase in accuracy.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nina Sevani
"Transfer learning merupakan pengembangan dari pembelajaran mesin biasa (tradisional) yang dapat diterapkan pada cross-domain. Cross-domain adalah domain yang memiliki perbedaan pada feature space atau pada marginal dan conditional distribution, sehingga sulit ditangani dengan metode pembelajaran mesin biasa. Perbedaan ini banyak terjadi pada kasus computer vision atau pattern recognition seperti untuk mengenali korban bencana alam melalui foto yang diambil dari atas menggunakan drone atau helikopter. Terjadinya perbedaan feature space dan distribusi data ini karena adanya perbedaan sudut, cahaya, dan alat yang berbeda. Kondisi seperti ini semakin menyulitkan untuk dilakukannya klasifikasi gambar terlebih pada domain dengan keterbatasan label. Implementasi transfer learning terbukti dapat memberikan performance yang baik pada banyak kasus, termasuk kasus yang menggunakan dataset gambar.
Dalam transfer learning penting untuk menghindari terjadinya negative transfer learning, sehingga perlu dilakukan pengukuran kesamaan (similarity) antar domain. Penelitian ini menerapkan feature-representation-transfer dan menggunakan Maximum Mean Discrepancy (MMD) untuk mengukur jarak antar feature pada domain yang terlibat di transfer learning. Setelah mengukur kesamaan antar domain, maka akan dilakukan pemilihan feature berdasarkan jarak antar feature. Feature terpilih adalah feature yang mempunyai jarak kurang dari threshold yang ditentukan. Bobot akan diberikan kepada feature terpilih. Selain melakukan pemilihan feature berdasarkan kesamaan domain, metode ini juga melakukan pemilihan feature yang signifikan antar class label dan dalam class label dengan menggunakan ANOVA (Analysis of Variance). Hanya feature yang signifikan yang akan digunakan untuk proses prediksi.
Metode yang diusulkan juga menerapkan inter-cluster class label untuk memperkecil perbedaan conditional distribution. Prinsip kerja inter-cluster class label ini adalah menghitung jarak minimal dari instance pada domain target ke setiap center of cluster class label. Rumus jarak yang digunakan adalah Euclidean Distance. Properti statistik seperti rata-rata dan varians akan digunakan pada metode ini, untuk menggambarkan struktur data lokal dalam setiap domain. Penggunaan rata-rata digunakan untuk menentukan threshold dan pusat cluster class label, sedangkan varians digunakan untuk pemilihan feature yang signifikan. Proses prediksi label dilakukan berdasarkan feature terpilih yang telah diberi bobot dan jarak terpendek setiap instance ke salah satu class label.
Tidak terdapat parameter tambahan dalam fungsi pembelajaran yang diusulkan. Selain itu, proses penentuan label juga dilakukan tanpa iterasi, sehingga memungkinkan metode ini dapat dijalankan dengan keterbatasan resource. Hasil eksperimen menunjukkan bahwa metode yang diusulkan dapat memberikan performance sebesar 46,6%, pada saat menggunakan SVM sebagai classifier dan 51.7% pada saat menggunakan logistic regression. Akurasi yang didapat dengan SVM ini mengimbangi metode feature-representation-transfer sebelumnya. Namun akurasi dari logistic regression sudah dapat mengungguli metode sebelumnya. Hasil ini menunjukkan bahwa penggunaan metode feature selection menggunakan properti statistik yang dikombinasikan dengan pemberian bobot pada feature terpilih dan jarak minimal dapat memberikan hasil akurasi yang baik tanpa memerlukan resource yang besar.

Transfer learning is the extension of traditional machine learning in a cross-domain environment. Cross-domains are domains with different feature spaces or different marginal and conditional distributions. Many real-world cases of computer vision and pattern recognition, such as the surveillance of some victims of natural disasters from above using a drone or helicopter, have these differences. These conditons are difficult to handle with traditional machine learning methods. The differences in feature space or data distribution caused by the existence of different angles, different light, and different tools. All of these situation add difficulty to the classification process, especially in domains with limited labels. The implementation of transfer learning is proven to provide good performance in many cases of cross-domain learning, including cases that use image datasets.
In transfer learning, it is important to measure the similarity between domains to avoid negative transfer learning. This study applies feature-representation-transfer and uses Maximum Mean Discrepancy (MMD) to measure the distance between features in the cross-domains and reduce the domain discrepancy. After measuring the similarity between domains, a feature selection will be made based on the distance between the features. Selected features are features that have a distance less than the specified threshold. Weight will be given to the selected features. In addition to selecting features based on domain similarity, this method also selects significant features between class labels and within class labels using ANOVA (Analysis of Variance). Only significant features will be used for the prediction process.
The proposed method also applies an inter-cluster class label to minimize the difference in conditional distribution. The inter-cluster class label works by calculating the minimum distance from the instance in the target domain to each center of the cluster class label. The distance formula used is Euclidean distance. Statistical properties such as mean and variance will be used in this method to describe the local data structure in each domain. The average is used to determine the threshold and center of the cluster class label, while the variance is used to select significant features. The label prediction process is carried out based on the selected features that have been weighted and the shortest distance for each instance to one of the label classes.
There are no additional parameters in the proposed learning function. In addition, the process of determining the label is also carried out without iteration, thus allowing this method to be run with limited resources. The experimental results show that the proposed method can provide a performance of 46.6% when using SVM as a classifier and 51.7% when using logistic regression. The accuracy obtained from SVM offsets the previous feature-representation transfer learning. However, the accuracy of logistic regression has been able to outperform the previous method. These results indicate that the use of the feature selection method using statistical properties combined with assigning weights to selected features and a minimum distance can provide good accuracy without requiring large resources.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Fadli Aulawi Al Ghiffari
"Penelitian ini bertujuan untuk membangun model dependency parser untuk bahasa Jawa menggunakan pendekatan cross-lingual transfer learning. Metode transfer learning dipilih untuk mengatasi kurangnya dataset yang tersedia untuk proses training model pada bahasa Jawa yang merupakan low-resource language. Model dibangun menggunakan arsitektur encoder-decoder, tepatnya menggunakan gabungan dari self-attention encoder dan deep biaffine decoder. Terdapat tiga skenario yang diuji yaitu model tanpa transfer learning, model dengan transfer learning, dan model dengan hierarchical transfer learning. Metode transfer learning menggunakan bahasa Indonesia, bahasa Korea, bahasa Kroasia, dan bahasa Inggris sebagai source language. Sementara metode hierarchical transfer learning menggunakan bahasa Prancis, bahasa Italia, dan bahasa Inggris sebagai source language tahap satu, serta bahasa Indonesia sebagai source language tahap dua (intermediary language). Penelitian ini juga mengujikan empat word embedding yaitu fastText, BERT Jawa, RoBERTa Jawa, dan multilingual BERT. Hasilnya metode transfer learning secara efektif mampu menaikkan performa model sebesar 10%, di mana model tanpa transfer learning yang memiliki performa awal unlabeled attachment score (UAS) sebesar 75.87% dan labeled attachment score (LAS) sebesar 69.04% mampu ditingkatkan performanya hingga mencapai 85.84% pada UAS dan 79.22% pada LAS. Skenario hierarchical transfer learning mendapatkan hasil yang lebih baik daripada transfer learning biasa, namun perbedaannya tidak cukup signifikan.

This research aims to develop a Javanese dependency parser model using a cross-lingual transfer learning approach. The transfer learning method was chosen to overcome the lack of available datasets for the model training process in Javanese, a low-resource language. The model uses an encoder-decoder architecture, precisely combining a self-attention encoder and a deep biaffine decoder. Three scenarios are experimented with: a model without transfer learning, a model with transfer learning, and a model with hierarchical transfer learning. The transfer learning process uses Indonesian, Korean, Croatian, and English as source languages. In contrast, the hierarchical transfer learning process uses French, Italian, and English as the first-stage source languages and Indonesian as the second-stage source language (intermediary language). This research also experimented with four word embedding types: fastText, Javanese BERT, Javanese RoBERTa, and multilingual BERT. The results show that the transfer learning method effectively improves the model’s performance by 10%, where the model without transfer learning has an initial unlabeled attachment score (UAS) performance of 75.87% and labeled attachment score (LAS) of 69.04% can be increased to 85.84% in UAS and 79.22% in LAS. Hierarchical transfer learning has a slightly better result than standard transfer learning, but the difference is insignificant."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rocky Arkan Adnan Ahmad
"Model natural language processing (NLP) ditantang tidak hanya memiliki kemampuan “mengingat” secara statistik, tapi juga dapat melakukan semantic reasoning mendekati kemampuan manusia dalam memahami bahasa. Tugas ini disebut juga sebagai tugas yang menguji penalaran (commonsense reasoning) untuk suatu model. Tugas commonsense reasoning pada bahasa Indonesia sudah ada, tetapi performa mesin pada tugas tersebut masih terbilang rendah. Penelitian ini mencoba meningkatkan performa mesin dalam tugas commonsense reasoning bahasa Indonesia. Digunakan tiga buah metode, yaitu intermediate-task transfer learning, cross-lingual transfer learning, dan task recasting. Ditemukan kalau intermediate-task transfer learning efektif dilakukan untuk data commonsense reasoning bahasa Indonesia, dengan peningkatan performa di berbagai tugas. Metode cross-lingual transfer learning juga ditemukan sangat efektif dilakukan. Didapatkan performa yang melebihi baseline pada tugas IndoGrad hanya dengan melatih model dalam data bahasa Inggris dan melakukan klasifikasi secara zero-shot pada data bahasa Indonesia. Lalu didapatkan juga performa state-of-the-art (SOTA) baru dalam IndoGrad yaitu 0.803, naik 0.116 dari performa tertinggi penelitian sebelumnya. Performa tersebut dicapai menggunakan model yang dilakukan fine-tuning pada data bahasa Indonesia setelah dilatih dengan data bahasa Inggris. Pada metode task recasting, performa model masih rendah dan didapatkan performa chance pada data uji. Dilakukan juga penjelasan terhadap model dalam menjawab tugas commonsense reasoning bahasa Indonesia. Penjelasan dilakukan dengan visualisasi attention dan probing task. Ditemukan model mendapatkan kenaikan performa dalam probing task ketika performa pada tugas commonsense reasoning juga naik. Ditemukan juga model dapat menjawab dengan benar dengan memberikan attention yang lebih besar ke pada jawaban yang benar dan mengurangi attention pada jawaban yang salah.

A natural language processing (NLP) model is challenged to not only ’remember’ statistically, but can also perform semantic reasoning close to human ability on language understanding. This task is also known as a commonsense reasoning task. Commonsense reasoning tasks in Indonesian already exist, but the machine performance is still relatively low. This research aims to improve the machine performance on commonsense reasoning tasks in Indonesian. Three methods are used: intermediate-task transfer learning, cross-lingual transfer learning, and task recasting. It was found that intermediate-task transfer learning was effective for commonsense reasoning tasks in Indonesian, with improved performance on various tasks. Cross-lingual transfer learning was also found to be very effective. A model that only trained on English data and performs zero-shot classification was found to have performance that exceeds baseline on the IndoGrad task. A new state-of-the-art (SOTA) performance was also achieved on the IndoGrad task, which is 0.803, up 0.116 from the highest performance in the previous study. This result is achieved using a model that was fine-tuned on Indonesian data after being trained on English data. On the task recasting method, the model performance is still low and chance performance is achieved on the test set. Model explanation on answering a commonsense reasoning task in Indonesian is also conducted. Probing task and attention visualization are used for model explanation. It was found that the model that got increased performance on probing task also got increased performance on commonsense reasoning task. It was also found that the model can answer correctly by giving more attention to the correct answer and reducing attention to the incorrect answer."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Andhika Yusup Maulana
"

Tujuan dari penelitian ini adalah membangun dependency parser untuk Bahasa Indonesia menggunakan pendekatan cross-lingual transfer learning. Sebagai source language dipilih empat bahasa, yaitu Bahasa Perancis, Bahasa Italia, Bahasa Slovenia, dan Bahasa Inggris. Dependency parser dibangun menggunakan transformer (self-attention encoder) sebagai encoder layer dan deep biaffine decoder sebagai decoder layer. Pendekatan transfer learning dengan fine-tuning mampu meningkatkan performa model dependency parser untuk Bahasa Indonesia dengan margin yang paling tinggi yaitu 4.31% untuk UAS dan 4.46% untuk LAS dibandingkan dengan pendekatan training from scratch.


The objective of this research is to build a dependency parser for Indonesian using cross-lingual transfer learning. As the source language, chosen four languages: French, Italian, Slovenian, and English. The dependency parser is built using a transformer (self-attention encoder) as the encoder layer and a deep biaffine decoder as the decoder layer. The transfer learning approach with fine-tuning can improve the performance of the dependency parser model for Indonesian with the highest margin of 4.31% for UAS and 4.46% for LAS compared to the training from scratch approach.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Heninggar Septiantri
"Ambiguitas adalah masalah yang seringkali ditemui dalam pemrosesan bahasa alami oleh komputer. Word Sense Disambiguation (WSD) adalah upaya untuk menentukan makna yang tepat dari sebuah kata yang ambigu. Berbagai penelitian tentang WSD telah banyak dikerjakan, namun penelitian WSD untuk bahasa Indonesia belum banyak dilakukan. Ketersediaan korpus paralel berbahasa Inggris-Indonesia dan sumber pengetahuan bahasa berupa WordNet bahasa Inggris dan bahasa Indonesia dapat dimanfaatkan untuk menyediakan data pelatihan untuk WSD dengan metode Cross-Lingual WSD (CLWSD). Data pelatihan ini kemudian dijadikan input untuk klasifikasi dengan algoritma Naive Bayes, sehingga model klasifikasinya dapat digunakan untuk melakukan monolingual WSD untuk bahasa Indonesia.
Evaluasi klasifikasi menunjukkan rata-rata akurasi hasil klasifikasi lebih tinggi dari baseline. Penelitian ini juga menggunakan stemming dan stopwords removal untuk mengetahui bagaimana efeknya terhadap klasifikasi. Penggunaan stemming menaikkan rata-rata akurasi, sedangkan penerapan stopwords removal menurunkan rata-rata akurasi. Namun pada kata yang memiliki dua makna dalam konteks yang cukup jelas berbeda, stemming dan stopwords removal dapat menaikkan rata-rata akurasi.

Ambiguity is a problem we frequently face in natural languange processing. Word Sense Disambiguation (WSD) is an attempt to decide the correct sense of an ambiguous word. Various research in WSD have been conducted, but research in WSD for Indonesian Language is still rare to find. The availability of parallel corpora in English and Indonesian language and WordNet for both language can be used to provide training data for WSD with Cross-Lingual WSD (CLWSD) method. This training data can be used as input to the classification process using Naive Bayes classifier.
The model resulted by the classification process is then used to do monolingual WSD for Indonesian language. The whole process in this research results in higher accuracy compared to baseline. This research also includes the use of stemming and stopwords removal. The effect of stemming is increasing the average accuracy, whereas stopwords removal is decreasing average accuracy. Nevertheless, for ambiguous words that have distinct context of usage, the use of stemming and stopwords removal can increase average accuracy."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Achmad Fatchuttamam Abka
"Peringkasan lintas bahasa adalah sebuah proses menghasilkan ringkasan dalam bahasa target dari dokumen sumber berbahasa lain. Secara tradisional, peringkasan lintas bahasa dilakukan dalam skema pipeline yang melibatkan dua langkah, yaitu penerjemahan dan peringkasan. Pendekatan ini memiliki masalah, yaitu munculnya error propagation. Untuk mengatasi masalah tersebut, penelitian ini mengusulkan peringkasan lintas bahasa abstraktif end-to-end tanpa secara eksplisit menggunakan mesin penerjemah. Arsitektur peringkasan lintas bahasa yang diusulkan berbasis Transformer yang sudah terbukti memiliki performa baik dalam melakukan text generation. Model peringkasan lintas bahasa dilatih dengan 2-task learning yang merupakan gabungan peringkasan lintas bahasa dan peringkasan satu bahasa. Hal ini dilakukan dengan menambahkan decoder kedua pada Transformer untuk menangani peringkasan satu bahasa, sementara decoder pertama menangani peringkasan lintas bahasa. Pada arsitektur peringkasan lintas bahasa juga ditambahkan komponen multilingual word embeddings. Multilingual word embeddings memetakan kedua bahasa yang berbeda ke dalam ruang vektor yang sama sehingga membantu model dalam memetakan relasi antara input dan output. Hasil eksperimen menunjukkan model usulan mendapatkan kenaikan performa hingga +32,11 ROUGE-1, +24,59 ROUGE-2, +30,97 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Inggris ke ringkasan berbahasa Indonesia dan hingga +30,48 ROUGE-1, +27,32 ROUGE-2, +32,99 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Indonesia ke ringkasan berbahasa Inggris.

Cross-lingual summarization (CLS) is a process of generating summaries in the target language from source documents in other languages. Traditionally, cross-lingual summarization is done in a pipeline scheme that involves two steps, namely translation and summarization. This approach has a problem, it introduces error propagation. To overcome this problem, this study proposes end-to-end abstractive cross-lingual summarization without explicitly using machine translation. The proposed cross-lingual summarization architecture is based on Transformer which has been proven to have good performance in text generation. The cross-lingual summarization model is trained with 2-task learning, which is a combination of cross-lingual summarization and monolingual summarization. This is accomplished by adding a second decoder to handle monolingual summarization, while the first decoder handles cross-lingual summarization. The multilingual word embeddings component is also added to the cross-lingual summarization architecture. Multilingual word embeddings map both different languages into the same vector space so that it helps the model in mapping the relationship between input and output. The experimental results show that the proposed model achieves performance improvements of up to +32.11 ROUGE-1, +24.59 ROUGE-2, +30.97 ROUGE-L for cross-lingual summarization from English source documents to Indonesian summaries and up to +30,48 ROUGE-1, +27.32 ROUGE-2, +32.99 ROUGE-L for cross-lingual summarization from Indonesian source documents to English summaries."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Chris Solontio
"Analisis sentimen merupakan permasalahan klasifikasi data mining dengan proses memahami, mengekstrak dan mengolah data teks secara otomatis untuk mendapatkan informasi. Dalam menganalisis pendapat di media sosial digunakan machine learning untuk mendapatkan hasil klasifikasi. Banyak metode machine learning untuk melakukan klasifikasi, dalam penelitian ini akan digunakan convolutional neural network. Dalam machine learning, data dibagi menjadi data training dan data test dengan domain data yang sama.
Permasalahan utama skripsi ini adalah data yang digunakan memiliki dua domain berbeda, sehingga metode machine learning tradisional tidak dapat diterapkan. Sehingga agar dapat menerapkan convolutional neural network untuk dua data berbeda diperkenalkan suatu cara yaitu transfer learning. Transfer learning merupakan suatu proses pembelajaran model yang didapatkan dari training data A oleh data B dengan domain berbeda. Simulasi dalam penelitian ini menghasilkan suatu akurasi transfer learning dengan metode convolutional neural network.

Sentiment analysis is classification problem in data mining with process of understanding, extracting and processing text data to obtain information. Machine learning is needed in analyzing sentiment of the people to get the result of classification. There are many methods in machine learning to do classification, this research will use convolutional neural network. In machine learning, data is divided into train and test data with the same domain.
The main problem of this research is the data has a different domain, so the traditional machine learning method can not be applied. In order to apply convolutional neural network into data with different domain, it will be introduced transfer learning method. Transfer learning is learning model process obtained from training data A then tested by data B. In this research, the simulations result is accuracy of transfer learning with convolutional neural network.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mehler, Alexander, editor
"The book focuses on theoretical foundations of representing natural language texts as well as on concrete operations of automatic text processing. The present volume includes contributions to a wide range of topics in the context of processing of textual data. This relates to the learning of ontologies from natural language texts, the annotation and automatic parsing of texts as well as the detection and tracking of topics in texts and hypertexts. "
Berlin: Springer, 2011
e20418145
eBooks  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>