Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 13 dokumen yang sesuai dengan query
cover
Koehn, Philipp
Cambridge, UK: Cambridge university press, 2010
418.020 285 KOE s
Buku Teks  Universitas Indonesia Library
cover
Metti Zakaria Wanagiri
Abstrak :
Mesin Penerjemah (MP) adalah sebuah sub-bagian dari computational linguistics yang menggunakan komputer untuk menerjemahkan teks dari sebuah bahasa ke bahasa yang lain. Sementara Mesin Penerjemah Statistik (MPS) adalah sebuah pendekatan MP dimana hasil terjemahan dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus teks dwibahasa (yang paralel). Pada tugas akhir ini, penerjemahan teks Indonesia-Inggris dilakukan dengan menggunakan MPS berdasarkan frase dimana penerjemahan dilakukan dengan menggunakan prinsip penerjemahan berdasarkan frase. Korpus dwibahasa Indonesia-Inggris yang digunakan terdiri dari kategori berita, kitab suci, novel dan percakapan. Jumlah korpus pelatihan yang digunakan adalah 40779 kalimat, yaitu 704 berita, 4025 percakapan, 16050 novel dan 20000 kitab suci. Sementara korpus pengujian yang digunakan adalah 20300 kalimat, yaitu 300 berita, 2000 percakapan, 8000 novel dan 10000 kitab suci. Percobaan penerjemahan ini dilakukan, dievaluasi dan dianalisis dari dua aspek yaitu penggunaan perangkat bahasa tambahan (yang meliputi Part-of-Speech Tagging dan lema) dan n-gram yang digunakan dalam membentuk model bahasa. Hasil percobaan yang didapat adalah nilai akurasi tertinggi dicapai oleh penerjemahan korpus dwibahasa biasa (tidak menggunakan Part-of-Speech Tagging maupun lema) pada kategori novel dengan menggunakan model bahasa 5-gram, yaitu 0,2696.
Machine Translation (MT) is a sub-field of computational linguistics that uses a computer to translate text or speech from one natural language to another. Meanwhile Statistical Machine Translation (SMT) is a paradigm of MT where translations are generated on the basis of statistical models whose parameters are derived from the analysis of bilingual text corpora (parallel). The Indonesian-English text translation is done using a phrase-based SMT in which the translation is carried out using phrase-based Translation. We use Indonesian and English bilingual corpora which consists of news, holy writings, fiction and daily conversation categories. We use training corpus of 40779 sentences which are 704 for news, 4025 for conversation, 16050 for fiction and 20000 for holy writings. Meanwhile the testing corpus consists of 20300 sentences which are 300 for news, 2000 for conversation, 8000 for fiction and 10000 for holy writings. Experiments have been done, evaluated and analyzed regarding two aspects, namely the use of factored-models (Part-of-Speech Tagging and lemma) and number of n-gram for generating the language model. In this thesis, we found that the translations of default bilingual corpora (without Part-of-Speech Tagging and lemma) for fiction category using 5-gram language model yield the highest accuracy of 0.2696.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Tatag Aziz Prawiro
Abstrak :
Normalisasi teks merupakan task pada NLP yang dapat digunakan untuk meningkatkan performa dari aplikasi-aplikasi NLP lain. Penelitian tentang normalisasi teks pada bahasa Indonesia masih jarang dan kebanyakan masih hanya menormalisasi pada tingkat token. Penelitian ini bertujuan untuk mengevaluasi pembangunan model normalisasi dengan menggunakan algoritma statistical machine translation (SMT). Isu dari pendekatan machine translation dalam penyelesaian task normalisasi teks adalah butuhnya data yang relative banyak. Penelitian ini juga melihat bagaimana pengaruh dari pemelajaran semi-supervised dengan cara menggunakan pseudo-data dalam pembangunan model normalisasi teks dengan algoritma statistical machine translation. Model SMT memiliki performa yang cukup baik pada data tanpa tanda baca, namun memiliki performa yang buruk pada data bertanda baca karena banyaknya noise. Pendekatan semi-supervised menurunkan performa SMT secara keseluruhan, namun, pada jenis data tidak bertanda baca penurunan relatif tidak signifikan. ......Text normalization is a task in NLP which can be used to improve the performance of other NLP applications. Research on text normalization in Indonesian language is still rare and most only normalize at the token level. This study attempts to improve the development of the normalization model by using the statistical machine translation (SMT) algorithm. The issue in building a good performing text normalization model using the machine translation approach is the relatively large data needs. This research also looks at how using semi-supervised learning by using pseudo-data as training data in SMT approach affects text normalization performance. The SMT model has a fairly good performance on data without punctuation, but has poor performance on data with a punctuation due to the amount of noise. The semi-supervised approach reduces the overall performance of the SMT model, but the reduction in performance is relatively insignificant on data without punctuation.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Bernadia Puspasari
Abstrak :
Mesin Penerjemah digunakan untuk menerjemahkan teks dari suatu bahasa ke bahasa lain secara otomatis. Mesin Penerjemah Statistik adalah Mesin Penerjemah yang menggunakan pendekatan statistik dalam proses menerjemahkan teks. Penelitian dilakukan dengan menggunakan Mesin Penerjemah Statistik berdasarkan frase yang memanfaatkan korpus dwibahasa paralel sebagai data pelatihannya. Korpus dwibahasa Indonesia - Jepang yang digunakan berupa koleksi dokumen Kitab Suci, artikel berita, dan percakapan sehari-hari dengan jumlah keseluruhan kalimat sebanyak 24.365 kalimat. Koleksi dokumen dalam bahasa Jepang tersedia dalam dua macam bentuk tulisan, yaitu Kanji atau Romaji. Penelitian dilakukan pada korpus dwibahasa tanpa faktor tambahan dan korpus yang menggunakan perangkat bahasa tambahan, yaitu lema. Dari hasil penelitian, didapati bahwa kinerja penerjemahan teks Indonesia - Jepang menggunakan Mesin Penerjemah Statistik berdasarkan frase pada penelitian ini, nilai akurasi tertinggi berdasarkan BLEU score mencapai 0,2027. Nilai akurasi tertinggi tersebut didapatkan pada jenis dokumen artikel berita tanpa faktor tambahan dengan model bahasa 5-gram. Sedangkan penambahan perangkat bahasa lema pada korpus pelatihan menurunkan kinerja dari Mesin Penerjemah Statistik berdasarkan frase.
Machine Translation translates text from one language to another automatically. Statistical Machine Translation uses statistical approach to translate text. This research uses phrase-based Statistical Machine Translation system. We use Indonesian ? Japanese bilingual corpora as the training data which consist of holy writings, news article, and daily conversation with total of 24.365 sentences. Japanese document collections are written in Kanji and Romaji. This research uses unfactored training corpora and factored training corpora (lemma). The highest accuracy based on evaluation of the translation result is 0.2027 in BLEU score which is the score of news article document written in Romaji using 5-gram language model. Factored training corpora (lemma) decreases the performance of the machine translation system.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Evan Aurelrius
Abstrak :
Di era kemajuan teknologi yang pesat, pembelajaran daring semakin populer terutama setelah COVID-19. Namun, tunarungu sering menghadapi kesenjangan dalam memahami video pembelajaran. Salah satu solusi yang dapat membantu adalah dengan menyediakan subtitle dalam bahasa isyarat, khususnya Sistem Isyarat Bahasa Indonesia (SIBI). Untuk mengembangkan subtitle ini, diperlukan teks input dari video pembelajaran. Namun, teks input seringkali terlalu panjang dan mengandung banyak kata yang tidak ada dalam kamus bahasa isyarat SIBI. Metode yang ada sekarang pun menghasilkan animasi SIBI secara kata demi kata, yang mengakibatkan animasi bergerak cepat dan sulit diikuti oleh pengguna tunarungu. Penelitian ini membahas integrasi translasi teks dalam pengembangan subtitle animasi isyarat SIBI untuk aplikasi Moodle, menggunakan machine learning. Penelitian ini bertujuan untuk mengembangkan solusi yang lebih efektif dengan menerapkan terjemahan teks. Penelitian ini mengusulkan penggunaan dua model pretrained, yaitu mBART50 dan NLLB200 sebagai baseline model dan model yang akan di-finetuning. Eksperimen ini menggunakan dataset yang dikumpulkan dari 12 video pembelajaran. Kemudian data ini diproses, dianotasi oleh guru Sekolah Luar Biasa (SLB), dan digunakan untuk training, validation, serta testing dan dataset ini dinamakan SIBIVID-MP12. Eksperimen dilakukan dengan membandingkan model baseline dengan model yang sudah di-finetuning. Finetuning dilakukan dengan dan tanpa custom loss function yang merupakan inovasi pada penelitian ini. Custom loss function menambahkan SIBIDictLoss pada total loss model, sehingga akan memaksa model untuk hanya menggunakan kata yang ada pada kamus SIBI. Hasil eksperimen menunjukkan bahwa dengan adanya finetuning, model mBART50 dan NLLB200 mengalami peningkatan performa dibandingkan model baseline-nya tanpa finetuning dalam melakukan terjemahan teks Bahasa Indonesia ke dalam SIBI. Model NLLB200 FT+CL dengan varian batch size 4, penggunaan weighting varian kedua, ukuran weight 0,2, dan besaran penalti 0,1 menjadi varian dengan nilai evaluasi tertinggi dengan peningkatan nilai sacreBLEU sebesar 71%, nilai chrF++ sebesar 9,79%, nilai METEOR 22,92%, dan nilai ROUGE-L 14,55% dibandingkan dengan model baseline. Ini menunjukkan bahwa mengintegrasikan model terjemahan teks dapat meningkatkan inklusivitas dan aksesibilitas platform pembelajaran daring bagi komunitas tunarungu di Indonesia. ......In the era of rapid technological advancement, online learning has become increasingly popular, particularly following the COVID-19 pandemic. However, the deaf community often faces challenges in comprehending educational videos. One potential solution is to provide subtitles in sign language, specifically the Indonesian Sign Language System (SIBI). Developing these subtitles requires text input from educational videos. However, the input text is often too lengthy and contains many words that do not exist in the SIBI dictionary. Current methods generate SIBI animations word by word, resulting in fastmoving animations that are difficult for deaf users to follow. This research discusses the integration of text translation in the development of SIBI animated subtitles for the Moodle application, using machine learning. The study aims to develop a more effective solution by implementing text translation. The research proposes the use of two pretrained models, mBART50 and NLLB200, as baseline models and models for fine-tuning. The experiment utilizes a dataset collected from 12 educational videos. This data is processed, annotated by Special Education (SLB) teachers, and used for training, validation, and testing, and is named SIBIVID-MP12. Experiments were conducted by comparing the baseline models with the fine-tuned models. Fine-tuning was performed with and without a custom loss function, which is an innovation in this study. The custom loss function adds SIBIDictLoss to the total model loss, thereby compelling the model to use only words present in the SIBI dictionary. The experimental results show that with fine-tuning, both mBART50 and NLLB200 models demonstrated improved performance compared to their baseline models in translating Indonesian text into SIBI. The NLLB200 FT+CL model, with a batch size variant of 4, the second weighting variant, a weight size of 0.2, and a penalty size of 0.1, achieved the highest evaluation scores, with an increase in sacreBLEU score by 71%, chrF++ score by 9.79%, METEOR score by 22.92%, and ROUGE-L score by 14.55% compared to the baseline model. This indicates that integrating text translation models can enhance the inclusivity and accessibility of online learning platforms for the deaf community in Indonesia.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sri Hartati Wijono
Abstrak :
Terjemahan mesin adalah program komputer yang menerjemahkan kata dari satu bahasa ke bahasa lain. Neural Machine Translation (NMT) merupakan salah satu jenis terjemahan mesin yang menggunakan hasil pelatihan corpus paralel untuk menerjemahkan kata. Proses NMT dengan pelatihan menggunakan corpus paralel dalam jumlah besar (high resource) dapat memberikan hasil terjemahan sangat baik. Tetapi proses NMT yang dilatih menggunakan corpus paralel dalam jumlah kecil (low-resource) tidak mampu memberikan penerjemahan kata dengan baik akibat adanya out-of-vocabulary (OOV). Salah satu cara mengurangi OOV pada low-resourse NMT adalah melatih NMT menggunakan subword dari hasil segmentasi kata. Canonical segmentation dipilih untuk mengsegmentasi kata bahasa Jawa dan bahasa Indonesia menjadi subword afiks dan subword root word yang mengalami alomorf. Hal ini dikarenakan kedua hasil subword tersebut memiliki makna linguistik yang dapat digunakan untuk mengurangi OOV. Proses canonical segmentation tersebut dilakukan menggunakan encoder-decoder Transformer dengan memanipulasi masukannya sebagai usulan dari penelitian. Penelitian ini juga mengembangkan algoritma untuk membuat dataset canonical segmentation bahasa Jawa yang digunakan untuk melatih Transformer. Manipulasi masukan Transformer tersebut berupa penggunaan tag fitur afiks dan root word atau tag fitur afiks dan urutan root word yang digabungkan ke setiap karakter masukan untuk membantu proses pembelajaran Transformer. Manipulasi usulan ini menghasilkan akurasi segmentasi sebesar 84,29% untuk semua kata, 69,82% untuk kata berimbuhan dan 56,09% untuk kata berimbuhan canonical. Nilai F1 yang dihasilkan 92,89% untuk semua kata, 98,69% untuk kata berimbuhan dan 96,81% untuk kata berimbuhan canonical. Subword hasil proses segmentasi ini selanjutnya digabung dengan tag fitur berupa afiks dan root word untuk menguji low-resource NMT. Metode ini dapat eningkatkan nilai BLEU sebesar +3,55 poin dibandingkan penggunaan kata tanpa segmentasi dan meningkat +2,57 poin dibandingkan penggunaan subword BPE yang banyak dipakai saat ini. ......Machine translation is a machine that translates words from one language to another. Neural Machine Translation (NMT) is a type of machine translation that uses the results of parallel corpus training to translate words. The NMT process with training using a large number of the parallel corpus (high resource) can give excellent translation results. But the NMT process, which was trained using a parallel corpus in small numbers (low resources), could not provide good word translation due to out-of-vocabulary (OOV). One way to reduce OOV in low-resource NMT is to train NMT using subwords from word segmentation results. Canonical segmentation was chosen to segment Javanese and Indonesian words into affix and root word subwords that experience allomorphism. This segmentation method was chosen because the two subword results have linguistic meanings that can be used to reduce OOV. The canonical segmentation process is conducted using Transformer encoder-decoder by manipulating the input as a research proposal. This research also develops an algorithm to create a corpus parallel canonical segmentation in the Java language used to train Transformers. Manipulating the Transformer input uses affix and root word feature tags or affix and root word sequences concatenated with each input character to help the Transformer learning process. This proposed manipulation produces a segmentation accuracy of 84.29% for all words, 69.82% for affixed words and 56.09% for canonical affixed words. The resulting F1 value is 92.89% for all words, 98.69% for affixed words and 96.81% for canonical affixed words. The subwords resulting from the segmentation process are then combined with feature tags in the form of affixes and root words to test low-resource NMT. This method can increase the BLEU value by +3.55 points compared to using words without segmentation and +2.57 points compared to using BPE subwords which are widely used today.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Hansel Tanuwijaya
Abstrak :
Mesin penerjemah merupakan alat penerjemah otomatis pada sebuah teks dari satu bahasa ke bahasa lainnya. Tujuan dari mesin penerjemah adalah dapat membuat orang ? orang yang berasal dari berbagai budaya, yang memiliki bahasa yang berbeda, dapat berkomunikasi satu sama lain dengan mudah. Mesin penerjemah statistik adalah sebuah pendekatan mesin penerjemah dimana hasil terjemahan dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus teks bilingual (atau paralel). Penelitian di bidang mesin penerjemah statistik untuk Bahasa Inggris ? Bahasa Indonesia belum terlalu mendapat perhatian. Kualitas hasil terjemahan Bahasa Inggris ? Bahasa Indonesia tersebut masih jauh dari sempurna dan memiliki nilai akurasi yang rendah. Diawali dari permasalahan ini, munculah sebuah ide untuk membuat aturan-aturan restrukturisasi teks pada Bahasa Inggris sesuai dengan struktur Bahasa Indonesia dengan tujuan untuk meningkatkan kualitas dan nilai akurasi hasil terjemahan mesin penerjemah statistik. Aturan restrukturisasi teks tersebut bisa berupa word reordering, phrase reordering, ataupun keduanya. Dalam penelitian ini penulis merancang 7 buah aturan word reordering, 7 buah aturan phrase reordering dan 2 buah aturan gabungan phrase reordering dan word reordering. Penelitian dilakukan dengan menggunakan Stanford POS Tagger, Stanford Parser, dan MOSES. Stanford POS Tagger digunakan dalam tahap word reordering, Stanford Parser dalam tahap phrase reordering, dan MOSES dalam tahap penerjemahan. Hasil eksperimen menunjukkan peningkatan akurasi dan kualitas penerjemahan yang efektif diperoleh dengan word reordering. Word reordering dapat memberikan peningkatan nilai BLEU sebesar 1.3896% (dari 0.1871 menjadi 0.1897) dan nilai NIST sebesar 0.6218% (dari 5.3876 menjadi 5.4211). Pada korpus bible, rata ? rata nilai peningkatan nilai BLEU yang diperoleh dengan restrukturisasi teks adalah 0.5871% dan untuk nilai NIST terjadi penurunan sebesar 0.0144%. Pada korpus novel, rata ? rata nilai peningkatan nilai BLEU yang diperoleh dengan restrukturisasi teks adalah 0.8751% dan untuk nilai NIST terjadi peningkatan sebesar 0.3170%. Besarnya peningkatan dan penurunan yang terjadi pada penelitian ini cenderung kecil (masih di bawah 1%). Hal ini dikarenakan aturan penerjemahan Bahasa Inggris-Indonesia menggunakan aturan MD-DM yang melibatkan penukaran kata yang jaraknya dekat sudah tercakup dalam distortion model pada mesin penerjemah statistik berdasarkan frase.
Machine translation is an automatic translation tool for a text from one language to another language. The goal of machine translation is to allow people with different cultures and languages to communicate with each other easily. Statistical machine translation is an approach to machine translation in which the results produced on the basis of statistical model that its parameters taken from the bilingual corpus (or parallel) text analysis. The research on statistical machine translation from English to Indonesian has not been received much attention. The English - Indonesian translation quality is still far from perfect and has low accuracy. Based on this issue, come out an idea to make some text restructuring rules on English according to Indonesian languange structure, with the purpose of improvement the quality and accuracy of the statistical machine translation. Text restructuring rules can be word reordering or phrase reordering or both. In this research, the authors design 7 word reordering rules, 7 phrase reordering rules and 2 combined phrase reordering and word reordering rules. This research uses Stanford POS Tagger, Stanford Parser, and MOSES. Stanford POS Tagger is used in word reordering process, Stanford parser used in phrase reordering process, and MOSES in translation process. The results from experiments show that the most effective improvement is word reordering. The improvement with word reordering in BLEU score is 1.3896% (from 0.1871 become 0.1897) and for NIST score is 0.6218% (from 5.3876 become 5.4211). On bible corpus, the average of all text restructuring rules score are increased 0.5871% (BLEU) and decreased 0.0144% (NIST). On novel corpus, the average of all text restructuring rules score are increased 0.8751% (BLEU) and increased 0.3170% (NIST). The amount of increase and decrease that occurred in this study is considered as a small occurence (which is still under 1%). This is caused by the MD-DM rules that involve exchanging words that have small distances between their range which have already been accounted for by the distortion model in phrase based statistical machine translation.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Ronaldi Tjaidianto
Abstrak :
Perbedaan media komunikasi yang digunakan antara komunitas tuli dengan masyarakat normal menjadi pembatas dalam menjalin komunikasi antar keduanya. Untuk mengatasi hal ini, diperlukan suatu alat penerjemah yang dapat menerjemahkan bahasa isyarat Indonesia (Bisindo) yang biasa digunakan oleh komunitas tuli di Indonesia ke bahasa lisan dan sebaliknya. Penelitian ini akan berkontribusi pada pembentukan alat penerjemah tersebut dengan menerjemahkan kalimat dalam format Bisindo menjadi kalimat bahasa Indonesia secara satu arah. Penerjemahan dilakukan dengan dua metode berbeda, yaitu penerjemahan berbasis statistik menggunakan model neural machine translation (NMT) dan penerjemahan berbasis aturan. Khusus untuk penerjemahan berbasis aturan, penelitian ini hanya akan berfokus pada sebuah tahapan saja yaitu penambahan preposisi. Selain itu, penelitian ini juga memaparkan metode pembentukan dataset yang menyerupai karakteristik Bisindo dari dataset Indonesia menggunakan aturan-aturan sederhana untuk mengatasi minimnya ketersediaan dataset tersebut. Model NMT terbaik pada eksperimen ini memperoleh peningkatan nilai SacreBLEU sekitar 56%, serta penurunan nilai WER sekitar 7% dari nilai awal yang diperoleh pada dataset testing secara langsung. Di sisi lain, penerjemahan berbasis aturan memperoleh peningkatan nilai SacreBLEU sekitar 1.1% serta penurunan nilai WER sekitar 9.7% dari nilai awal. Sebagai tambahan, model tersebut memperoleh nilai precision sebesar 0.436 dan nilai recall sebesar 0.340 pada performanya dalam menambahkan preposisi secara spesifik. ......The difference of communication methods used by the deaf community and the society becomes a boundary that limits the communication between the two. In order to tackle this issue, we need a tool that can translate sign language (especially bahasa isyarat Indonesia or Bisindo which is commonly used by the deaf community in Indonesia) to oral language and vice versa. This experiment will contribute to such tool by building a tool to translate sentences in Bisindo format to Bahasa Indonesia in one direction. Translation is done using two different methods: statistic-based translation using neural machine translation (NMT) models and rule-based translation. Specific to the rule-based approach, we will only focus on one step of the translation process which is adding prepositions. Aside of that, we also propose a method in building Bisindo-like dataset from Bahasa Indonesia dataset in order to handle the low availability of it. The best NMT model in this experiment achieved an improvement around 56% in SacreBLEU and a decrease around 7% in WER compared to the initial metrics value that we got directly from the testing dataset. On the other side, rule-based translation achieved an improvement around 1.1% in SacreBLEU and a decrease around 9.7% in WER compared to the initial metrics value. In addition, the model achieved 0.436 precision score and 0.340 recall score specific to its performance in adding preposition.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ririn Indah Permata Sari
Abstrak :
Sistem mesin penerjemahan saat digunakan dakam konteks komersial harus melalui proses post-editing. Post-editing adalah kegiatan yang harus dilakukan untuk memaksimalkan penggunaan sistem mesin penerjemahan. Post-editing yang dilakukan oleh manusia bertujuan untuk membuat teks terjemahan mesin memiliki kualitas yang sama seperti teks hasil penerjemahan manusia. Penelitian ini bertujuan untuk meninjau teks hasil post-editing dan menganalisis kesepadanan dan ketidaksepadanan yang dihasilkan oleh mesin penerjemahan, serta melihat strategi post-editing yang digunakan selama kegiatan post-editing. Metode yang digunakan adalah kualitatif untuk menganalisis data dan memperoleh hasil dari kegiatan post-editing. Kualitas mesin penerjemaan dan tipe kesalahan yang berbeda dan ketidaksepadanan akan memengaruhi kegiatan post-editing. Masalah ketidaksepadanan, pembalikan makna, dan struktur menjadi dasar dari kegiatan post-editing. Hasil penelitian menunjukkan bahwa beberapa faktor seperti struktur kalimat, penggunaan istilah khusus, dan kesalahan mesin penerjemahan berdampak dalam kegiatan post-editing. Temuan dari penelitian ini akan berkontribusi dalam pengembangan sistem mesin penerjemahan yang lebih baik dalam industri penerjemahan dan juga pengembangan kemampuan dan strategi post-editor. ......Machine translation systems, when they are used in a commercial context for publishing purposes, are usually used in combination with human post editing. Post editing is crucial to maximize the benefit of machine translation systems. When the post editing behavior is conducted, there should be no difference in quality between human translation and post edited translation. This study observes the post editor rsquo s work and examines the effect of the post editing strategies made during post editing. A method approach was employed to qualitatively analyze the data and gain detailed into the post editing activity. Post editing effort are influenced by machine translation quality, but that different error types affect different post editing effort and confirming that a more fine grained MT quality analysis is needed to correctly estimate actual post editing effort. Non equivalence, meaning shifts, and structural issues are shown to be good indicators of post editing effort. The results indicate that a number of factor such as sentence structure, use of product specific terms, and the impact of machine translation errors, have effect on the amount of post editing effort. The findings will contribute to a better use of machine translation systems in the industry as well as the development of the skills and strategies of the post editors.
Depok: Fakultas Ilmu Pengetahuan dan Budaya Universitas Indonesia, 2018
T50217
UI - Tesis Membership  Universitas Indonesia Library
cover
Lucky Susanto
Abstrak :
Neural machine translation (NMT) untuk bahasa daerah yang low resource di Indonesia menghadapi tantangan yang signifikan, meliputi kurangnya tolok ukur dasar yang representatif dan ketersediaan data yang terbatas. Penelitian ini mengatasi masalah tersebut dengan cara mengembangkan sebuah tolok ukur dasar yang bersifat replicable untuk empat bahasa daerah di Indonesia yang sering digunakan menggunakan sumber daya komputasi terbatas pada dataset FLORES-200. Penelitian ini mengadakan penyelidikan sistematis dan pemeriksaan menyeluruh terhadap berbagai pendekatan dan paradigma untuk melatih model NMT pada konteks sumber daya komputasi terbatas yang pertama. Tolok ukur ini, dilatih menggunakan sumber daya komputasi dan data pelatihan terbatas, mencapai performa yang kompetitif serta mampu melewati performa GPT-3.5-turbo yang telah di zero-shot untuk berbagai arah translasi dari bahasa Indonesia ke bahasa daerah yang low resource. Penelitian ini berkontribusi kepada kemajuan bidang NMT untuk bahasa-bahasa low resource di Indonesia dan membuka jalan untuk penelitian kedepannya sekaligus mengeksplorasi limitasi GPT-3.5-turbo dalam melakukan translasi bahasa daerah yang low resource. Akhirnya, penelitian ini menunjukkan bahwa melatih model XLM menggunakan data sintetis hasil code-switch memiliki performa translasi diatas pendekatan pelatihan penuh dan pelatihan model XLM dengan data monolingual saja. ......Neural machine translation (NMT) for low-resource local languages in Indonesia faces significant challenges, including the lack of a representative benchmark and limited data availability. This study addresses these challenges by establishing a replicable benchmark for four frequently spoken Indonesian local languages using limited computing resources on the FLORES-200 dataset. This study conduct the first systematic and thorough examination of various approaches and paradigms for NMT models in low-resource language settings. The benchmark, trained with limited computing power and training data, achieves competitive performance and surpass zero-shot GPT-3.5-turbo in multiple translation directions from Indonesian to low-resource local languages. This work contributes to the advancement of NMT for low-resource Indonesian languages and pave ways for future studies while exploring the limit of GPT-3.5-turbo in translating low-resource local languages. This study shows that training XLM models using synthetic data through code-switching increases translation performance of NMT models down the line compared to just training NMT models from scratch or training XLM models with only monolingual data.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2   >>