001 Hak Akses (open/membership) | membership |
700 Entri Tambahan Nama Orang | Wisnu Jatmiko, promotor; Heru Suhartono, examiner; Adila Alfa Krisnadhi, examiner; Indra Budi, examiner; Masayu Leylia Khodra, examiner; Devi Yulianti, examiner; Wahyu Catur Wibowo, examiner |
336 Content Type | text (rdacontent) |
264b Nama Penerbit | Fakultas Ilmu Komputer Universitas Indonesia |
710 Entri Tambahan Badan Korporasi | Universitas Indonesia. Fakultas Ilmu Komputer |
049 No. Barkod | 07-24-89341801 |
504 Catatan Bibliografi | |
852 Lokasi | Perpustakaan UI |
338 Carrier Type | online resource (rdacarrier) |
590 Cat. Sumber Pengadaan Koleksi | ;;; |
903 Stock Opname | |
534 Catatan Versi Asli | |
Tahun Buka Akses | 2024 |
053 No. Induk | 07-24-89341801 |
653 Kata Kunci | peringkasan lintas bahasa; peringkasan otomatis; transformer; multilingual word embeddings |
040 Sumber Pengatalogan | LibUI ind rda |
245 Judul Utama | Peringkasan Lintas Bahasa Berbasis Transformer Menggunakan Multilingual Word Embeddings untuk Domain Bahasa Inggris-Indonesia = Transformer-Based Cross-Lingual Summarization Using Multilingual Word Embeddings for English-Indonesian Domain |
264c Tahun Terbit | 2023 |
650 Subyek Topik | Text processing (Computer science); Automatic abstracting |
850 Lembaga Pemilik | Universitas Indonesia |
520 Ringkasan/Abstrak/Intisari | Peringkasan lintas bahasa adalah sebuah proses menghasilkan ringkasan dalam bahasa target dari dokumen sumber berbahasa lain. Secara tradisional, peringkasan lintas bahasa dilakukan dalam skema pipeline yang melibatkan dua langkah, yaitu penerjemahan dan peringkasan. Pendekatan ini memiliki masalah, yaitu munculnya error propagation. Untuk mengatasi masalah tersebut, penelitian ini mengusulkan peringkasan lintas bahasa abstraktif end-to-end tanpa secara eksplisit menggunakan mesin penerjemah. Arsitektur peringkasan lintas bahasa yang diusulkan berbasis Transformer yang sudah terbukti memiliki performa baik dalam melakukan text generation. Model peringkasan lintas bahasa dilatih dengan 2-task learning yang merupakan gabungan peringkasan lintas bahasa dan peringkasan satu bahasa. Hal ini dilakukan dengan menambahkan decoder kedua pada Transformer untuk menangani peringkasan satu bahasa, sementara decoder pertama menangani peringkasan lintas bahasa. Pada arsitektur peringkasan lintas bahasa juga ditambahkan komponen multilingual word embeddings. Multilingual word embeddings memetakan kedua bahasa yang berbeda ke dalam ruang vektor yang sama sehingga membantu model dalam memetakan relasi antara input dan output. Hasil eksperimen menunjukkan model usulan mendapatkan kenaikan performa hingga +32,11 ROUGE-1, +24,59 ROUGE-2, +30,97 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Inggris ke ringkasan berbahasa Indonesia dan hingga +30,48 ROUGE-1, +27,32 ROUGE-2, +32,99 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Indonesia ke ringkasan berbahasa Inggris.
......Cross-lingual summarization (CLS) is a process of generating summaries in the target language from source documents in other languages. Traditionally, cross-lingual summarization is done in a pipeline scheme that involves two steps, namely translation and summarization. This approach has a problem, it introduces error propagation. To overcome this problem, this study proposes end-to-end abstractive cross-lingual summarization without explicitly using machine translation. The proposed cross-lingual summarization architecture is based on Transformer which has been proven to have good performance in text generation. The cross-lingual summarization model is trained with 2-task learning, which is a combination of cross-lingual summarization and monolingual summarization. This is accomplished by adding a second decoder to handle monolingual summarization, while the first decoder handles cross-lingual summarization. The multilingual word embeddings component is also added to the cross-lingual summarization architecture. Multilingual word embeddings map both different languages into the same vector space so that it helps the model in mapping the relationship between input and output. The experimental results show that the proposed model achieves performance improvements of up to +32.11 ROUGE-1, +24.59 ROUGE-2, +30.97 ROUGE-L for cross-lingual summarization from English source documents to Indonesian summaries and up to +30,48 ROUGE-1, +27.32 ROUGE-2, +32.99 ROUGE-L for cross-lingual summarization from Indonesian source documents to English summaries. |
904b Pemeriksa Lembar Kerja | |
090 No. Panggil Setempat | D-pdf |
d-Entri Utama Nama Orang | |
500 Catatan Umum | Tidak dapat diakses di UIANA, karena: akan diterbitkan pada Jurnal Nasional yaitu ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP) yang diprediksi akan dipublikasikan pada bulan April tahun 2024 |
d-Entri Tambahan Nama Orang | |
337 Media Type | computer (rdamedia) |
526 Catatan Informasi Program Studi | Ilmu Komputer |
100 Entri Utama Nama Orang | Achmad Fatchuttamam Abka, author |
264a Kota Terbit | Depok |
300 Deskripsi Fisik | xv, 110 pages : illustration + appendix |
904a Pengisi Lembar Kerja | tanti-Januari2024 |
Akses Naskah Ringkas | |
856 Akses dan Lokasi Elektronik | |
502 Catatan Jenis Karya | Disertasi |
041 Kode Bahasa | ind |