Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 11 dokumen yang sesuai dengan query
cover
cover
Hoboken, NJ: Wiley Blackwell, 2017
404.2 HAN
Buku Teks SO  Universitas Indonesia Library
cover
cover
Sugiri
"Sebagian besar studi terbaru dalam abstractive summarization melakukan pendekatan dengan melakukan fine-tuning pretrained language generation model (PLGM). PLGM yang digunakan biasanya merupakan versi monolingual, yang hanya memiliki informasi bahasa yang sesuai dengan dataset yang digunakan. Penelitian ini menggunakan PLGM berbasis multilingual, yang menghasilkan kinerja yang cukup kompetitif jika dibandingkan dengan solusi state-of-the-art yang ada. Dengan menggunakan PLGM berbasis multilingual manfaat yang dihasilkan akan berdampak lebih luas sebanyak informasi bahasa yang dimiliki oleh PLGM terkait. Teknik CTRLSum, yaitu penambahan keyphrase di awal source document, terbukti dapat membuat PLGM menghasilkan summary sesuai dengan keyphrase yang disertakan. Penelitian ini menggunakan teknik mCTRLSum, yaitu teknik CTRLSum dengan menggunakan multilingual PLGM. Untuk mendapatkan keyphrase, selain dengan menggunakan teknik keyphrase extraction (KPE) yang memilih kata yang ada di source document, juga digunakan teknik keyphrase generation (KPG) yaitu teknik pembangkitan suatu set kata/frasa berdasarkan suatu source document dataset berbahasa Inggris, tidak hanya dilatih menggunakan oracle keyphrase sebagai pseudo-target dari dataset summarization, model KPG juga dilatih menggunakan dataset khusus permasalahan KPG dengan domain dan bahasa yang sama. Dengan teknik mCTRLSum yang memanfaatkan oracle keyphrase,  penelitian ini mendeklarasikan batas atas solusi permasalahan abstractive summarization pada dataset Liputan6, dan XLSum berbahasa Inggris, Indonesia, Spanyol, dan Perancis dengan peningkatan terbesar pada dataset Liputan6 sebanyak 22.54 skor ROUGE-1, 18.36 skor ROUGE-2, 15.81 skor ROUGE-L, dan 7.16 skor BERTScore, dan rata-rata 9.36 skor ROUGE-1, 6.47 skor ROUGE-2, 6.68 skor ROUGE-L dan 3.14 BERTScore pada dataset XLSum yang digunakan pada penelitian ini.

Most of the recent studies in abstractive summarization approach by fine-tuning the pre-trained language generation model (PLGM). PLGM used is usually a monolingual version, which only has language information that corresponds to the dataset used. This study uses amultilingual-basedd PLGM, which results in quite competitive performance, compared to existing state-of-the-art solutions. Using a PLGM based on the multilingual benefits generated, it will have a wider impact as much as the language information base owned by the related PLGM. The CTRLSum technique, which is the addition of a keyphrase at the beginning of the source document, is proven to be able to make PLGM produce a summary according to the included keyphrase. This study uses the mCTRLsum technique, namely the CTRLsum technique using multilingual PLGM. To get thekey phrasee, in addition to using the keyphrase extraction (KPE) technique, the words in the source document, keyphrase generation (KPG) techniques are also used, namely the technique of generating a set of words/phrases based on a source document. On the English dataset, not only using the oracle keyphrase as the pseudo-target of the dataset summariza buttion, the KPG model also uses the dataset specifically for KPG problems with the same domain and language. With the mCTRLsum technique that utilizes the oracle keyphrase, this study declares the upper bound of the solution to the abstractive summarization problem in the Liputan6 and XLSum in English, Indonesian, Spanish, and French datasets with the highest increase in Liputan6 dataset of 22.54 ROUGE-1 score, 18.36 ROUGE-2 score, 15.81 ROUGE-L score, and 7.16 BERTScore, and in average of 9.36 ROUGE-1 score, 6.47 ROUGE-2 score, 6.68 ROUGE-L score, and 3.14 BERTScore on XLSum dataset used in this research."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Hajra Faki Ali
"Penelitian ini mengusulkan pengembangan model monolingual untuk Natural Language Inference (NLI) dalam bahasa Swahili untuk mengatasi keterbatasan model multibahasa saat ini. Studi ini melakukan fine-tuning pada model SwahBERT yang sudah dilatih sebelumnya untuk menangkap hubungan semantik dan nuansa kontekstual unik dalam bahasa Swahili. Komponen penting dari penelitian ini adalah pembuatan dataset SwahiliNLI, yang dirancang untuk mencerminkan kompleksitas bahasa Swahili, sehingga menghindari ketergantungan pada teks bahasa Inggris yang diterjemahkan. Selain itu, kinerja model SwahBERT yang telah di-fine-tune dievaluasi menggunakan dataset SwahiliNLI dan XNLI, dan dibandingkan dengan model multibahasa mBERT. Hasilnya menunjukkan bahwa model SwahBERT mengungguli model multibahasa, mencapai tingkat akurasi sebesar 78,78% pada dataset SwahiliNLI dan 73,51% pada dataset XNLI. Model monolingual juga menunjukkan presisi, recall, dan skor F1 yang lebih baik, terutama dalam mengenali pola linguistik dan memprediksi pasangan kalimat. Penelitian ini menekankan pentingnya menggunakan dataset yang dihasilkan secara manual dan model monolingual dalam bahasa dengan sumber daya rendah, memberikan wawasan berharga untuk pengembangan sistem NLI yang lebih efisien dan relevan secara kontekstual, sehingga memajukan pemrosesan bahasa alami untuk bahasa Swahili dan berpotensi menguntungkan bahasa lain yang menghadapi keterbatasan sumber daya serupa.

This research proposes the development of a monolingual model for Natural Language Inference (NLI) in Swahili to overcome the limitations of current multilingual models. The study fine-tunes the pre-trained SwahBERT model to capture Swahili's unique semantic relationships and contextual nuances. A critical component of this research is the creation of a SwahiliNLI dataset, crafted to reflect the intricacies of the language, thereby avoiding reliance on translated English text. Furthermore, the performance of the fine-tuned SwahBERT model is evaluated using both SwahiliNLI and the XNLI dataset, and compared with the multilingual mBERT model. The results reveal that the SwahBERT model outperforms the multilingual model, achieving an accuracy rate of 78.78% on the SwahiliNLI dataset and 73.51% on the XNLI dataset. The monolingual model also exhibits superior precision, recall, and F1 scores, particularly in recognizing linguistic patterns and predicting sentence pairings. This research underscores the importance of using manually generated datasets and monolingual models in low-resource languages, providing valuable insights for the development of more efficient and contextually relevant NLI systems, thereby advancing natural language processing for Swahili and potentially benefiting other languages facing similar resource constraints."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Silangen-Sumampouw, Elfrida Wilhelmina
"Setiap tindak ujaran yang dihasilkan dalam suatu peristiwa ujaran yang tercipta karena adanya interaksi sosial bersemuka memanfaatkan paling kurang dua komponen, yaitu peserta dan bahasa. Komponen tindak ujaran (components of speech acts) yang lengkap dijelaskan dalam Hymes (1972:5B--65). Peserta dalam suatu interaksi verbal bersemuka adalah pembicara dan kawan bicara atau pendengar dan bahasa yang di gunakan dapat berupa bahasa baku, bahasa nonbaku bahasa daerah, dialek, laras, atau variasi lain. Variasi atau ragam bahasa apa pun yang dipakai dalam interaksi itu, salah satu seginya yang penting adalah sistem penyapaan.
Sistem penyapaan bahasa Indonesia di anggap sangat rumit antara lain oleh Sutiyono (1421:1) karena memiliki terlalu banyak pilihan kata yang dapat digunakan untuk menyapa orang. Kenyataan itu membangkitkan minat sejumlah pemelajar bahasa Indonesia, termasuk penulis.
Disertasi ini memasalahkan sistem penyapaan bahasa Indonesia ragam Manado dan membatasi ruang lingkup pembahasannya pada penggunaan kata penyapa khususnya yang ada kaitan dengan kendala sosial dalam kegiatan pemilihan jenis kata penyapa dan wujud vari annya yang cocok, strategi pemilihannya terutama di pengaruhi oleh identitas sosial para peserta tindak ujaran dan jenis hubungan peran yang ada di antara para peserta itu. Identi tas para peserta selain ditentukan oleh latar belakang bahasa etni, pendidikan, umur, dan jenis kelaamin, juga dipengaruhi oleh status baik dalam keluarga maupun dalam masyarakat yang menghasi1kan berbagai hubungan peran, seperti antara lain hubungan ayah-anak, suami-istri, dosen-mahasiswa, dokter pasien, dsbnya. Hubungan peran menunjukkan keakraban yang diwarnai oleh sistem budaya yang hidup dalam masyarakat pemakai kata-kata penyapa itu (Linton, 1976; Goodenough, 195: Merton, 1966; Fishman, 1970; Lyons, 1977)."
Depok: Fakultas Ilmu Pengetahuan dan Budaya Universitas Indonesia, 1990
D00310
UI - Disertasi Membership  Universitas Indonesia Library
cover
Fahrizal
"Sejumlah literatur menunjukkan, bahwa pada komunitas bilingual atau multilingual dimungkinkan terjadinya kontak bahasa. Penggunaan salah satu bahasa akan berkaitan dengan tindak identitas. Di samping itu, salah satu cara mendefinisikan identitas etnik seringkali dapat dilihat pada kesetiaan memelihara bahasa minoritas dan bahasa daerah nonstandard. Tulisan ini mempelajari penggunaan bahasa Betawi dalam tindak komunikasi orang Betawi di Condet Bale Kambang, Jakarta Timur.
Penelitian dengan pendekatan etnografi komunikasi dan metode pengamatan terlibat, wawancara, serta perekaman ini ingin melihat bagaimana penggunaan bahasa Betawi dalam komunikasi sehari-hari dalam sejumlah speech event yang terjadi di masyarakat Condet Bale Kambang. Tindak komunikasi yang melibatkan partisipan dari berbagai kelompok umur akan dilihat pada tiga ranah, yaitu keluarga, keagamaan, dan pertemanan. Sejumlah peristiwa tutur pada tiga ranah dianalisis berdasarkan komponen-komponen komunikasi, termasuk di dalamnya analisis alih kode, fenomena generik pada masyarakat multilingual.
Hasil penelitian menunjukkan bahwa pada ranah keluarga pada umumnya bahasa Betawi masih sangat komunikatif. Pada ranah keagamaan, bahasa Betawi digunakan untuk menginterpretasikan pembahasan yang umumnya berbahasa Melayu Tinggi. Sedangkan pada ranah pertemanan, bahasa Betawi pun masih komunikatif. Sebagai salah satu kantong masyarakat Betawi, ternyata orang-orang Condet masih mampu menjaga. keberlangsungan pemakaian bahasa ibunya. Dengan demikian, mereka tetap dapat dilihat identitas etniknya dari tindak komunikasi."
Depok: Fakultas Ilmu Sosial dan Ilmu Politik Universitas Indonesia, 2001
T1856
UI - Tesis Membership  Universitas Indonesia Library
cover
Spring, Joel
Boston: McGraw-Hill, 2008
370.973 SPR a
Buku Teks  Universitas Indonesia Library
cover
Spring, Joel
Boston: McGraw-Hill, 2004
370.973 SPR a
Buku Teks  Universitas Indonesia Library
cover
Achmad Fatchuttamam Abka
"Peringkasan lintas bahasa adalah sebuah proses menghasilkan ringkasan dalam bahasa target dari dokumen sumber berbahasa lain. Secara tradisional, peringkasan lintas bahasa dilakukan dalam skema pipeline yang melibatkan dua langkah, yaitu penerjemahan dan peringkasan. Pendekatan ini memiliki masalah, yaitu munculnya error propagation. Untuk mengatasi masalah tersebut, penelitian ini mengusulkan peringkasan lintas bahasa abstraktif end-to-end tanpa secara eksplisit menggunakan mesin penerjemah. Arsitektur peringkasan lintas bahasa yang diusulkan berbasis Transformer yang sudah terbukti memiliki performa baik dalam melakukan text generation. Model peringkasan lintas bahasa dilatih dengan 2-task learning yang merupakan gabungan peringkasan lintas bahasa dan peringkasan satu bahasa. Hal ini dilakukan dengan menambahkan decoder kedua pada Transformer untuk menangani peringkasan satu bahasa, sementara decoder pertama menangani peringkasan lintas bahasa. Pada arsitektur peringkasan lintas bahasa juga ditambahkan komponen multilingual word embeddings. Multilingual word embeddings memetakan kedua bahasa yang berbeda ke dalam ruang vektor yang sama sehingga membantu model dalam memetakan relasi antara input dan output. Hasil eksperimen menunjukkan model usulan mendapatkan kenaikan performa hingga +32,11 ROUGE-1, +24,59 ROUGE-2, +30,97 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Inggris ke ringkasan berbahasa Indonesia dan hingga +30,48 ROUGE-1, +27,32 ROUGE-2, +32,99 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Indonesia ke ringkasan berbahasa Inggris.

Cross-lingual summarization (CLS) is a process of generating summaries in the target language from source documents in other languages. Traditionally, cross-lingual summarization is done in a pipeline scheme that involves two steps, namely translation and summarization. This approach has a problem, it introduces error propagation. To overcome this problem, this study proposes end-to-end abstractive cross-lingual summarization without explicitly using machine translation. The proposed cross-lingual summarization architecture is based on Transformer which has been proven to have good performance in text generation. The cross-lingual summarization model is trained with 2-task learning, which is a combination of cross-lingual summarization and monolingual summarization. This is accomplished by adding a second decoder to handle monolingual summarization, while the first decoder handles cross-lingual summarization. The multilingual word embeddings component is also added to the cross-lingual summarization architecture. Multilingual word embeddings map both different languages into the same vector space so that it helps the model in mapping the relationship between input and output. The experimental results show that the proposed model achieves performance improvements of up to +32.11 ROUGE-1, +24.59 ROUGE-2, +30.97 ROUGE-L for cross-lingual summarization from English source documents to Indonesian summaries and up to +30,48 ROUGE-1, +27.32 ROUGE-2, +32.99 ROUGE-L for cross-lingual summarization from Indonesian source documents to English summaries."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
<<   1 2   >>