Hasil Pencarian

Ditemukan 75996 dokumen yang sesuai dengan query

Kerenza Doxolodeo

AC-IQuAD: Automatically Constructed Indonesia Question Dataset by Leveraging Wikidata = AC-IQuAD: Dataset QA Indonesia yang Dibuat Secara Otomatis

"Konstruksi dataset QA membutuhkan akses ke sumber daya dan finansial yang tidak kecil, sehingga dataset untuk bahasa-bahasa yang kurang dipelajari seperti Ba- hasa Indonesia minim. Studi ini mengkonstruksi dataset QA Indonesia yang dibuat secara otomatis dari awal hingga akhir. Proses dimulai dengan mengambil tripel dari Wikidata dan mengkonversikan tripel tersebut menjadi pertanyaan menggu- nakan CFG. Teks konteks dicari dari korpus Wikipedia Bahasa Indonesia dengan heuristik untuk mencari teks yang sesuai. Pertanyaan-pertanyaan tersebut dival- idasi dengan model M-BERT yang fungsinya sebagai proxy model yang menilai kelayakan pertanyaan. Dataset terdiri dari 134 ribu baris pertanyaan simpel dan 60 ribu pertanyaan kompleks yang menggandung dua buah fakta dalam satu per- tanyaan. Untuk pertanyaan simpel dataset mendapatkan evaluasi yang mirip oleh manusia (72% AC-IQuAD vs 67% SQuAD terjemahan) dan model QA Indonesia yang terbaik adalah yang menggabungkan dataset SQuAD Inggris dan AC-IQuAD (F1 57.03 terhadap dataset TydiQA).

Construction of QA datasets requires access to considerable resources and fi- nance, so datasets for less-learned languages such as Indonesian are scarce. This study constructs an Indonesian QA dataset that is generated automatically end- to-end. The process begins by taking triples from Wikidata and converting those triples into questions using CFG. The context text is searched from the Indonesian Wikipedia corpus with heuristics to find the appropriate text. These questions were validated with the M-BERT model which functions as a proxy model that assesses the feasibility of questions. The dataset consists of 134 thousand lines of simple questions and 60 thousand complex questions containing two facts in one ques- tion. For simple queries the datasets received similar evaluations by humans (72% AC-IQuAD vs 67% translated SQuAD) and the best Indonesian QA model was the one combining English SQuAD and AC-IQuAD datasets (F1 57.03 against TydiQA dataset)."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Finding structured and unstructured features to improve the search result of complex question

"Penelitian yang ada pada saat ini mengenai Question Answer (QA) biasanya mendapatkan jawaban dari sumber teks yang tidak terstruktur seperti kumpulan berita atau halaman. Sesuai dengan observasi peneliti dari pengguna Yahoo!Answer, biasanya mereka bertanya dalam natural language yang sangat kompleks di mana mengandung bentuk yang terstruktur dan tidak terstruktur. Secara umum, menjawab pertanyaan yang kompleks membutuhkan pertimbangan yang tidak hanya sumber tidak terstruktur tetapi juga sumber yang terstruktur. Pada penelitian ini, peneliti mengajukan suatu ide baru untuk meningkatkan keakuratan dari jawaban pertanyaan yang kompleks dengan mengenali bentuk terstruktur dan tidak terstruktur dan mengintegrasikan keduanya di web. Framework yang digunakan terdiri dari tiga bagian: Question Analysis, Resource Discovery, dan Analysis of The Relevant Answer. Pada Question Analysis peneliti menggunakan beberapa asumsi dan mencoba mencari bentuk data yang terstruktur dan tidak terstruktur. Dalam penemuan sumber daya, peneliti mengintegrasikan data terstruktur (relational database) dan data tidak terstruktur (halaman web) untuk mengambil keuntungan dari dua jenis data untuk meningkatkan dan untuk mencapai jawaban yang benar. Peneliti dapat menemukan fragmen atas terbaik dari konteks halaman web pada bagian Relevant Answer dan kemudian peneliti membuat pencocoka skor antara hasil dari data terstruktur dan data tidak terstruktur. Terakhir peneliti menggunakan template QA untuk merumuskan pertanyaan.

Abstract

The current researches on question answer usually achieve the answer only from unstructured text resources such as collection of news or pages. According to our observation from Yahoo!Answer, users sometimes ask in complex natural language questions which contain structured and unstructured features. Generally, answering the complex questions needs to consider not only unstructured but also structured resource. In this work, researcher propose a new idea to improve accuracy of the answers of complex questions by recognizing the structured and unstructured features of questions and them in the web. Our framework consists of three parts: Question Analysis, Resource Discovery, and Analysis of The Relevant Answer. In Question Analysis researcher used a few assumptions and tried to find structured and unstructured features of the questions. In the resource discovery researcher integrated structured data (relational database) and unstructured data (web page) to take the advantage of two kinds of data to improve and to get the correct answers. We can find the best top fragments from context of the relevant web pages in the Relevant Answer part and then researcher made a score matching between the result from structured data and unstructured data, then finally researcher used QA template to reformulate the questions."

[Fakultas Ilmu Komputer Universitas Indonesia, Universitas Sebelas Maret. Departemen Teknologi Informasi], 2009

pdf

Artikel Jurnal Universitas Indonesia Library

Penilaian wsai jawaban Bahasa Indonesia menggunakan metode SVM-LSA dengan fitur generik

"Paper ini mengkaji sebuah solusi untuk permasalahan penilaian jawaban esai secara otomatis dengan menggabungkan support vector machine (SVM) sebagai teknik klasifikasi teks otomatis dengan LSA sebagai usaha untuk menangani sinonim dan polisemi antar index term. Berbeda dengan sistem penilaian esai yang biasa yakni fitur yang digunakan berupa index term, fitur yang digunakan proses penilaian jawaban esai adalah berupa fitur generic yang memungkinkan pengujian model penilaian esai untuk berbagai pertanyaan yang berbeda. Dengan menggunakan fitur generic ini, seseorang tidak perlu melakukan pelatihan ulang jika orang tersebut akan melakukan penilaian esai jawaban untuk beberapa pertanyaan. Fitur yang dimaksud meliputi persentase kemunculan kata kunci, similarity jawaban esai dengan jawaban referensi, persentase kemunculan gagasan kunci, persentase kemunculan gagasan salah, serta persentase kemunculan sinonim kata kunci. Hasil pengujian juga memperlihatkan bahwa metode yang diusulkan mempunyai tingkat akurasi penilaian yang lebih tinggi jika dibandingkan dengan metode lain seperti SVM atau LSA menggunakan index term sebagai fitur pembelajaran mesin.

Abstract

This paper examines a solution for problems of assessment an essay answers automatically by combining support vector machine (SVM) as automatic text classification techniques and LSA as an attempt to deal with synonyms and the polysemy between index terms. Unlike the usual essay scoring system that used index terms features, the feature used for the essay answers assessment process is a generic feature which allows testing of valuation models essays for a variety of different questions. By using these generic features, one does not need to re training if the person will conduct an assessment essay answers to some questions. The features include percentage of keywords, similarity essay answers with the answer reference, percentage of key ideas, percentage of wrong answer, and percentage of keyword synonyms. The test results also show that the proposed method has a higher valuation accuracy rate compared to other methods such as SVM or LSA, use term index as features in machine learning."

[Fakultas Ilmu Komputer Universitas Indonesia, Institut Teknologi Bandung. Program Studi Teknik Informatika], 2009

pdf

Artikel Jurnal Universitas Indonesia Library

Sistem question answering Bahasa Indonesia untuk pertanyaan non-factoid

"Fokus dari penelitian ini adalah untuk mengembangkan data dan sistem Question Answering (QA) Bahasa Indonesia untuk pertanyaan non-factoid. Penelitian ini merupakan penelitian QA non-factoid pertama untuk Bahasa Indonesia. Adapun sistem QA terdiri atas 3 komponen yaitu penganalisis pertanyaan, pengambil paragraf, dan pencari jawaban. Dalam komponen penganalisis pertanyaan, dengan asumsi bahwa pertanyaan yang diajukan merupakan pertanyaan sederhana, digunakan sistem yang berbasis aturan sederhana dengan mengandalkan kata pertanyaan yang digunakan (?apa?, ?mengapa?, dan ?bagaimana?). Paragraf diperoleh dengan menggunakan pencarian kata kunci baik dengan menggunakan stemming ataupun tidak. Untuk pencari jawaban, jawaban diperoleh dengan menggunakan pola kata-kata khusus yang ditetapkan sebelumnya untuk setiap jenis pertanyaan. Dalam komponen pencari jawaban ini, diperoleh kesimpulan bahwa penggunaan kata kunci non-stemmed bersamaan dengan kata kunci hasil stemming memberikan nilai akurasi jawaban yang lebih baik, jika dibandingkan dengan penggunaan kata kunci non-stemmed saja atau kata kunci stem saja. Dengan menggunakan 90 pertanyaan yang dikumpulkan dari 10 orang Indonesia dan 61 dokumen sumber, diperoleh nilai MRR 0.7689, 0.5925, dan 0.5704 untuk tipe pertanyaan definisi, alasan, dan metode secara berurutan.

Abstract

Focus of this research is to develop QA data and system in Bahasa Indonesia for non-factoid questions. This research is the first non-factoid QA for Bahasa Indonesia. QA system consists of three components: question analyzer, paragraph taker, and answer seeker. In the component of question analyzer, by assuming that the question posed is a simple question, we used a simple rule-based system by relying on the question word used (?what?, ?why?, and ?how?). On the components of paragraph taker, the paragraph is obtained by using keyword, either by using stemming or not. For answer seeker, the answers obtained by using specific word patterns that previously defined for each type of question. In the component of answer seeker, the conclusion is the use of non-stemmed keywords in conjunction with the keyword stemming results give a better answer accuracy compared to non-use of the keyword or keywords are stemmed stem only. By using 90 questions, we collected from 10 people of Indonesia and the 61 source documents, obtained MRR values 0.7689, 0.5925, and 0.5704 for type definition question, reason, and methods respectively."

[Fakultas Ilmu Komputer Universitas Indonesia, Institut Teknologi Bandung. Sekolah Teknik Elektro dan Informatika], 2011

pdf

Artikel Jurnal Universitas Indonesia Library

Keyza Asyadda Ramadhan Mufron

Model Tanya Jawab bidang Hukum Menggunakan Large Language Model Generatif dengan Few-shot Prompting pada Knowledge Graph LexID = Legal Question Answering Model Using Generative Large Language Model with Few-shot Prompting on LexID Knowledge Graph

"Berdasarkan UU Nomor 12 Tahun 2011, peraturan perundang-undangan harus ditempatkan dalam beberapa media agar dapat diakses seluruh warga. Akan tetapi, beberapa layanan resmi memiliki isu efisiensi bagi pengguna untuk mencari informasi antar peraturan hukum. Solusi alternatif sistem tanya jawab hukum berbasis knowledge graph, yaitu LexID QA memiliki keterbatasan pada pertanyaan yang lebih ekspresif. Penelitian ini mengusulkan sistem tanya jawab hukum berbasis LLM dengan knowledge graph LexID melalui few-shot prompting. Sistem yang dibangun menerjemahkan pertanyaan menjadi kueri SPARQL. Sistem terdiri dari dua komponen, yaitu tanya jawab dan entity linking. Entity linking dilakukan dengan model berbahasa Indonesia untuk memetakan pertanyaan yang diberikan pengguna menjadi pemetaan entitas dan IRI. Kemudian, tanya jawab dilakukan dengan model code generation untuk menerjemahkan pertanyaan beserta informasi entity linking menjadi kueri SPARQL, bahasa kueri knowledge graph.

Based on Act 12/2011, legal document must be placed in several medias for citizen to access it. However, government services have shortcoming in efficiently retrieving information involving two or more legal documents. Existing solution to this issue is LexID QA yet unable to process more expressive question. This research proposes knowledge graph legal question answering based on LLM utilizing few-shot prompting. Proposed system is expected to transform question into SPARQL query. Proposed system is composed of two components, that is question answering and entity linking. Entity linking utilize Indonesian LLM to map user's question into entity-IRI mapping. Question answering model then translate question to SPARQL query with entity linking as an additional context."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Rinawati

Sitem tanya jawab: penemu jawaban pada passage

"Sistem Tanya Jawab (Question Answering) merupakah sistem yang menerima query (pertanyaan) berupa bahasa alami atau bahasa yang biasa digunakan untuk berkomunikasi antar manusia sebagai masukan (input) dan mengembalikan jawaban yang tepat sebagai keluaran (output). Tujuan dari penelitian ini adalah dikembangkannya Sistem Tanya Jawab Satu Bahasa (Monolingual Question Answering System) dan Sistem Tanya Jawab Lintas Bahasa (Cross Language Quetion Answering System). Yang menjadi masukan pada Sistem Tanya Jawab Satu Bahasa adalah query berbahasa Inggris dan keluarannya adalah jawaban berbahasa Inggris, sedangkan pada Sistem Tanya Jawab Lintas Bahasa yang menjadi masukan pada sistem adalah query berbahasa Indonesia dan keluarannya adalah jawaban yang menggunakan bahasa Inggris. Teknik perolehan jawaban yang digunakan pada Sistem Tanya Jawab yang dilakukan oleh penulis ini adalah teknik yang menganalisa passage. Yang dimaksud dengan passage adalah bagian kecil dari dokumen yang isinya dapat berupa sejumlah kata (jumlahnya bervariasi, misalnya 50, 100 atau 200 kata), kalimat atau paragraf. Masing-masing passage tersebut selanjutnya akan diberikan nilai dan diberi keterangan (document annotation). Selanjutnya jawaban dari suatu query diperoleh dari passage yang mempunyai nilai tertinggi dan keterangan yang sesuai dengan query. Uji coba sistem dilakukan terhadap 200 query berbahasa Inggris untuk Sistem Tanya Jawab Satu Bahasa dan 200 query berbahasa Indonesia (hasil terjemahan dari query bahasa Indonesia yang dilakukan secara manual oleh penulis) untuk Sistem Tanya Jawab Lintas Bahasa. Mesin Pencari Informasi yang digunakan untuk menemukan dokumen adalah Lemur sedangkan koleksi dokumen yang digunakan adalah Los Angeles Times tahun 1994 dan Glasgow Herald tahun 1995. Baik query maupun koleksi dokumen, keduanya diperoleh dari CLEF 2004. Evaluasi Sistem Tanya Jawab dilakukan dengan cara mencocokkan jawaban dari hasil penelitian yang dilakukan penulis dengan hasil jawaban yang telah dinilai oleh CLEF 2004. Evaluasi sistem dilakukan untuk mengetahui seberapa baik sistem dapat memperoleh jawaban dengan benar. Hasil dari Sistem Tanya Jawab yang dilakukan penulis adalah 20 buah pertanyaan (10%) dari seluruh query berbahasa Inggris yang dimasukkan ke dalam sistem berhasil dijawab dengan benar sedangkan untuk query berbahasa Indonesia, sebanyak 16 buah pertanyaan (8%) berhasil dijawab dengan benar."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Schneider, Eric

Naar Het Hart van Communicatie : NLP en Spiritualiteit

"Buku ini membahas NLP tidak seperti buku-buku lainnya yang memasukkannya dalam kategori teknologi psikologi, namun sebagai gaya hidup, yaitu sebagai sebuah cara berpikir dan berkomunikasi yang kita pelajari dari kesuksesan yang didapat oleh orang lain. Hal tersebut dapat membuat sisi spiritual kita berkembang dan mengantarkan kita pada titik menerima kenyataan yang dialami diri kita sendiri. Tujuan buku ini adalah membantu kita menemukan realita untuk diri kita sendiri."

Deventer: Ankh-Hermes bv, 2001

BLD 439.31 SCH n

Buku Teks Universitas Indonesia Library

Question formation of bahasa Indonesia as a second language

IJAL 3(1-2)(2013/2014)

Artikel Jurnal Universitas Indonesia Library

Simangusnsong, Daniel Fernando P.

Pengembangan Sistem Tanya-Jawab yang Mengintegrasikan Generative Pre-trained Transformer (GPT) dengan Peraturan Perundang-undangan Indonesia Menggunakan Framework LlamaIndex dan LangChain = Building Question Answering (QA) System by Integrating Generative Pre-trained Transformer (GPT) with Indonesian Legal Documents using LlamaIndexÂ andÂ LangChain

"Tidak dapat dipungkiri bahwa teknologi semakin berkembang dan inovasi baru terus bermunculan. ChatGPT merupakan salah satunya; dan menjadi buah bibir di awal tahun 2023. Teknologi ini dapat melayani aktivitas tanya-jawab yang membuat pengguna dapat merasa telah melakukan percakapan dengan manusia lainnya, alih-alih dengan mesin. Kemampuan ChatGPT bersumber dari model GPT yang digunakannya. Selaku large language model, GPT dapat memproses banyak teks untuk memproduksi teks lainnya. Walaupun secara umum dapat memberikan jawaban yang memadai, saat berurusan dengan domain yang spesifik, misalnya legal, ChatGPT memberikan jawaban yang kurang memuaskan. Penelitian ini dilakukan untuk mengatasi hal tersebut dengan menyisipkan konteks atau kepingan informasi yang spesifik kepada model melalui suatu prompt (in-context learning). Karena domain legal menjadi fokus penelitian ini, maka teks yang akan diproses berasal dari dokumen peraturan perundang-undangan. Penelitian ini diawali dengan preliminary research, sehingga diidentifikasi permasalahan yang telah dijabarkan. Kemudian, dilanjutkan dengan perancangan serta pengembangan dua sistem tanya-jawab yang menggunakan dua framework LlamaIndex dan LangChain. Sebelum mengembangkan sistem, peneliti mempersiapkan terlebih dahulu data/teks yang perlu diekstrak dari dokumen peraturan perundang-undangan. Pengembangan sistem dilakukan secara iteratif dan evaluasi diadakan pada setiap iterasi. Evaluasi dilakukan secara kualitatif dengan menggunakan human judgement serta secara kualitatif dengan menggunakan metrik ROUGE dan SAS. Hasil akhir evaluasi menunjukkan bahwa kedua sistem tersebut baik dalam menjawab pertanyaan terkait definisi dan substansi pada domain legal. Selain itu, dilakukan juga perbandingan hasil evaluasi terhadap ChatGPT dan ditemukan bahwa kedua sistem unggul. Penelitian ini telah menunjukkan bahwa teknologi GPT dapat dimanfaatkan pada domain spesifik, yaitu legal, melalui kedua sistem yang dibuat.

It cannot be denied that technology is constantly advancing and new innovations continue to emerge. ChatGPT is one of them and has become the talk of the town in early 2023. This technology can facilitate question-and-answer interactions that make users feel like they are having a conversation with another human rather than a machine. This capability of ChatGPT is derived from the GPT model it uses. As a large language model, GPT can process a large amount of text to generate new text. Although it generally provides adequate answers, when dealing with specific domains such as legal matters, ChatGPT may give unsatisfactory responses. This research was conducted to overcome this issue by incorporating specific context or pieces of information into the model through a prompt (in-context learning). As the legal domain is the focus of this research, the text to be processed are Indonesian legal regulatory documents. The research begins with preliminary research. It is then followed by the design and development of two question-and-answer systems using two frameworks: LlamaIndex and LangChain. Before developing the systems, the researcher first prepares the data/text that needs to be extracted from the legal documents. The system development is carried out iteratively and evaluations are conducted at each iteration. The evaluations are performed qualitatively using human judgment and quantitatively using ROUGE and SAS metrics. The final evaluation results indicate that both systems perform well in answering questions related to definitions and substance in the legal domain. Additionally, a comparison of the evaluation results with ChatGPT shows that both systems outperform it. This research has demonstrated that GPT technology can be utilized in specific domains, namely legal, through the two developed systems."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ayu Dewita

Analisis waktu proses pada antarmuka simple-o (sistem penilaian esai otomatis) = Process time analysis at interface of simple-o (sistem penilaian esai otomatis) / Ayu Dewita

"Desain antarmuka diperlukan oleh sebuah website agar manusia dapat berkomunikasi dengan komputer menggunakan satu bahasa yang bisa saling dimengerti satu sama lain. Ilmu Interaksi Manusia dan Komputer digunakan untuk mengetahui hal-hal yang harus diperhatikan dalam membuat desain antarmuka pada website. Manusia akan mendapat kemudahan dalam menyelesaikan tugas-tugasnya jika interaksi antara manusia dan komputer berjalan baik. Aplikasi yang telah dibuat desain antarmukanya yaitu pada website Simple-O. Skripsi ini akan membahas mengenai analisis dari perancangan antarmuka Simple-O yang dibuat tanpa menggunakan framework. Hasil pengujian antarmuka dilihat dari segi kepuasan pengguna, pada pengguna dosen total pengujian antarmuka tanpa menggunakan framework pada bagian dosen mendapatkan nilai 4,08 dan mahasiswa mendapatkan nilai 5,08. Waktu eksekusi rata-rata antarmuka menggunakan bootstrap 1,36 detik dan waktu eksekusi rata-rata antarmuka tanpa framework 1,21 detik, ini menunjukkan bahwa waktu eksekusi antarmuka menggunakan bootstrap lebih lama dibandingkan antarmuka tanpa framework.

Interface design is needed by a website so human can communicate with computer using one language that can be understood each other. Human and Computer Interaction knowledge is used to understand things that must noticed in making interface design on website. Human will get it easier in finish their task if interaction between them and computer go well. Application that its interface design had been made is on simple-o website. This thesis will discuss about analysis of prototyping simple-o’s interface that had been made without framework. Testing result interface without using framework on lecturers’s part get score 4,08 and students get score 5,08. Average execution time interface using bootstrap is 1,36 second and average execution time interface without framework is 1,21 second, this show that time execution using bootstrap is slower than without framework."

Depok: Fakultas Teknik Universitas Indonesia, 2015

S59864

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian