Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 152622 dokumen yang sesuai dengan query
cover
Rosalinda
"Metode Triclustering merupakan pengembangan dari metode clustering dan biclustering. Tujuan dari metode triclustering adalah untuk menemukan subruang yang disebut sebagai tricluster. Metode triclustering yang akan dibahas pada penelitian ini adalah metode triclustering berbasis biclustering, yaitu THD-Tricluster dengan menggunakan new residue score dan inter temporal coherence, yang akan diimplementasikan pada data pasien yang terserang HIV-1. Metode triclustering ini terdiri atas dua tahap, yaitu generate biclusters dan generate triclusters. Selanjutnya, inter temporal coherence digunakan untuk mengevaluasi kandidat tricluster yang terbentuk pada tahap generate triclusters dan menentukan tricluster akhir yang terbentuk. Ukuran inter temporal coherence merupakan indeks yang dapat digunakan sebagai ukuran koherensi antarkedalaman dalam mengelompokkan bicluster menjadi tricluster. Pada aplikasinya, ukuran new residue score menggunakan korelasi pearson sebagai landasan untuk mencari nilai residu pada baris dan kolom bicluster. Hasil implementasi untuk tahap generate biclusters diperoleh bahwa terdapat 3 bicluster pada kondisi normal, 100 pada kondisi akut, 100 pada kondisi kronis, dan 13 pada kondisi nonprogresor. Selanjutnya, terdapat sebanyak 33 kandidat tricluster yang terbentuk pada tahap generate triclusters dengan kedalaman masing-masing tricluster adalah 4. Setelah dilakukan evaluasi skor inter temporal coherence dengan threshold ρ=0,8; didapatkan sebanyak 32 tricluster dengan kedalaman 4 dan satu tricluster dengan kedalaman 3 yang memenuhi batas skor koherensi. Keseluruhan penelitian ini dilakukan dengan pemrograman R.

Triclustering method is the development of clustering and biclustering methods. The aim of the triclustering method is to find subspaces, called triclusters. The triclustering method that will be discussed in this study is biclustering-based triclustering method, namely THD-Tricluster using the new residue score and inter temporal coherence, which will be implemented in the data of patients affected by HIV-1. This triclustering method consists of two stages, namely generate biclusters and generate triclusters. Furthermore, inter temporal coherence is used to evaluate candidate triclusters that formed at the stage of generating triclusters and determine the final triclusters. Inter temporal coherence is an index that can be used as a measure of coherence between depths in grouping biclusters into triclusters. In its application, the new residue score measure uses Pearson correlation as the basis for finding residual values in bicluster rows and columns. The implementation results for the generate biclusters stage showed that there were 3 biclusters in normal conditions, 100 in acute conditions, 100 in chronic conditions, and 13 in non-progressor conditions. Furthermore, there were 33 candidate triclusters formed at the generate triclusters stage with the depth of each tricluster being 4. After an evaluation of inter temporal coherence score with threshold ; obtained 32 triclusters with a depth of 4 and one tricluster with a depth of 3 which met the coherence score limits. This whole research was conducted by the R programming."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Elke Annisa Octaria
"

Triclustering merupakan teknik analisis pada data 3D yang bertujuan untuk mengelompokkan data secara bersamaan pada baris dan kolom di sepanjang waktu/kondisi yang berbeda. Hasil dari teknik ini disebut dengan tricluster. Tricluster merupakan subruang berupa subset dari baris, kolom, dan waktu/kondisi. Triclustering biasanya digunakan untuk menganalisis data ekspresi gen. Studi dan analisis data ekspresi gen selama perkembangan suatu penyakit merupakan masalah penelitian yang penting dalam bioinformatika dan aspek klinis. Oleh karena itu, penelitian ini mengimplementasikan metode THD-Tricluster dengan new residue score pada data ekspresi gen perkembangan penyakit HIV-1 yang terdiri dari 22283 probe id, 40 observasi, dan 4 kondisi. Pada tahap pertama dilakukan pencarian bicluster dengan lift algorithm berdasarkan nilai new residue score dengan threshold . Pada tahap kedua dilakukan pencarian tricluster dengan menentukan minimum probe dan minimum observasi  sehingga memperoleh 33 tricluster. Hasil evaluasi tricluster menggunakan Inter-temporal Homogeneity dengan threshold  diperoleh 32 tricluster yang menunjukkan 3 gen yang terkait dengan HIV-1 yaitu HLA-C, ELF-1, dan JUN.


Triclustering is an analysis technique on 3D data that aims to group data simultaneously on rows and columns across different times/conditions. The result of this technique is called a tricluster. Triclusters are a subspace consisting of a subset of rows, columns, and time/conditions. Triclustering is commonly used to analyze gene expression data. The study and analysis of gene expression data during disease progression is an important issue in the research of bioinformatics and clinical aspects. Therefore, this study implements the THD-Tricluster method with a new residue score on the gene expression data for HIV-1 disease progression consisting of 22283 probe id, 40 observations, and 4 conditions. In the first stage, a bicluster search was carried out with a lift algorithm based on the new residue score with a threshold of I = 0.08. In the second stage, the tricluster search was carried out by determining the minimum probe = 5 and the minimum observation = 2 to obtain 33 triclusters. The results of the tricluster evaluations using Inter-temporal Homogeneity with a threshold of Ï? = 0.8 obtained 32 triclusters which shows 3 genes related to HIV-1, namely HLA-C, ELF-1, and JUN.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Awlia Dwi Rachma
"

Metode THD-Tricluster merupakan analisis triclustering dengan pendekatan berbasis biclustering. Pada metode THD-Tricluster digunakan nilai Shifting-and-Scaling Similarity untuk membentuk bicluster terlebih dahulu dan dilanjutkan dengan membentuk tricluster. Nilai SSSim menggunakan Shifting-and-Scaling Correlation untuk mendeteksi adanya  korelasi antaranggota dengan pola pergeseran dan penskalaan serta koherensi antarwaktu dan membandingkannya dengan nilai threshold. Metode THD-Tricluster dilakukan pada data respon pengobatan terapi interferon-beta pada pasien sklerosis ganda. Skenario optimal adalah skenario dengan nilai coverage terkecil yaitu saat menggunakan nilai threshold tertinggi. Pada skenario tersebut diperoleh dua jenis tricluster yaitu tricluster yang memiliki kumpulan gen pada pasien yang responsif dan pasien yang tidak responsif terhadap terapi. Perbedaan kumpulan gen pada kedua tricluster dapat digunakan oleh para ahli medis untuk mengembangkan pengobatan terapi  untuk meningkatkan tingkat keresponsifan pasien sklerosis ganda terhadap terapi tersebut.


The THD-Tricluster method is a triclustering analysis with a biclustering-based approach. The THD-Tricluster method uses the Shifting-and-Scaling Similarity value to form a bicluster first and shows it by forming a tricluster. The SSSim value uses Shifting-and-Scaling Correlation to use an interface with shifting and scaling patterns as well as intertemporal coherence and compares it with the threshold value. The THD-Tricluster method was performed on treatment response data to interferon-beta therapy in multiple sclerosis patients. The optimal scenario is a scenario with a coverage value scenario that uses the highest threshold value. In this scenario, there are two types of tricluster, namely the tricluster which has a collection of genes in responsive patients and patients who are not responsive to therapy. Differences in gene pools in the two tricluster can be used by medical professionals to develop IFN-β therapeutic treatments to increase the responsiveness of multiple sclerosis patients to these therapies.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Siregar, Anggrainy Togi Marito
"Data tiga dimensi banyak ditemukan terutama dalam bidang biomedical dan sosial. Contoh data tiga dimensi adalah data gen-sampel-waktu, individual-fitur-waktu, atau node-node-time,yang umumnya disebut sebagai data konteks-atribut-observasi. Salah satu teknik dalam mengelola data tiga dimensi yaitu triclustering. Penelitian ini menggunakan metode THD-Tricluster untuk mendapatkan hasil triclustering pada data 3 dimensi penyakit AIDS yang disebabkan oleh virus Human Immunodeficiency Virus Tipe 1 (HIV-1). Pencarian triclustering tersebut dilakukan melalui tahap biclustering yang dilakukan pada setiap kondisi. Penelitian ini dengan memodifikasi algoritma Cheng & Church (CC) untuk menghasilkan biclustering dengan ukuran yang digunakan yaitu transposed virtual error ) yang mampu mengelompokkan data berdasarkan pola pergeseran (shifting) dan penskalaan (scaling). Hasil bicluster tersebut yang kemudian diiriskan pada masing-masing kondisi sehingga menghasilkan triclustering. Keseluruhan penelitian ini dilakukan pada program RStudio. Setiap tricluster memiliki suatu kedalaman yang dapat ditentukan bergantung pada banyak kondisi yang diiriskan. Implementasi ukuran transposed virtual error pada triclustering ini menghasilkan 4 tricluster pada kedalaman empat. Evaluasi tricluster tersebut dilakukan dengan menggunakan inter temporal homogeneity dan diperoleh nilai korelasi tricluster antar kondisi di atas 0.9. Dari hasil triclustering tersebut dianalisis probe id gen yang berpengaruh pada penyakit AIDS. Dari analisis tersebut ditemukan 2 simbol gen yang berhubungan dengan penyakit AIDS yang disebabkan oleh HIV-1 yang ada pada setiap kondisi penderita HIV-1 normal, akut, kronis, dan nonprogressor yaitu HLA-C dan ELF-1.
Three-dimensional data are mainly found in biomedical and social fields. Examples of three-dimensional data are gene-sample-time, individual-feature-time, or node-node-time Data, commonly referred to as context-attribute-observation data. One of the techniques in managing three-dimensional data is triclustering. This study uses the THD Tricluster method to obtain triclustering results in 3-dimensional data on AIDS caused by the HIV-1 virus. The Triclustering search is carried out through biclustering stages carried out in each condition. This study modifies the Cheng & Church (CC) algorithm to produce a bicluster using the measure called transposed virtual error ( which is able to group data based on shifting and scaling patterns. The biclustering results are then sliced under each condition to produce a tricluster. This research was conducted in the RStudio program. Each tricluster has a depth that can be determined depending on the many overlapping conditions. The implementation of the transposed virtual error size on biclustering results in 4 triclusters with a depth of four. The tricluster evaluation was carried out using inter temporal homogeneity and obtained a tricluster correlation value between conditions that was above 0.9. Then, the probe id genes that affect AIDS were analyzed from the results of the triclustering. From this analysis, 2 symbol genes associated with AIDS caused by HIV-1 were found in every condition of HIV-1 sufferers, which are normal, acute, chronic, and non-progressor HIV-1 sufferers, namely HLA-C and ELF-1."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
M. Hasbi
Yogyakarta : Gaya Media, 2003
005.13 HAS s
Buku Teks SO  Universitas Indonesia Library
cover
Milhatul Hikmah
"Partisipasi siswa pada proses pembelajaran Pemrograman Dasar kelas X TKJ 2 SMK Negeri 1 Cerme, Kabupaten Gresik sangat kurang. Hal ini karena mereka merasa kesulitan dalam memahami bahasa pemrograman yang belum pernah mereka dapatkan pada pendidikan sebelumnya. Dari hasil pre test yang dilakukan, tidak ada seorang siswa pun yang menguasai secara tuntas. Alasan lain dari kesulitan mereka adalah bahwa metode pembelajaran yang dilakukan selama ini adalah dengan metode ceramah, bukan berpusat pada siswa. Hasil akhir dari mata pelajaran ini adalah bahwa siswa dapat menghasilkan sebuah proyek berupa program. Oleh karena itu, tujuan penelitian ini adalah untuk meningkatkan partisipasi dan hasil belajar siswa dengan menerapkan model Project Based Learning. Penelitian ini menggunakan prosedur penelitian tindakan kelas (PTK) sebanyak dua siklus. Satu siklus berisi tahapan sebagai berikut: (1) perencanaan tindakan; (2) pelaksanaan tindakan; dan (3) pengamatan dan refleksi. Menurut hasil wawancara, observasi siswa, dan refleksi siswa, ditemukan bahwa akar masalahnya adalah proses pembelajaran yang hanya menggunakan ceramah. Ada tindakan dalam upaya pemecahan masalah yaitu: (1) peningkatan partisipasi siswa dengan menghubungkan langsung materi pembelajaran dengan kehidupan nyata; dan (2) peningkatan hasil belajar siswa dengan pemahaman melalui praktik. Melalui penerapan model Project Based Learning, pembelajaran dapat berlangsung kondusif. Siswa menunjukkan respons positif dan hasil belajarnya meningkat. Berdasarkan analisis data selama siklus I, kemampuan siswa dalam memahami algoritma dan pemrograman adalah 19,3% tuntas; 32,2% cukup; dan 48,4% belum tuntas. Oleh karena itu, dilakukan refleksi untuk menuju ke siklus II, di mana pada siklus II ini didapatkan hasil belajar siswa sebesar 51,6% tuntas; 48,4% cukup; dan 0% belum tuntas. Pembelajaran melalui model Project Based Learning ini sangat membantu peningkatan partisipasi belajar siswa, yang kemudian meningkatkan hasil belajar mereka."
Jakarta: Pusat Data dan Teknologi Informasi, 2020
371 TEKNODIK 24:1 (2020)
Artikel Jurnal  Universitas Indonesia Library
cover
Azmi Jundan Taqiy
"Indonesia sebagai negara kepulauan memiliki lebih dari 17 ribu pulau. Hal ini menyebabkan adanya tantangan tersendri untuk mewujudkan konektivitas antar pulaunya, terutama pada daerah terpencil dan tertinggal. Pelayaran perintis merupakan pelayaran yang disubsidi oleh pemerintah Indonesia dengan tujuan utama meningkatkan perekonomian di daerah terpencil dan tertinggal. Namun saat ini, kinerja pelayaran perintis masih belum optimal untuk mencapai tujuan tersebut. Hal tersebut ditandai dengan lamanya round voyage suatu trayek yang dapat mencapai 14 hari serta rendahnya capaian target voyage pelayaran perintis. Oleh karena itu, perlu adanya evaluasi serta efisiensi rute pelayaran perintis. Salah satu yang dapat dilakukan untuk meningkatkan efisiensi rute pelayaran perintis adalah dengan melakukan re-routing trayek pelayaran perintis. Penelitian ini melakukan re-routing pelayaran perintis di wilayah NTT-Maluku Barat Daya dengan pertama melakukan clustering menggunakan DBSCAN (Density-Based Spatial Clustering of Applications with Noise) serta optimasi dengan pendekatan TSP (Travelling Salesman Problem). Hasil yang didapatkan adalah terdapat pengurangan dari rata-rata jarak tempuh trayek pelayaran perintis sebesar 55% (dari 1276 NM menjadi 569,3 NM) serta pengurangan angka rata-rata lama round voyage trayek sebesar 74% (dari 13,3 hari menjadi 3,5 hari). Selain itu, terjadi penurunan ketimpangan antar trayeknya yang dilihat dari nilai jangkauan (range) dari jumlah pelabuhan, jarak tempuh, serta lama round voyage pada trayek pelayaran perintis di wilayah NTT-Maluku Barat Daya.

Indonesia, as an archipelagic country, has more than 17,000 islands. This causes challenges in realizing inter-island connectivity, especially in remote and underdeveloped areas. Pelayaran Perintis is a shipping program that the Indonesian government subsidizes to improve the economy in remote and underdeveloped areas. However, the performance of Pelayaran Perintis is still not optimal for achieving this goal. This is indicated by the length of the round voyage of a route that can reach 14 days and the low achievement of the Pelayaran Perintis voyage target. Therefore, there is a need for evaluation and efficiency of Pelayaran Perintis routes. One thing that can be done to increase the efficiency of Pelayaran Perintis routes is by re-routing Pelayaran Perintis routes. This study re-routes Pelayaran Perintis in the NTT-Maluku Southwest region by first clustering using DBSCAN (Density-Based Spatial Clustering of Applications with Noise) and optimization with the TSP (Travelling Salesman Problem) approach. The results obtained are a reduction in the average mileage for Pelayaran Perintis routes by 55% (from 1276 NM to 569.3 NM) and a reduction in the average length of round voyage routes by 74% (from 13.3 days to 3, 5 days). In addition, there has been a decrease in inequality between routes, which can be seen from the range value of the number of ports, distance traveled, and round voyage length on Pelayaran Perintis routes in the NTT-Southwest Maluku region.
"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hansel Tanuwijaya
"Mesin penerjemah merupakan alat penerjemah otomatis pada sebuah teks dari satu bahasa ke bahasa lainnya. Tujuan dari mesin penerjemah adalah dapat membuat orang ? orang yang berasal dari berbagai budaya, yang memiliki bahasa yang berbeda, dapat berkomunikasi satu sama lain dengan mudah. Mesin penerjemah statistik adalah sebuah pendekatan mesin penerjemah dimana hasil terjemahan dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus teks bilingual (atau paralel). Penelitian di bidang mesin penerjemah statistik untuk Bahasa Inggris ? Bahasa Indonesia belum terlalu mendapat perhatian. Kualitas hasil terjemahan Bahasa Inggris ? Bahasa Indonesia tersebut masih jauh dari sempurna dan memiliki nilai akurasi yang rendah.
Diawali dari permasalahan ini, munculah sebuah ide untuk membuat aturan-aturan restrukturisasi teks pada Bahasa Inggris sesuai dengan struktur Bahasa Indonesia dengan tujuan untuk meningkatkan kualitas dan nilai akurasi hasil terjemahan mesin penerjemah statistik. Aturan restrukturisasi teks tersebut bisa berupa word reordering, phrase reordering, ataupun keduanya. Dalam penelitian ini penulis merancang 7 buah aturan word reordering, 7 buah aturan phrase reordering dan 2 buah aturan gabungan phrase reordering dan word reordering.
Penelitian dilakukan dengan menggunakan Stanford POS Tagger, Stanford Parser, dan MOSES. Stanford POS Tagger digunakan dalam tahap word reordering, Stanford Parser dalam tahap phrase reordering, dan MOSES dalam tahap penerjemahan. Hasil eksperimen menunjukkan peningkatan akurasi dan kualitas penerjemahan yang efektif diperoleh dengan word reordering. Word reordering dapat memberikan peningkatan nilai BLEU sebesar 1.3896% (dari 0.1871 menjadi 0.1897) dan nilai NIST sebesar 0.6218% (dari 5.3876 menjadi 5.4211). Pada korpus bible, rata ? rata nilai peningkatan nilai BLEU yang diperoleh dengan restrukturisasi teks adalah 0.5871% dan untuk nilai NIST terjadi penurunan sebesar 0.0144%. Pada korpus novel, rata ? rata nilai peningkatan nilai BLEU yang diperoleh dengan restrukturisasi teks adalah 0.8751% dan untuk nilai NIST terjadi peningkatan sebesar 0.3170%. Besarnya peningkatan dan penurunan yang terjadi pada penelitian ini cenderung kecil (masih di bawah 1%). Hal ini dikarenakan aturan penerjemahan Bahasa Inggris-Indonesia menggunakan aturan MD-DM yang melibatkan penukaran kata yang jaraknya dekat sudah tercakup dalam distortion model pada mesin penerjemah statistik berdasarkan frase.

Machine translation is an automatic translation tool for a text from one language to another language. The goal of machine translation is to allow people with different cultures and languages to communicate with each other easily. Statistical machine translation is an approach to machine translation in which the results produced on the basis of statistical model that its parameters taken from the bilingual corpus (or parallel) text analysis. The research on statistical machine translation from English to Indonesian has not been received much attention. The English - Indonesian translation quality is still far from perfect and has low accuracy.
Based on this issue, come out an idea to make some text restructuring rules on English according to Indonesian languange structure, with the purpose of improvement the quality and accuracy of the statistical machine translation. Text restructuring rules can be word reordering or phrase reordering or both. In this research, the authors design 7 word reordering rules, 7 phrase reordering rules and 2 combined phrase reordering and word reordering rules.
This research uses Stanford POS Tagger, Stanford Parser, and MOSES. Stanford POS Tagger is used in word reordering process, Stanford parser used in phrase reordering process, and MOSES in translation process. The results from experiments show that the most effective improvement is word reordering. The improvement with word reordering in BLEU score is 1.3896% (from 0.1871 become 0.1897) and for NIST score is 0.6218% (from 5.3876 become 5.4211). On bible corpus, the average of all text restructuring rules score are increased 0.5871% (BLEU) and decreased 0.0144% (NIST). On novel corpus, the average of all text restructuring rules score are increased 0.8751% (BLEU) and increased 0.3170% (NIST). The amount of increase and decrease that occurred in this study is considered as a small occurence (which is still under 1%). This is caused by the MD-DM rules that involve exchanging words that have small distances between their range which have already been accounted for by the distortion model in phrase based statistical machine translation."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Sultan Daffa Nusantara
"Penggunaan huruf kapital merupakan aspek penting dalam menulis bahasa Indonesia yang baik dan benar. Aturan penggunaan huruf kapital dalam bahasa Indonesia telah dijelaskan dalam Pedoman Umum Ejaan Bahasa Indonesia (PUEBI) yang terdiri dari 23 aturan. Penelitian sebelumnya telah memulai mengembangkan pendeteksi dan pengoreksi kesalahan huruf kapital untuk bahasa Indonesia menggunakan pendekatan rule-based dengan kamus dan komponen Named Entity Recognition (NER). Namun, penelitian tersebut hanya mencakup 9 dari 23 aturan huruf kapital yang tercantum dalam PUEBI dan dataset uji yang digunakan tidak dipublikasikan sehingga tidak dapat digunakan untuk penelitian selanjutnya. Penelitian ini bertujuan untuk mengusulkan metode untuk mendeteksi dan mengoreksi 14 dari 23 aturan PUEBI menggunakan pendekatan yang mirip dengan penelitian sebelumnya. Model NER dikembangkan menggunakan pretrained language model IndoBERT yang dilakukan fine-tuning dengan dataset NER. Untuk menguji metode rule-based yang diusulkan, dibuat sebuah dataset sintesis yang terdiri dari 5.000 pasang kalimat. Setiap pasang terdiri dari kalimat benar secara aturan huruf kapital dan padanan kalimat salahnya. Kalimat salah dibuat dengan mengubah beberapa huruf kapital di kalimat yang awalnya benar. Sebelum dilakukan perbaikan terhadap kalimat yang salah, didapatkan akurasi sebesar 83,10%. Namun, setelah menggunakan metode ini, tingkat akurasi meningkat 12,35% menjadi 95,45%.

The correct use of capital letters plays a vital role in writing well-formed and accurate Indonesian sentences. Pedoman Umum Ejaan Bahasa Indonesia (PUEBI) provide a comprehensive set of 23 rules that explain how to use capital letters correctly. Previous research has attempted to develop a rule-based system to detect and correct capital letter errors in Indonesian text using dictionaries and Named Entity Recognition (NER). However, this study only covered 9 out of the 23 capital letter rules specified in PUEBI, and the test dataset used was not publicly available for further analysis. In this study, we aim to propose a method that can identify and rectify 14 out of the 23 PUEBI rules, following a similar approach to previous research. The NER model was trained using the IndoBERT pretrained language model and fine-tuned with a specific NER dataset. To evaluate the effectiveness of our rule-based method, we created a synthetic dataset comprising 5,000 sentence pairs. Each pair consists of a correctly capitalized sentence and an equivalent sentence with incorrect capitalization. Before applying our method, the baseline accuracy was 83.10%. However, after implementing our approach, the accuracy improved by 12.35% to reach 95.45%."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ilma Alpha Mannix
"Penelitian ini bertujuan untuk menguji efektivitas pre-trained language model BERT pada tugas pencarian dosen pakar. Bidirectional Encoder Representations from Transformers (BERT) merupakan salah satu state-of-the-art model saat ini yang menerapkan contextual word representation (contextual embedding). Dataset yang digunakan pada penelitian ini terdiri dari data pakar dan bukti kepakaran. Data pakar merupakan data dosen Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI). Data bukti kepakaran merupakan data abstrak digital tugas akhir mahasiswa Fasilkom UI. Model yang diusulkan pada penelitian ini terdiri dari tiga variasi BERT, yaitu IndoBERT (Indonesian BERT), mBERT (Multilingual BERT), dan SciBERT (Scientific BERT) yang akan dibandingkan dengan model baseline menggunakan word2vec. Terdapat dua pendekatan yang dilakukan untuk mendapatkan urutan dosen pakar pada variasi model BERT, yaitu pendekatan feature-based dan fine-tuning. Penelitian ini menunjukkan bahwa model IndoBERT dengan pendekatan feature-based memberikan hasil yang lebih baik dibandingkan baseline dengan peningkatan 6% untuk metrik MRR hingga 9% untuk metrik NDCG@10. Pendekatan fine-tuning juga memberikan hasil yang lebih baik pada model IndoBERT dibandingkan baseline dengan peningkatan 10% untuk metrik MRR hingga 18% untuk metrik P@5. Diantara kedua pendekatan tersebut, dibuktikan bahwa pendekatan fine-tuning memberikan hasil yang lebih baik dibandingkan dengan pendekatan feature-based dengan peningkatan 1% untuk metrik P@10 hingga 5% untuk metrik MRR. Penelitian ini menunjukkan bahwa penggunaan pre-trained language model BERT memberikan hasil yang lebih baik dibandingkan baseline word2vec dalam tugas pencarian dosen pakar.

This study aims to test the effectiveness of the pre-trained language model BERT on the task of expert finding. Bidirectional Encoder Representations from Transformers (BERT) is one of the current state-of-the-art models that applies contextual word representation (contextual embedding). The dataset used in this study consists of expert data and expertise evidence. The expert data is composed of faculty members from the Faculty of Computer Science, University of Indonesia (Fasilkom UI). The expertise evidence data consists of digital abstracts by Fasilkom UI students. The proposed model in this research consists of three variations of BERT, namely IndoBERT (Indonesian BERT), mBERT (Multilingual BERT), and SciBERT (Scientific BERT), which will be compared to a baseline model using word2vec. Two approaches were employed to obtain the ranking of expert faculty members using the BERT variations, namely the feature-based approach and fine-tuning. The results of this study shows that the IndoBERT model with the feature-based approach outperforms the baseline, with an improvement of 6% for the MRR metric and up to 9% for the NDCG@10 metric. The fine-tuning approach also yields better results for the IndoBERT model compared to the baseline, with an improvement of 10% for the MRR metric and up to 18% for the P@5 metric. Among these two approaches, it is proven that the fine-tuning approach performs better than the feature-based approach, with an improvement of 1% for the P@10 metric and up to 5% for the MRR metric. This research shows that the use of the pre-trained language model BERT provides better results compared to the baseline word2vec in the task of expert finding."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>