Hasil Pencarian

Ditemukan 146503 dokumen yang sesuai dengan query

Heidi Renata Halim

Deteksi Pertanyaan Duplikat Pada Forum Kesehatan Berbahasa Indonesia Dengan Ekspansi Kata = Duplicate Question Detection in Indonesian Health Forum With the Help of Term Expansion

"Seiring dengan majunya teknologi di Indonesia, banyak layanan kesehatan online yang bermunculan. Pengguna bisa bertanya langsung pada tenaga medis profesional tiap mereka memiliki masalah kesehatan ringan yang tidak membutuhkan janji temu langsung dengan dokter. Sebagai pengguna, tentunya mereka mengharapkan respon yang cepat dari situs yang mereka gunakan, hal ini kedengarannya mustahil dilakukan karena tidak semua tenaga medis profesional yang bekerja pada layanan medis tersebut ada setiap saat memantau semua pertanyaan yang masuk. Namun, hal ini bisa dilakukan dengan cara mencocokan pertanyaan yang baru dimasukkan dan mencari pertanyaan yang sudah pernah ditanyakan di masa lalu yang memiliki persamaan dengan pertanyaan yang baru dimasukkan. Secara singkat, kita bisa mencari duplikat dari pertanyaan yang ditanyakan oleh pengguna dan mengembalikan jawaban dari pertanyaan duplikat tersebut daripada menunggu jawaban langsung dari dokter. Penelitian ini akan menggunakan pendekatan temu balik informasi dalam mendeteksi pertanyaan duplikat yang pernah ditanyakan di masa lalu. Selain itu, penelitian ini juga akan mengkombinasikan ekspansi kata yang dilakukan kepada kueri, dokumen, serta filter kata-kata stopword untuk meningkatkan skor reciprocal-rank dan recall dari model yang digunakan. Hasil penelitian ini menyimpulkan bahwa ekspansi kata yang dilakukan pada kueri serta dokumen tidak menghasilkan skor reciprocal rank dan recall yang lebih baik. Penggunaan word embedding untuk memperbanyak kata stopword yang dihapus dari data mampu menghasilkan skor reciprocal rank yang lebih tinggi meskipun nilainya belum signifikan.

With the advancement of technology and internet in Indonesia, many online healthcare services have emerged where users can directly consult with medical professionals if they have minor health issues that do not require an in-person appointment with a doctor. As users, they naturally expect quick responses from the sites they use. This seems impossible to do as not all medical professionals working who are working on these services are always available to monitor every incoming question. However, this can be achieved by matching newly submitted questions with previously asked questions that have similarities. In short, we can search for duplicates of the questions asked by users and return answers from those duplicate questions instead of waiting for a direct response from a doctor. This research will use an information retrieval approach to detect duplicate questions that have been asked in the past. Additionally, this study will combine query expansion, document expansion, and stopwords filtering to improve the reciprocal-rank and recall scores of the model used. This research concludes that query and document expansion do not yield better reciprocal rank and recall scores. On the other hand, using

word embedding to expand the stopwords list removed from the data can help achieve higher reciprocal rank scores, although the improvement displays are still not significant enough to be categorized as a major change."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ilhan Firka Najia

Temu-Balik pertanyaan duplikat pada Forum Kesehatan Berbahasa Indonesia dengan Rank Fusion = Duplicate question retrieval in Indonesian Language Health Forum with Rank Fusion

"Penelitian ini mengeksplorasi efektivitas penggunaan neural rerankers yang telah dilatih sebelumnya dalam meningkatkan kinerja model berbasis text matching seperti BM25 untuk digunakan dalam deteksi pertanyaan duplikat pada consumer health forum. Studi ini juga meneliti metode agregasi hasil reranking dari berbagai neural rerankers untuk menghasilkan performa yang lebih baik dibandingkan penggunaan reranker individual. Metode reranking pertama menggunakan BM25, diikuti oleh reranking kedua menggunakan model neural seperti cross-encoder/ms-marco-MiniLM-L-12-v2, paraphrase-MiniLM-L6-v2, dan lainnya. Tahap ketiga melibatkan teknik rank fusion seperti Borda Fuse, Condorcet, dan Weighted Combsum. Hasil menunjukkan bahwa kombinasi reranking dengan neural reranker secara signi kan meningkatkan efektivitas model BM25, terutama saat menggunakan teknik rank fusion yang lebih canggih seperti Weighted Combsum. Studi ini menyarankan bahwa agregasi hasil reranking dapat mengatasi kelemahan individual reranker dan memberikan hasil yang lebih konsisten dan efektif. Penelitian ini membuka jalan untuk eksplorasi lebih lanjut dalam optimisasi kombinasi model untuk pencarian informasi yang lebih akurat dan e sien.

This study explores the effectiveness of using pre-trained neural rerankers in improving the performance of text matching based models such as BM25 for use in duplicate question detection in textitconsumer health forum. This study also examines the method of aggregating reranking results from various neural rerankers to produce better performance than using individual rerankers. The rst reranking method used BM25, followed by the second reranking using neural models such as cross-encoder/ms-marco-MiniLM-L-12-v2, paraphrase-MiniLM-L6-v2, and others. The third stage involves rank fusion techniques such as BordaFUSE, Condorcet, and Weighted COMBSUM. Results show that the combination of reranking with neural rerankers signi cantly improves the effectiveness of the BM25 model, especially when using more advanced rank fusion techniques such as Weighted COMBSUM. This study suggests that aggregation of reranking results can overcome the weaknesses of individual rerankers and provide more consistent and effective results. This research paves the way for further exploration in model combination optimization for more accurate and ef cient information retrieval."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Febi Imanuela

Identifikasi Otomatis Pertanyaan Duplikat pada Forum Kesehatan Berbahasa Indonesia dengan Memanfaatkan Learning-to-Rank = Automatic Identification of Duplicate Questions in Indonesian Consumer Health Forums Using Learning-to-Rank

"Perkembangan teknologi pada bidang kesehatan di Indonesia telah menghadirkan layanan konsultasi dengan dokter melalui forum tanya jawab kesehatan. Seiring dengan berjalannya waktu, muncul permasalahan pertanyaan duplikat pada forum. Permasalahan ini perlu ditangani agar dapat mempercepat proses pengembalian jawaban untuk keluhan yang serupa dan menjaga jumlah pertanyaan agar tetap scalable dengan kapasitas dokter penjawab. Namun, pertanyaan duplikat merupakan suatu tantangan tersendiri karena kompleksitas bahasa natural. Penelitian ini memanfaatkan pendekatan Information Retrieval untuk mengidentifikasi pasangan pertanyaan duplikat pada domain ini sebagai suatu pasangan query dan dokumen yang relevan. Setelah melakukan ranking awal menggunakan BM25 sebagai model baseline, performa hasil ranking ditingkatkan melalui proses re-ranking menggunakan model learning-to-rank LambdaMART yang berbasis fitur. Penelitian ini memanfaatkan fitur perhitungan jarak dan similaritas antara pasangan vektor representasi query dan dokumen, yang diperoleh dari model word embeddings dan transformer. Selain itu, diusulkan fitur scoring yang diperoleh dari model Cross Encoder, serta model BM25 yang menjadi model baseline. Penelitian ini juga mengusulkan fitur-fitur yang mempertimbangkan jumlah keywords gagasan utama query yang dikandung dokumen. Evaluasi eksperimen dilakukan menggunakan cross validation dan error analysis, dengan MRR sebagai metrik utama. Performa tertinggi yang dicapai eksperimen adalah MRR senilai 0,951 dengan p value senilai 0,016 yang signifikan terhadap baseline. Dengan demikian, penelitian ini menunjukkan dukungan empiris terhadap peningkatan efektivitas model re-ranking yang diusulkan untuk melakukan identifikasi otomatis terhadap karakteristik query dan dokumen yang relevan, yakni pasangan pertanyaan duplikat dalam konteks ini.

The development of technology in the healthcare sector in Indonesia has introduced consultation services with doctors through consumer health forums. Over time, the issue of duplicate questions on these forums emerged. This problem needs to be addressed to accelerate the response process for similar questions and to keep the number of questions scalable with the capacity of the responding doctors. However, duplicate questions present their own challenge due to the complexity of natural language. This study utilizes Information Retrieval approach to identify pairs of duplicate questions in this domain as query and relevant document pairs. After initial ranking using BM25 as the baseline model, the ranking performance is improved through a re-ranking process using the feature-based LambdaMART model. This study leverages features that calculate the distance and similarity between vector representations of the query and document, obtained from word embedding and transformer models. Additionally, scoring features derived from the Cross Encoder model and the BM25 baseline model are proposed. The study also suggests features that consider the number of main idea keywords from the query that is also contained within the document. Experiment evaluation is conducted using cross validation and error analysis, with Mean Reciprocal Rank (MRR) as the primary metric. The highest performance achieved in the experiments is an MRR of 0.951 with a p-value of 0.016, which is significant to the baseline. Thus, this study provides empirical support for the effectiveness of the proposed re-ranking model for automatic identification of the query and relevant document, specifically duplicate question pairs in this context."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ezra Pasha Ramadhansyah

Neural Re-Ranker untuk Mengidentifikasi Pertanyaan Serupa pada Forum Kesehatan Berbahasa Indonesia = Neural Re-Rankers to Identify Duplicate Questions in Indonesian Health Forums

"Sistem perolehan pertanyaan serupa diimplementasikan pada banyak situs tanya jawab, khususnya pada forum tanya jawab kesehatan. Implementasi dari sistem pencarian pertanyaan serupa dapat beragam seperti text based retriever dan neural ranker. Permasalahan utama dari neural ranker adalah kurangnya penelitian dalam bahasa indonesia untuk modelnya, khususnya untuk yang menggunakan BERT sebagai model untuk deteksi pertanyaan serupa. Pada penelitian ini akan dicari tahu sejauh apa neural re-ranker BERT dapat memperbaiki kualitas ranking dari text-based retriever jika diterapkan fine-tuning pada model. Model yang digunakan oleh penelitian berupa BERT dan test collection yang digunakan merupakan dataset forum kesehatan yang disusun oleh Nurhayati (2019). Untuk mengetahui sejauh mana model berbasis BERT dapat berguna untuk re-ranking, eksperimen dilakukan pada model pre-trained multilingualBERT, indoBERT, stevenWH, dan distilBERT untuk melihat model yang terbaik untuk di-fine-tune. Penelitian juga mengusulkan dua metode fine-tuning yakni attention mask filter dengan IDF dan freezed layer dengan melakukan freezing pada beberapa layer di dalam BERT. Model dan metode ini kemudian diuji pada beberapa skenario yang telah ditentukan. Hasil dari eksperimen menunjukkan bahwa re-ranker dapat meningkatkan kualitas text based retriever bila di-fine-tune dengan metode dan skenario tertentu.

Beberapa model memberikan hasil yang lebih baik dengan dataset forum kesehatan dan dengan text based retriever BM25 dan TF-IDF. Model multilingualBERT dan metode fine-tuning layer freezing memberikan hasil yang terbaik dari semua kombinasi. Kenaikan tertinggi terdapat pada kombinasi BM25 dan multilingualBERT dengan layer freezing dengan kenaikan sebesar 0.051 dibandingkan BM25.

The system of acquiring similar questions is implemented on many Question and Answering sites, including health forums. Implementations of similar question search systems can vary, such as text-based retrievers and neural rankers. The main issue with neural rankers is the lack of research in Indonesian language for neural ranker models, especially those using BERT. This study aims to investigate how far BERT as a neural re-ranker can improve the ranking quality of a text-based retriever when applied with fine-tuning. The model used in this research is BERT, and the test collection used is a health forum dataset compiled by Nurhayati (2019). To answer the research question, experiments were conducted on multiple pre-trained models: multilingual BERT, IndoBERT, stevenWH, and distilBERT to identify the best model for fine-tuning. This study also proposes two new fine-tuning methods: attention mask filter with IDF threshholding and frozen layer by freezing some layers within BERT. These models and methods were then tested under predefined scenarios. The experiment results show that the re-ranker can enhance the quality of the text-based retriever when fine-tuned with specific methods and scenarios. These models perform especially well using the health form dataset aswell as using the text based retrievers BM25 and TF-IDF. Out of all models, multilingulBERT performed the best with freezed layer fine-tuning performing as the best fine-tuning method. The most significant increase of all combinations is the combination of BM25 and multilingualBERT with freezed layer fine-tuning with a 0.051 increase compared to the baseline BM25."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Mahardika Krisna Ihsani

Dense passage retriever pada tugas pencarian pertanyaan serupa dengan data pertanyaan forum kesehatan = Dense passage retriever for similar questions retrieval task on consumer health forum questions data

"Penelitian pada data berbahasa Inggris menemukan bahwa Dense Passage Retriever atau DPR mempunyai keterbatasan dalam hal menangani kondisi out-of-distribution data termasuk out-of-domain data. Saat ini, data latih berbahasa Indonesia yang bisa digunakan untuk melatih DPR cukup terbatas. Semua data latih tersebut berasal dari domain umum yang jika digunakan untuk melatih DPR mungkin menghasilkan performa yang rendah pada data uji dengan domain spesifik. Penelitian ini membandingkan antara performa DPR yang dilatih pada data latih dengan domain berbeda dengan domain data uji dan performa sparse retriever model untuk mengetahui apakah fenomena performa DPR yang tidak terlalu baik pada kondisi out-of-domain data juga terjadi pada bahasa Indonesia. Selain itu, penelitian ini mengevaluasi dua pendekatan untuk memperbaiki performa DPR dan mengatasi permasalahan keterbatasan data latih yakni pendekatan untuk memasukkan informasi exact-term matching kepada DPR dan pendekatan untuk mencoba melatih DPR pada beberapa jenis synthetic dataset berbahasa Indonesia. Hasil eksperimen menunjukkan bahwa performa DPR yang tidak terlalu baik pada data uji out-of-domain juga terjadi pada bahasa Indonesia yang ditunjukkan dengan skor evaluasi DPR yang relatif rendah terhadap skor evaluasi sparse retriever model. Selain itu, salah satu metode pemasukan informasi exact-term matching pada DPR yakni hybrid DPR-sparse retriever model menghasilkan skor BPref yang cenderung lebih baik dibandingkan skor BPref DPR pada seluruh eksperimen. Hasil pengujian pendekatan pelatihan DPR dengan synthetic dataset menunjukkan bahwa DPR yang dilatih dengan synthetic dataset pada penelitian ini menghasilkan skor BPref yang mengimbangi skor BPref DPR yang dilatih dengan data latih yang memang bisa digunakan untuk melatih DPR. Investigasi lebih lanjut pada hasil pengujian tersebut menunjukkan bahwa proses fine-tuning dan faktor domain data latih mungkin bisa mempengaruhi performa DPR. Selain itu, panjang token data latih dan faktor ukuran data latih tidak mempunyai korelasi terhadap performa DPR.

Researches on English data found that Dense Passage Retriever (DPR), a neural information retrieval model, has limitation on handling out-of-distribution data, including out-of-domain data. Information retrieval datasets in Indonesian that can be used for training DPR are quite scarce. All of those datasets are open-domain which may produce low model performance when the DPR tested on certain domain-specific dataset. This research compared the DPR performance to sparse retriever model performance to check whether DPR’s lack of performance when it’s tested on out-of-domain also can occur on Indonesian dataset. This research also tested two approaches that might improve DPR performance on that condition and also might overcome the training data scarcity problem that consist of methods to embed exact-term matching information into DPR and DPR fine-tuning on several Indonesian synthetic training datasets. The experiment result shows that DPR’s lack of performance on out-of-domain data also occur in Indonesian dataset which can be shown that all evaluation scores produced by DPR which is trained on out-of-domain training data are lower than any sparse retriever model’s evaluations scores. Result shows that hybrid DPR-sparse retriever model produced relatively higher BPref than DPR BPref. Additionally, result shows that DPR which is fine-tuned on synthetic datasets that were used on this research produced relatively in-par BPref score in compare to BPref score that is produced by DPR which is fine-tuned on training datasets that are inherently can be used to fine-tune DPR. Further investigation on the synthetic dataset training approach results found that fine-tuning process and training data’s domain may affect DPR performance. Additionally, training data token length and training data size don’t have correlation with the DPR performance according to this experiment."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Tsaqif Naufal

Pengenalan Pertanyaan, Entitas, Dan Frase Kunci Pada Data Forum Tanya Jawab Kesehatan Menggunakan BERT = Identification Of Questions, Entities, And Keyphrases From Consumer Health Forum Using BERT

"Seiring dengan semakin banyaknya masyarakat yang menggunakan forum tanya-jawab kesehatan online, kebutuhan akan adanya sistem tanya-jawab kesehatan yang dapat berjalan secara otomatis semakin besar. Salah satu bagian penting dari sistem tanya-jawab kesehatan otomatis adalah question processing untuk mendapatkan informasi relevan dari pertanyaan pengguna. Terdapat beberapa task yang merupakan bagian dari question processing, di antaranya pengenalan pertanyaan, pengenalan entitas kesehatan, dan ekstraksi frase kunci. Pada penelitian ini, penulis mencoba tiga model untuk menyelesaikan ketiga task tersebut, yaitu IndoDistilBERT, IndoDistilBERT-BiLSTMs, dan IndoDistilBERT-BiLSTMs-CRF. Hasil eksperimen menunjukkan bahwa IndoDistilBERT-BiLSTMs-CRF memberikan hasil terbaik untuk task pengenalan pertanyaan dengan skor F1 sebesar 94,45%, lebih baik 3,15% dibandingkan baseline. Untuk task pengenalan entitas kesehatan, IndoDistilBERT-BiLSTMs memberikan hasil terbaik dengan skor F1 sebesar 73,78%, lebih baik 3,53% dibandingkan baseline. Untuk task ekstraksi frase kunci, model IndoDistilBERT-BiLSTMs memberikan hasil terbaik dengan skor F1 sebesar 77,42%, lebih baik 4,25% dibandingkan baseline. Selain itu, percobaan dengan pendekatan multi-task learning untuk menyelesaikan task pengenalan entitas kesehatan dan ekstraksi frase kunci belum mampu mengungguli hasil dari pendekatan single-task learning untuk masing-masing task.

With the increasing number of people who use health question-and-answer online forum, the need for a health question-and-answer system that can run automatically is getting bigger. One of the important parts of an automated health question-and-answer system is question processing to get relevant information from user queries. There are several tasks which are part of question processing, including question recognition, medical entity recognition, and keyphrases extraction. On this research, we try three models to solve those three tasks, namely IndoDistilBERT, IndoDistilBERT-BiLSTMs, and IndoDistilBERT-BiLSTMs-CRF. Our experiment shows that IndoDistilBERT-BiLSTMs-CRF gives the best results for question recognition task with F1-score of 94,45%, 3,15% better than baseline. For medical entity recognition task, IndoDistilBERT-BiLSTMs gives the best results with F1-score of 73,78%, 3,53% better than baseline. For keyphrases extraction task, IndoDistilBERT-BiLSTMs gives the best results with F1-score of 77,42%, 4,25% better than baseline. Besides that, experiments with multi-task learning approach to solve medical entity recognition and keyphrases extraction have not been able to outperform the results of single-task learning approach for each task."

Depok: Fakultas Ilmu komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hendrico Kristiawan

Klasifikasi Domain Spesialisasi Dokter pada Data Teks Forum Tanya Jawab Kesehatan = Classification of Doctor Specialization Domain in Health Question and Answer Forum Text Data

"Pertanyaan konsultasi pada sebuah forum daring perlu dijawab oleh dokter spesialis yang tepat agar jawaban yang diberikan akurat dan bermanfaat bagi pengguna yang bertanya. Terkait hal tersebut, penelitian ini membahas tentang pengembangan model yang dapat secara otomatis mengarahkan sebuah pertanyaan konsultasi kesehatan ke dokter dengan spesialisasi yang sesuai. Lebih jauh lagi, model yang dibangun merupakan model klasifikasi multi-label karena sebuah pertanyaan dapat terasosiasi dengan lebih dari satu spesialisasi. Penelitian ini dimulai dengan mengevaluasi keefektifan metode pemetaan berbasis aturan dalam memprediksi data yang dianotasi oleh pakar, dan diperoleh hasil yang menunjukkan tingkat keberhasilan yang cukup. Selanjutnya, dikembangkan sebuah model machine learning yang melakukan klasifikasi domain spesialis dokter. Pelatihan model dilakukan dengan berbagai metode, termasuk supervised, unsupervised, serta semi-supervised learning. Model terbaik ditemukan melalui metode domain adaptive pre-training dengan IndoBERT-large sebagai model acuan dan melibatkan unsupervised learning. Selain itu, model supervised learning juga digunakan dengan menggunakan model konvensional, dan hasilnya digunakan untuk analisis kontribusi dari fitur-fitur yang digunakan dalam klasifikasi. Terakhir, penelitian ini mengevaluasi kembali anotasi yang dilakukan oleh manusia dengan menggunakan kata kunci sebagai pendekatan untuk mengurangi kesalahan dalam dataset. Dengan pendekatan ini, berhasil ditemukan beberapa kesalahan anotasi pada dataset yang dianotasi oleh manusia.

The consultation questions on an online forum need to be answered by the appropriate specialist doctors to provide accurate and beneficial answers to the users asking the questions. In relation to this, this study discusses the development of a model that can automatically direct a health consultation question to a doctor with the corresponding specialization. Furthermore, the constructed model is a multi-label classification model because a question can be associated with more than one specialization. There are several issues addressed in this work. This research begins by evaluating the effectiveness of rule-based mapping methods in predicting data annotated by experts, and the results show a satisfactory level of success. Furthermore, a multi-label classification model is developed to classify the specialist domains of doctors. The model training is performed using various methods, including supervised learning, unsupervised learning, and semi-supervised learning. The best model is found through domain adaptive pre-training using IndoBERT-large as the reference model and involving unsupervised learning. Additionally, the supervised learning model is also used with a conventional model, and the results are used to analyze the contribution of the features used in the classification. Lastly, this research re-evaluates the annotations made by humans using keyword-based approaches to reduce errors in the dataset. With this approach, several annotation errors were successfully identified in the dataset annotated by humans."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Nabila Khansa

Deteksi Ujaran Kebencian dan Bahasa Kasar pada Blog Mikro Berbahasa Indonesia = Detection of Hate Speech and Abusive Language on Indonesian Microblogs

"Ujaran kebencian dan bahasa kasar mempermudah penyebaran kekerasan di kehidupan nyata, sehingga muncul urgensi adanya pendeteksian secara otomatis. Untuk melanjutkan pekerjaan yang sudah dilakukan oleh Ibrohim dan Budi (2019), penelitian ini membahas dua isu terkait deteksi ujaran kebencian dan bahasa kasar pada mikroblog berbahasa Indonesia. Isu pertama adalah kajian terkait effect size fitur dan pengembangan model menggunakan fitur-fitur tersebut. Metode Analysis of Variance f-test, Logistic Regression Analysis, dan nilai Shapley digunakan untuk melakukan kajian effect size pada fitur-fitur yang dirancang secara manual. Kemudian, digunakan beberapa algoritma pemelajaran mesin untuk mengembangkan model prediksi berbasis fitur-fitur tersebut. Isu kedua adalah kajian bias dalam pengembangan model terkait keberadaan kata-kata bersifat netral pada data yang merupakan ujaran kebencian atau bahasa kasar. Kajian terkait bias dilakukan dengan menggunakan dataset uji bias. Dataset ini dikembangkan dengan menggantikan kata-kata yang dideteksi memiliki potensi adanya bias pada model yang dilatih menggunakan dataset hasil pekerjaan Ibrohim dan Budi (2019). Penelitian ini menunjukkan bahwa keberadaan kata-kata tertentu berpengaruh terhadap hasil deteksi ujaran kebencian dan bahasa kasar. Di antara kata-kata tersebut, terdeteksi beberapa kata-kata yang berpotensi bias, karena memiliki pengaruh terhadap pendeteksian padahal secara sendiri kata-kata yang dideteksi sebagai potensi bias tidak memiliki unsur kebencian atau bersifat kasar. Hasil evaluasi pengambilan sampel bootstrap menunjukkan Logistic Regression dan XGBoost sebagai model dengan akurasi terbaik dalam pendeteksian ujaran kebencian dan bahasa kasar. Namun, ketika model yang sudah dikembangkan digunakan untuk memprediksi dataset sintetis, didapatkan penurunan akurasi dalam pendeteksian ujaran kebencian. Hasil ini menandakan adanya bias pada model yang dikembangkan. Hasil tersebut didukung juga oleh hasil prediksi dengan akurasi rendah ketika model digunakan untuk melakukan pendeteksian ujaran kebencian pada dataset yang dikembangkan secara manual, tetapi ketika kata-kata bias digantikan dari data, akurasi model meningkat. Kontribusi yang diberikan oleh penelitian ini adalah pengembangan dataset uji bias secara otomatis dari dataset yang dikembangkan oleh Ibrohim dan Budi (2019) dan juga dataset uji bias yang dikembangkan secara manual.

Hate speech and abusive language facilitate the spread of violence in real life, hence the urgency of automatic detection. To continue the work done by Ibrohim dan Budi (2019), this research addresses two issues related to the detection of hate speech and abusive language on Indonesian-language microblogs. The first issue is a study on the effect size of features and the development of models using these features. Analysis of Variance f-test, Logistic Regression Analysis, and Shapley values are used to investigate the effect size of manually designed features. Several machine learning algorithms are then employed to develop prediction models based on these features. The second issue involves studying bias in model development concerning the presence of neutral words in data that constitute hate speech or abusive language. The study related to bias is conducted by using a bias test dataset. This dataset is developed by replacing words that are detected to have the potential for bias in models trained using the dataset resulting from the work of Ibrohim dan Budi (2019). This research demonstrates that certain words significantly influence the detection of hate speech and abusive language. Among these words, some are identified as potentially biased, as they affect detection despite not inherently containing hate or abusive elements. The results of bootstrap sampling evaluation indicate that Logistic Regression and XGBoost are the models with the highest accuracy in detecting hate speech and abusive language. However, when the developed models are used to predict synthetic datasets, a significant decrease in accuracy is observed in hate speech detection. This finding indicates the presence of bias in the developed models. This result is further supported by low-accuracy predictions when the models are used to detect hate speech in manually developed datasets. However, when biased words are replaced in the data, the model’s accuracy significantly improves. The contributions of this research include the development of an automatically generated bias test dataset from the dataset created by Ibrohim dan Budi (2019), as well as a manually developed bias test dataset."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Tansa Trisna Astono Putri

Analisis dan Deteksi Hate Speech pada Media Sosial Twitter Berbahasa Indonesia = Hate Speech Analysis and Detection in Indonesian Language in Twitter Social Media

"ABSTRAK

Kebebasan berpendapat melalui media sosial untuk mengungkapkan pikiran, pendapat dan tanggapan terhadap suatu topik tertentu menimbulkan dampak negatif berupa konten yang menebarkan kebencian. Penelitian ini bertujuan untuk melakukan deteksi sebuah informasi yang merupakan ujaran kebencian di media sosial Twitter. Data yang digunakan berjumlah 4.002 data sentimen terkait topik politik, agama, suku dan ras di Indonesia. Pada pembangunan model, penelitian ini menggunakan metode klasifikasi sentimen dengan algoritma machine learning seperti Na ve Bayes, Multi Level Perceptron, AdaBoost Classifier, Random Forest Decision Tree dan Support Vector Machine SVM . Di samping itu, penelitian ini juga melakukan perbandingan performa model dengan menggunakan unigram, bigram dan unigram-bigram dalam proses fitur ekstraksi dan penggunaan SMOTE untuk mengatasi imbalanced data. Evaluasi dari percobaan yang dilakukan menunjukkan bahwa algoritma AdaBoost menghasilkan model terbaik dengan nilai recall tertinggi yaitu 99.5 yang memiliki nilai akurasi sebesar 70.0 dan nilai F1-score sebesar 82.2 untuk klasifikasi ujaran kebencian apabila menggunakan bigram.

ABSTRACT

Freedom of expression through social media to express idea, opinion and view about current topic causes negative impact as the rise of hateful content. This study aims to detect a hate speech information through Twitter. Dataset of this study consists of 4.002 sentiment data related to politic, race, religion and clan topic. The model development of this study conducted by sentiment classification method with machine learning algorithm such as Na ve Bayes, Multi Level Perceptron, AdaBoost Classifier, Random Forest Decision Tree and Support Vector Machine SVM . We also conduct a comparison of model performance that used unigram, bigram, unigram bigram feature and SMOTE to handle imbalanced data. Evaluation of this study showed that AdaBoost algorithm resulted the best classification model with the highest recall model which was 99.5 , accuracy score as much as 70.0 and F1 score 82.2 to classify hate speech when using bigram features."

2018

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

Asep Rinaldo

Analisis dan deteksi potensi hoax pada microblogging twitter berbahasa Indonesia = Analysis and detection of hoax potential on microblogging twitter of Indonesian language

"ABSTRAK<>br>

Dalam beberapa tahun terakhir, masalah pengukuran kredibilitas informasi di jaringan sosial mendapat perhatian yang cukup besar terutama di bawah situasi darurat. Hal itu merupakan konsekuensi dari membeludaknya informasi, terlebih ketika semua orang bebas berperan sebagai sumber informasi.Penelitian ini menyoroti buramnya dinding pembatas antara fakta dan hoax di Indonesia, sehingga hal itu menyebabkan banyaknya kasus penyebaran hoax di media. Jika dibiarkan hal tersebut dapat berdampak buruk bagi seorang pribadi ataupun organisasi yang diserang isu hoax. Survei yang dilakukan Intelligence Media Management IMM menyatakan terdapat peningkatan tajam di tahun 2016 dari 1572 menjadi 7311 pemberitaan media. Dan berdasarkan hasil survei yang dilakukan masyarakat telematika mastel Indonesia hampir dari seluruh responden 84,5 menyatakan terganggu dengan maraknya berita hoax yang dapat mengganggu kerukunan masyarakat dan menghambat pembangunan nasional.Menurut Menteri Komunikasi dan Informatika Rudiantara, langkah nyata yang bisa dilakukan adalah menyaring informasi menjadi lebih cepat dan tegas. Untuk itu diperlukan tindakan sehingga penyebaran hoax di media dapat diturunkan. Tujuan dilakukannya penelitian ini adalah untuk mengidentifikasi konten di media sosial merupakan suatu hoax atau tidak pada saat konten tersebut beredar. Metodologi yang digunakan di dalam penelitian ini dimulai dengan mengumpulkan tweets yang terindikasi hoax lalu dilakukan proses pengolahan data dengan membuat suatu model text mining yang dapat memprediksi suatu konten berpotensi hoax atau tidak.Hasil dari penelitian ini yaitu didapatkan sebuah model berbasis pembelajaran sendiri menggunakan algoritma LinearSVC dengan akurasi 91 yang dapat memprediksi apakah suatu tweet merupakan berpotensi hoax atau tidak sehingga membantu dalam menyaring suatu informasi yang diharapkan dapat mengurangi penyebaran hoax di Indonesia.

ABSTRACT<>br>

In recent years, the problem of measuring the credibility of information on the social network received considerable attention, especially under emergency situations. This is the consequence of too many information, especially when everyone is free to act as a source of information.The study highlights the blurring of the dividing wall between fact and hoax in Indonesia, so it causes many cases of spread of hoaxes in the media. If left unchecked it can be bad for a person or organization that attacked the issue of hoaxes. Surveys conducted by Intelligence Media Management IMM said there is a sharp increase in 2016 from 1572 content into 7311 content spread in media. And based on the results of a survey conducted by telematics community Mastel Indonesia almost of all respondents 84.5 declared disturbed by the rise of the hoax news that could disturb social harmony and impede national development.According to the Minister of Communications and Information Rudiantara, concrete steps that can be done is to filter information faster and firmer. It required the action so that the spread of hoax in the media can be derived. The purpose of this research is to identify content in social media is a hoax or not when the content is spreading. The methodology used in this research begins with collecting tweets that indicated hoax and then performed data processing by creating a text mining model that can predict a potentially hoax content or not.The result of this research is a machine learning model using LinearSVC algorithm with 91 accuracy which can predict whether tweet potentially hoax or not, thus helping the filtering of information expected to reduce the spread of hoax in Indonesia."

2017

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian