Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 131179 dokumen yang sesuai dengan query
cover
Nia Dwi Rahayuningtyas
"Keraguan dan penolakan orang tua terhadap vaksinasi meningkat secara global. Maraknya penyebaran isu vaksinasi melalui media sosial mengarahkan persepsi publik pada keraguan terhadap vaksin yang berujung pada penurunan cakupan imunisasi dan tidak tercapainya target IDL di Indonesia. Pada media sosial Twitter terdapat dua kelompok, yaitu kelompok pro-vaksin yang mendukung vaksinasi dan anti-vaksin yang menolak vaksinasi.
Penelitian ini bertujuan untuk mengidentifikasi apakah sebuah Tweet memiliki kecenderungan ke arah pro- atau anti-vaksin dan untuk mengeksplorasi topik-topik terkait pro-vaksin dan anti-vaksin. Dataset diambil dari Twitter dengan kata kunci "vaksin" dan "imunisasi" lebih dari 9.000 data Tweet antara 11 Agustus sampai 10 September 2019. Anotasi dilakukan dalam 3 langkah berturut-turut dengan tiga pasangan label yaitu RELEVANT/IRRELEVANT, SUBJECTIVE/NEUTRAL, dan PRO/ANTI. Tiga eksperimen yaitu pemilihan fitur, algoritma, dan pipeline klasifikasi dilakukan untuk mendapatkan model stance detection terbaik yaitu nilai rata-rata micro tertinggi dari precision, recall, dan f1-score.
Fitur terpilih adalah kombinasi 3 fitur teks Count +Unigram+Bigram dengan algoritma Logistic Regression dan pipeline Two-stage Classification (f1-score = 80,5%). Algoritma terpilih pada pembentukan topic modeling adalah NMF dan LDA masing-masing untuk korpus pro-vaksin dan anti-vaksin dengan nilai koherensi sebesar 0.999.
Topik-topik anti-vaksin meliputi kritik terhadap fatwa halal MUI untuk Vaksin MR, kandungan babi pada Vaksin Meningitis Haji, komersialisasi vaksin, vaksin palsu, KIPI dan bahaya vaksin, vaksin sebagai alat konspirasi dan agenda Yahudi, tuntutan vaksin halal, dan seterusnya. Sedangkan topik-topik pro-vaksin lebih bersifat homogen yaitu mengenai manfaat dan pentingnya imunisasi, aturan pemberian vaksin, dan kampanye dalam bentuk publisitas kegiatan imunisasi, dan anjuran vaksin.

Parents hesitancy and refusal toward immunization was rising globally. The rise of the issue of vaccination through social media directs the public's perception of vaccine hesitancy that lead to a reduction in immunization coverage and the unfulfilled IDL target in Indonesia. There are two groups: pro-vaccine that support vaccines and anti-vaccine that refuse vaccines for various reasons that expressed in tweets on Twitter.
This research aims to identify whether a tweet has a tendency to support, or oppose immunization or vaccines and exploring the topic of pro-vaccine and anti-vaccine corpus. The dataset was taken from Twitter with the keywords "vaksin" and "imunisasi" of more than 9,000 tweets at 11 August until 10 September 2019. Annotation was carried out in 3 consecutive steps with three couple label namely RELEVANT vs IRRELEVANT, SUBJECTIVE vs NEUTRAL, and PRO vs ANTI.
Three experiments, namely the selection of features, algorithms, and pipeline were carried out to get the best model of stance detection which has the highest micro average precision, recall, and f1-scores. The selected feature is combination of Count +Unigram+Bigram features with Logistic Regression and pipeline Two-stage Classification (f1-score = 80,5%).
The selected topic modeling algorithms are NMF and LDA for the corpus pro-vaccine and anti-vaccine with coherence score 0.999. Anti-vaccine topics include criticism of the halal MUI fatwa for MR vaccine, pork gelatine in the Hajj Meningitis Vaccine, vaccines for business fields, fake vaccines, KIPI and vaccine hazards, vaccines as part of conspiracy and Jewish agenda, demands for halal vaccines, etc. Whereas pro-vaccine topics are more homogeneous, namely the benefits and importance of immunization, vaccine administration rules, and campaigns with publicity of immunization activities and vaccine recommendations.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020
TA-Pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Nicholas Ramos Richardo
"Pendeteksian topik adalah suatu proses untuk menentukan suatu topik dalam teks dengan menganalisis kata di dalam teks tersebut. Pendeteksian topik dapat dilakukan dengan membaca isi dari teks tersebut. Namun, cara ini semakin sulit apabila data yang dimiliki semakin besar. Memanfaatkan metode machine learning dapat menjadi alternatif dalam menangani data yang berjumlah besar. Metode clustering adalah metode pengelompokkan data yang mirip dari suatu kumpulan data. Beberapa contoh metode clustering adalah K-Means, Fuzzy C-Means (FCM), dan Eigenspaced-Based Fuzzy C-Means (EFCM). EFCM adalah metode clustering yang memanfaatkan metode reduksi dimensi Truncated Singular Value Decomposition (TSVD) dengan metode FCM (Murfi, 2018). Dalam pendeteksian topik, teks harus direpresentasikan kedalam bentuk vektor numerik karena model clustering tidak dapat memproses data yang berbetuk teks. Metode yang sebelumnya umum digunakan adalah Term-Frequency Inversed Document Frequency (TFIDF). Pada tahun 2018 diperkenalkan suatu metode baru yaitu metode Bidirectional Encoder Representations from Transformers (BERT). BERT merupakan pretrained language model yang dikembangkan oleh Google. Penelitian ini akan menggunakan model BERT dan metode clutering EFCM untuk masalah pendeteksian topik. Kinerja performa model dievaluasi dengan menggunakan metrik evaluasi coherence. Hasil simulasi menunjukkan penentuan topik dengan metode modifikasi TFIDF lebih unggul dibandingkan dengan metode centroid-based dengan dua dari tiga dataset yang digunakan metode modifikasi TFIDF memiliki nilai coherence yang lebih besar. Selain itu, BERT lebih unggul dibandingkan dengan metode TFIDF dengan nilai coherence BERT pada ketiga dataset lebih besar dibandingkan dengan nilai coherence TFIDF.

Topic detection is a process to determine a topic in the text by analyzing the words in the text. Topic detection can be done with reading the contents of the text.However, this method is more difficult when bigger data is implemented. Utilizing machine learning methods can be an alternative approach for handling a large amount of data. The clustering method is a method for grouping similar data from a data set. Some examples of clustering methods are K-Means, Fuzzy C-Means (FCM), and Eigenspaced-Based Fuzzy C-Means (EFCM). EFCM is a clustering method that utilizes the truncated dimension reduction method Singular Value Decomposition (TSVD) with the FCM method (Murfi, 2018). In topic detection, the text must be represented in numerical vector form because the clustering model cannot process data in the form of text. The previous method that was most commonly used is the Term-Frequency Inverse Document Frequency (TFIDF). In 2018 a new method was introduced, namely the Bidirectional Encoder method Representations from Transformers (BERT). BERT is a pretrained language model developed by Google. This study will use the BERT model and the EFCM clustering method for topic detection problems. The performance of the model is evaluated using the coherence evaluation metric. The simulation results show that modified TFIDF method for topic determination is superior to the centroid-based method with two of the three datasets used by modified TFIDF method having a greater coherence value. In addition, BERT is superior to the TFIDF method with the BERT coherence value in the three datasets greater than the TFIDF coherence value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Darell Hendry
"Chatbot sebagai asisten virtual yang digunakan oleh suatu instansi dapat memberikan manfaat bagi penggunanya. Dengan adanya chatbot, pengguna dapat berbicara langsung kepada chatbot melalui pesan singkat, yang kemudian sistem secara spontan mengidentifikasi intent pesan tersebut dan merespons dengan tindakan yang relevan. Sayangnya, cakupan pengetahuan chatbot terbatas dalam menangani pesan oleh pengguna yang semakin bervariasi. Dampak utama dari adanya variasi tersebut adalah adanya perubahan pada komposisi label intent. Untuk itu, penelitian ini berfokus pada dua hal. Pertama, pemodelan topik untuk menemukan intent dari pesan pengguna yang belum teridentifikasi intent-nya. Kedua, pemodelan topik digunakan untuk mengorganisasi intent yang sudah ada dengan menganalisis hasil keluaran model topik. Setelah dianalisis, terdapat dua kemungkinan fenomena perubahan komposisi intent yaitu: penggabungan dan pemecahan intent, dikarenakan terdapat noise saat proses anotasi dataset orisinal. Pemodelan topik yang digunakan terdiri dari Latent Dirichlet Allocation (LDA) sebagai model baseline dan dengan model state-of-the-art Top2Vec dan BERTopic. Penelitian dilakukan terhadap dataset salah satu e-commerce di Indonesia dan empat dataset publik. Untuk mengevaluasi model topik digunakan metrik evaluasi coherence, topic diversity dan topic quality. Hasil penelitian menunjukkan model topik BERTopic dan Top2Vec menghasilkan nilai topic quality 0.036 yang lebih baik dibandingkan model topik LDA yaitu -0.014. Terdapat pula pemecahan intent dan penggabungan intent yang ditemukan dengan analisis threshold proporsi.

Chatbot, as a virtual assistant used by an institution, can provide benefits for its users. With a chatbot, users can speak directly to the chatbot via a short message, which then the system spontaneously identifies the intent of the message and responds with the relevant action. Unfortunately, the scope of chatbot knowledge is limited in handling messages by an increasingly varied user. The main impact of this variation is a change in the composition of the intent label. For this reason, this research focuses on two things. First, topic modeling to find intents from user messages whose intents have not been identified. Second, topic modeling is used to organize existing intents by analyzing the output of the topic model. After being analyzed, there are two possible phenomena of changing intent composition: merging and splitting intents because there is noise during the annotation process of the original dataset. The topic modeling used consists of Latent Dirichlet Allocation (LDA) as the baseline model and the state-of-the-art Top2Vec and BERTopic models. The research was conducted on one dataset of e-commerce in Indonesia and four public datasets. The evaluation metrics of coherence, topic diversity, and topic quality were used to evaluate the topic model. The results showed that the BERTopic and Top2Vec topic models produced a topic quality value of 0.036, better than the LDA topic model, which was -0.014. There are also intent splitting and intent merging found by proportion threshold analysis."
Depok: Fakultas Ilmu Komputer Universita Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mega Oktafiani Putri
"Media sosial telah menjadi fenomena dunia, lebih dari 80% pengguna Internet adalah penguna media sosial. Ketika terjadi sebuah bencana, kebutuhan informasi akan meningkat. Twitter merupakan salah satu sumber informasi populer terutama di Indonesia yang tercatat sebagai negara pengguna twitter terbanyak di asia. Oleh karena itu dibutuhkan sebuah sistem yang dapat mengekstraksi informasi dari media sosial. Penelitian ini menawarkan sebuah sistem yang dapat mendeteksi topik pada media sosial twitter dengan merepresentasikan konten media sosial twitter ke graph jaringan kompleks menggunakan pengimplentasian metode pembentukan graph (pengolahan bahasa natural dan konsep graph) dan metrik pengkukur jaringan kompleks sebagai acuan analisa.
Sistem analisa media sosial pada penelitian ini terdiri dari 3 buah subsistem yaitu crawler dengan mengunakan perangkat lunak the archvist, graph converter berupa perangkat lunak Textttogexf untuk Bahasa Indonesia yang diimplementasikan pada bahasa pemrograman Ruby berdasarkan perangkat lunak Textttogexf untuk Bahasa Jepang, dan perangkat lunak untuk memvisualisasikan graph (gephi dan gvedit). Berdasarkan hasil pengujian, metode pembobotan yang paling baik untuk media sosial twitter adalah pembobotan RIDF dan pendefinisian dokumen berdasarkan kategori (persentase keberhasilan: 89%). Pada penelitian ini, topik umum mengenai pilkada 2012 dan 13 sub topik berhasil diekstraksi dari set data banjir Jakarta.

Social media had become worldwide phenomena. More than 80% of Internet?s users are social media?s users. When a disaster occurred, information needs will rise. Twitter is one of popular information resource especially in Indonesia. Because of that, twitter?s information extraction system was needed. This research proposes a system that can detect topic in social media twitter by representing its content as a complex network graph using the implementation of natural language processing, graph concept, and complex network analysis.
This system consists of 3 subsystems which are crawler, graph converter, and application for graph visualization. The Graph visualization is done using Gephi and Graphviz. From testing result, we reach 89% success rate of keyword extraction using RIDF term weighting method and collecting messages by certain category. General topic about governor election and 13 subtopics was successfully extracted from set data flood in Jakarta.
"
Depok: Fakultas Teknik Universitas Indonesia, 2012
S42095
UI - Skripsi Open  Universitas Indonesia Library
cover
Nofa Aulia
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019
T51811
UI - Tesis Membership  Universitas Indonesia Library
cover
Aditya Tejabaswara
"Pesatnya perkembangan teknologi disertai dengan tingkat penggunaannya membawa dampak positif di berbagai bidang kehidupan manusia, namun juga dapat membawa dampak negatif jika tidak didukung dengan tanggung jawab pengguna teknologi itu sendiri. Bidang telekomunikasi adalah salah satu bidang yang perkembangannya sangat dirasakan oleh manusia. Salah satu dari perkembangan telekomunikasi adalah lahirnya media sosial. Manusia menggunakan media sosial untuk berbagi informasi apapun kepada siapapun. Namun yang menjadi masalah kemudian adalah apakah informasi yang tersebar merupakan informasi yang nilai kebenarannya telah teruji atau hanya sebuah rumor. Rumor dapat saja mengakibatkan tersebarnya informasi yang salah di suatu golongan atau komunitas manusia.
Adapun topik yang terkait pada tugas akhir ini adalah siak-ng yang menjadi trending topic di media sosial twitter. l. Mengidentifikasi rumor pada media sosial online sangat krusial nilainya karena mudahnya informasi yang disebar oleh sumber yang tidak jelas.
Pada tugas akhir ini akan ditunjukkan salah satu cara pengidentifikasian rumor dengan menggunakan kalkulasi graph edit distance. Graph edit distance merupakan salah satu langkah yang paling cocok untuk menentukan persamaan antar grafik dan pengenalan pola jaringan kompleks. Untuk mencapai tujuan akhir, langkahlangkah yang dilakukan adalah pengambilan data, konversi data, pengolahan data, dan visualisasi. Dengan pengolahan data didapat Sembilan padanan kata antara Parent Node dan Child Node serta 3 kategori edge label. Pada akhirnya ditemukan bahwa rumor sistem siak-ng sedang mengalami load tinggi merupakan rumor yang nilai kebenarannya tinggi.

Rapid development of technology coupled with the utilizing bring positive impact in many areas of human life, but also have negative impacts if not supported with the responsibility of the users. Telecommunications is one area in which development is perceived by humans. One of the development of telecommunications is social media established.Humans use social media to share any information with anyone. However, the issue then is whether the spread of information is information whose truth value has been tested or just a rumor. Rumors will lead to the spread of false information in a group or people's community.
The topics related to this thesis is the SIAK-NG become trending topic on social media Twitter. Identifying online rumors on social media is crucial value because of the information ease spread by unverified sources.
At the end of this assignment will be demonstrated one way of identifying the rumor by using graph edit distance calculations. Graph edit distance is one of the most appropriate steps to determine the similarities between graphs and pattern recognition of complex networks. To achieve the ultimate goal, the steps taken are data retrieval, data conversion, data processing, and visualization. By data processing obtain nine words comparison between Parent node and Child Node with three edge label category. Finally, the tweet that said the system has high range of load was the true rumor.
"
Depok: Fakultas Teknik Universitas Indonesia, 2012
S42944
UI - Skripsi Open  Universitas Indonesia Library
cover
Christhoper Nugraha
"ABSTRAK
Deteksi topik adalah proses menganalisis kumpulan data tekstual untuk menentukan topik pengumpulan data tekstual. Salah satu metode pengelompokan yang dapat digunakan untuk deteksi topik adalah metode Fuzzy C-Means (FCM). Namun, penggunaan FCM sederhana untuk pendeteksian topik tentang big data kurang efektif, karena akan memakan waktu lama dan banyak memori. FCM sederhana juga memiliki masalah lain, ketika melakukan deteksi topik aktif data dimensi tinggi, FCM sederhana hanya akan menghasilkan satu topik. Dalam penelitian ini, suatu gabungan metode Single-Pass Fuzzy C-Means (SPFCM) dan Fuzzy C-Means Berbasis Eigenspace (EFCM) diusulkan, yaitu Single-Pass Eigenspace-Based Fuzzy C-Means (SPEFCM) metode untuk mengatasi masalah ini. Data yang digunakan untuk deteksi topik adalah
tweet yang berasal dari aplikasi Twitter. Lalu, keakuratan topik didapat menggunakan SPEFCM dan EFCM akan dibandingkan berdasarkan nilai koherensi. Itu hasil simulasi menunjukkan bahwa nilai koherensi topik yang diperoleh menggunakan SPEFCM adalah sebanding dengan EFCM. Ini menunjukkan bahwa SPEFCM adalah metode yang tepat untuk mendeteksi topik pada data besar, tanpa mengurangi kualitas topik yang dihasilkan.

ABSTRACT
Topic detection is the process of analyzing a textual data set to determine the topic of textual data collection. One of the grouping methods that can be used for topic detection is the Fuzzy C-Means (FCM) method. However, the use of simple FCM for the detection of topics about big data is less effective, because it will take a long time and a lot of memory. Simple FCM also has another problem, when detecting active topics of high dimensional data, simple FCM will only produce one topic. In this study, a combination of the Single-Pass Fuzzy C-Means (SPFCM) method and the Fuzzy C-Means Based on Eigenspace (EFCM) is proposed, namely the Single-Pass Eigenspace-Based Fuzzy C-Means (SPEFCM) method to overcome this problem. The data used for topic detection is
tweets that come from the Twitter application. Then, the accuracy of the topics obtained using SPEFCM and EFCM will be compared based on coherence values. The simulation results show that the topic coherence value obtained using SPEFCM is comparable to EFCM. This shows that SPEFCM is the right method for detecting topics in big data, without reducing the quality of the topics produced."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jonathan Marshell Kevin
"Dalam sistem industri modern, dengan majunya teknologi Internet of Things (IoT), pelaku industri dapat merekam data mesin dan sistem untuk kemudian dianalisa secara lebih komprehensif. Salah satu bentuk analisa yang dapat dilakukan adalah mendeteksi apakah ada anomali dari mesin atau sistem tsb. Aktivitas ini kemudian menjadi krusial bagi pelaku industri karena berdasarkan analisa ini, jika ditemukan anomali, maka secara dini dapat diambil tindakan yang diperlukan untuk melakukan pemeliharaan. Tetapi, sangat umum bagi pelaku industri tidak memiliki atau kekurangan data anomali, terutama pada sistem yang baru beroperasi. Dalam tesis ini, kami mengembangkan sebuah model untuk mendeteksi anomali pada data yang tidak berimbang dari sistem Secure Water Treatment (SWaT). Performa dari model ini kemudian dibandingkan dengan metode lain dari riset sebelumnya, mendemonstrasikan peningkatan dalam kapabilitas mendeteksi anomali.

In modern industrial systems, particularly with the advancement of the Internet of Things (IoT), industry players can record machine and system data for comprehensive analysis. One such analysis involves detecting anomalies in machines or systems. This activity becomes crucial because, if an anomaly is found in the data, corrective actions can be taken promptly. However, it is common for manufacturers to lack recorded anomaly datasets, especially for newly operational systems. In this paper, we develop a model to detect anomalies in an imbalanced dataset from the Secure Water Treatment (SWaT) system. The performance of the proposed model is compared with previous works, demonstrating significant improvements in anomaly detection capabilities."
Depok: Fakultas Teknik Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Mutia Prita
"Dena Rachman, seorang transgender telah menjadi pembicaraan hangat masyarakat internet (netizen). Stigma tentang transgender dalam budaya Indonesia menyalahi kodrat. Berdasarkan hal tersebut, penulis tertarik mengungkap bagaimana pro dan kontra berkembang di forum netizen tentangnya. Dalam melakukan metode pengumpulan data, penulis menggunakan data sekunder yang diambil dari situs berita online dan forum yang membahas Dena Rachman. Hasilnya, sebanyak 223 opini dari total 300, menyatakan kontra. Hal ini menunjukkan bahwa suara yang kontra secara dominan jauh melebihi yang pro (22 opini). Adapun alasannya mengapa angka opini kontra jauh melebihi yang pro, dari hasil pengamatan terungkap bahwa mereka yang kontra lebih banyak memberikan justifikasi yang mengacu pada pembenaran budaya yang selama ini berkembang bahwa transgender itu merupakan penyakit yang harus dihindari, dan bahwa transgender merupakan aib masyarakat.

A transgender named Dena Rachman, has been popular during mid-2013 and became a trend topic among internet users (netizen). During that time, almost all people were talking about Dena especially the Netizen. What them talking was around pro and contra regarding to Dena’s case. That is why, I am interested in knowing more about how far media online exposes the pro and contra of Dena Rachman as transgender. In oerder to collecting data, I use secondary data taken from online news sites, and forum discussing about Dena Rachman. The result was 223 opinions out of a total of 300, stating the contra. This shows that the number of contra is larger than the number of pro (22 opinions). As for the reason of contra, many of them believe that transgender is a kind of disease that needs to be avoided, and transgender is considered a disgrace to society.
"
Depok: Fakultas Ilmu Sosial dan Ilmu Politik Universitas Indonesia, 2014
MK-Pdf
UI - Makalah dan Kertas Kerja  Universitas Indonesia Library
cover
Nabila Khansa
"Ujaran kebencian dan bahasa kasar mempermudah penyebaran kekerasan di kehidupan nyata, sehingga muncul urgensi adanya pendeteksian secara otomatis. Untuk melanjutkan pekerjaan yang sudah dilakukan oleh Ibrohim dan Budi (2019), penelitian ini membahas dua isu terkait deteksi ujaran kebencian dan bahasa kasar pada mikroblog berbahasa Indonesia. Isu pertama adalah kajian terkait effect size fitur dan pengembangan model menggunakan fitur-fitur tersebut. Metode Analysis of Variance f-test, Logistic Regression Analysis, dan nilai Shapley digunakan untuk melakukan kajian effect size pada fitur-fitur yang dirancang secara manual. Kemudian, digunakan beberapa algoritma pemelajaran mesin untuk mengembangkan model prediksi berbasis fitur-fitur tersebut. Isu kedua adalah kajian bias dalam pengembangan model terkait keberadaan kata-kata bersifat netral pada data yang merupakan ujaran kebencian atau bahasa kasar. Kajian terkait bias dilakukan dengan menggunakan dataset uji bias. Dataset ini dikembangkan dengan menggantikan kata-kata yang dideteksi memiliki potensi adanya bias pada model yang dilatih menggunakan dataset hasil pekerjaan Ibrohim dan Budi (2019). Penelitian ini menunjukkan bahwa keberadaan kata-kata tertentu berpengaruh terhadap hasil deteksi ujaran kebencian dan bahasa kasar. Di antara kata-kata tersebut, terdeteksi beberapa kata-kata yang berpotensi bias, karena memiliki pengaruh terhadap pendeteksian padahal secara sendiri kata-kata yang dideteksi sebagai potensi bias tidak memiliki unsur kebencian atau bersifat kasar. Hasil evaluasi pengambilan sampel bootstrap menunjukkan Logistic Regression dan XGBoost sebagai model dengan akurasi terbaik dalam pendeteksian ujaran kebencian dan bahasa kasar. Namun, ketika model yang sudah dikembangkan digunakan untuk memprediksi dataset sintetis, didapatkan penurunan akurasi dalam pendeteksian ujaran kebencian. Hasil ini menandakan adanya bias pada model yang dikembangkan. Hasil tersebut didukung juga oleh hasil prediksi dengan akurasi rendah ketika model digunakan untuk melakukan pendeteksian ujaran kebencian pada dataset yang dikembangkan secara manual, tetapi ketika kata-kata bias digantikan dari data, akurasi model meningkat. Kontribusi yang diberikan oleh penelitian ini adalah pengembangan dataset uji bias secara otomatis dari dataset yang dikembangkan oleh Ibrohim dan Budi (2019) dan juga dataset uji bias yang dikembangkan secara manual.

Hate speech and abusive language facilitate the spread of violence in real life, hence the urgency of automatic detection. To continue the work done by Ibrohim dan Budi (2019), this research addresses two issues related to the detection of hate speech and abusive language on Indonesian-language microblogs. The first issue is a study on the effect size of features and the development of models using these features. Analysis of Variance f-test, Logistic Regression Analysis, and Shapley values are used to investigate the effect size of manually designed features. Several machine learning algorithms are then employed to develop prediction models based on these features. The second issue involves studying bias in model development concerning the presence of neutral words in data that constitute hate speech or abusive language. The study related to bias is conducted by using a bias test dataset. This dataset is developed by replacing words that are detected to have the potential for bias in models trained using the dataset resulting from the work of Ibrohim dan Budi (2019). This research demonstrates that certain words significantly influence the detection of hate speech and abusive language. Among these words, some are identified as potentially biased, as they affect detection despite not inherently containing hate or abusive elements. The results of bootstrap sampling evaluation indicate that Logistic Regression and XGBoost are the models with the highest accuracy in detecting hate speech and abusive language. However, when the developed models are used to predict synthetic datasets, a significant decrease in accuracy is observed in hate speech detection. This finding indicates the presence of bias in the developed models. This result is further supported by low-accuracy predictions when the models are used to detect hate speech in manually developed datasets. However, when biased words are replaced in the data, the model’s accuracy significantly improves. The contributions of this research include the development of an automatically generated bias test dataset from the dataset created by Ibrohim dan Budi (2019), as well as a manually developed bias test dataset."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>