Hasil Pencarian

Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 117715 dokumen yang sesuai dengan query
cover
Muammar Nota Reza Ramadhan
"Saat ini media sosial merupakan sarana komunikasi yang tidak terlepas dari penyebaran ujaran kebencian yang cukup meresahkan penggunanya. Sejak tahun 2018 KOMINFO telah menangani sebanyak 3.640 ujaran kebencian yang tersebar di berbagai media sosial. Selain itu SafeNet telah menangani kasus Kekerasan Berbasis Gender Online (KBGO) pada tahun 2021 sebanyak 677 aduan yang didominasi dengan kasus pelecehan seksual. Disisi lain Sejak tahun 2020 Komnas Perempuan mencatat kasus kekerasan yang terjadi dalam komunitas dan ranah publik Indonesia sebesar 21 % (1.731 kasus) dengan kasus kekerasan seksual yang paling mendominasi. Banyaknya jenis ujaran kebencian yang berbeda-beda menyebabkan banyak tantangan dalam mendeteksi ujaran kebencian termasuk dalam domain kekerasan seksual. Tujuan dari penelitian ini adalah menghasilkan model klasifikasi ujaran kebencian kekerasan seksual dengan performa dan tingkat akurasi yang baik sehingga dapat dimanfaatkan secara teori bagi akademisi dan praktikal bagi lembaga seperti KOMINFO, SafeNet, LBH APIK Jakarta, Komnas Perempuan, POLRI. Data yang digunakan pada penelitian ini adalah hasil crawling media sosial twitter pada bulan Desember 2021 hingga Januari 2022. Dengan menggunakan pendekatan Machine Learning, dataset diolah dengangan teknik ekstraksi fitur Term Frequency-Inverse Document Frequency (TF-IDF), beberapa teknik sampling seperti Random Over Sampling (ROS), Random Under Sampling (RUS), Synthetic Minority Over-sampling Technique (SMOTE), dan Adaptive Synthetic (ADASYN) serta beberapa algoritma klasifikasi seperti Nave bayes (NB), Support Vector Machine (SVM), Logistic Regresion (LR), Decition Tree (DT), Random Forest (RF), Gradient Boosting Machine (GBM) dan Extreme Gradient Boosting (XGBoost). Penelitian ini menghasilkan akurasi tertinggi sebesar 0.9239 dimana Algoritma terbaik didominasi oleh SVM dan RF. Implikasi penelitian ini secara teori adalah perbandingn hasil klasifikasi 35 model klasifikasi dan secara praktik dapat diimplementsikan pada Lembaga yang memiliki sistem pendeteksi ujaran kebencian.  

Currently, social media is a means of communication that cannot be separated from the spread of hate speech which is quite disturbing for its users. Since 2018, KOMINFO has handled 3,640 hate speech spread across various social media. SafeNet has handled cases of Online Gender-Based Violence (KBGO) in 2021 as many as 677 complaints, which were dominated by cases of sexual harassment. In 2020 Komnas Perempuan has recorded 21% of cases of violence occurring in the Indonesian community/public sphere (1,731 cases) with the most prominent case being sexual violence. Different types of hate speech cause many challenges in detecting such hate speech. The purpose of this study is to produce a classification model of sexual violence hate speech with good performance and accuracy so that it can be used theoretically for academics and practically for institutions such as KOMINFO, SafeNet, LBH APIK Jakarta, Komnas Perempuan, and POLRI. The data used in this study is the result of crawling social media twitter from December 2021 to January 2022. By using a Machine Learning approach, the dataset is processed using the Term Frequency-Inverse Document Frequency (TF-IDF) feature extraction technique, several sampling techniques such as Random Over Sampling (ROS), Random Under Sampling (RUS), Synthetic Minority Over-sampling Technique (SMOTE), and Adaptive Synthetic (ADASYN) as well as several classification algorithms such as Nave Bayes (NB), Support Vector Machine (SVM), Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Gradient Boosting Machine (GBM) and Extreme Gradient Boosting (XGBoost). This research produces the highest accuracy of 0.9239 where the best algorithm is dominated by SVM and RF. The theoretical implication of this research is the comparison of the classification results of 35 classification models and practically it can be implemented in institutions that have a hate speech detection system."
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Muhammad Okky Ibrohim
"ABSTRAK
Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), Naïve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.


Hate speech and abusive language spreading on social media needs to be identified automatically to avoid conflict between citizen. Moreover, hate speech has target, criteria, and level that also needs to be identified to help the authority in prioritizing hate speech which must be addressed immediately. This thesis discusses multi-label text classification to identify abusive and hate speech including the target, category, and level of hate speech in Indonesian Twitter. This problem was done using machine learning approach with Support Vector Machine (SVM), Naïve Bayes (NB), and Random Forest Decision Tree (RFDT) classifier and Binary Relevance (BR), Label Power-set (LP), and Classifier Chains (CC) as data transformation method. The features that used are term frequency (word n-grams and character n-grams), ortography (exclamation mark, question mark, uppercase, lowercase), and lexicon features (negative sentiment lexicon, positif sentiment lexicon, and abusive lexicon). The experiment results show that in general RFDT classifier using LP as the transformation method gives the best accuracy with fast computational time. RFDT classifier with LP transformation using word unigram feature give 66.16% of accuracy. If only for identifying abusive language and hate speech (without identifying the target, criteria, and level of hate speech), RFDT classifier with LP transformation using combined fitur word unigram, character quadgrams, positive sentiment lexicon, and abusive lexicon can gives 77,36% of accuracy.

"
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019
T52442
UI - Tesis Membership  Universitas Indonesia Library
cover
Mohammad Rizky Adrian
"Salah satu upaya pengendalian konten negatif media sosial seperti ujaran kebencian dan ujaran kasar adalah dengan mengotomasi proses filter dari konten media sosial. Dalam konteks COVID19, proses otomasi ini dapat dimanfaatkan oleh KOMINFO, virtual police, satuan tugas COVID19, ataupun para akademisi. Data dikumpulkan dari Twitter selama bulan Mei sampai Juni 2021. Penelitian memanfaatkan korpus dari penelitian terdahulu untuk mengetahui apakah pengetahuan dari penelitian terdahulu dapat digunakan pada domain COVID19. Dataset dievaluasi menggunakan algoritma Support Vector Machine (SVM), Naïve Bayes, Random Forest Decision Tree (RFDT), Logistic Regression, dan ADABoost, dengan variasi SMOTE dan undersampling. Unigram-bigram kata digunakan sebagai fitur dikombinasikan dengan fitur lexicon dan orthogonal, serta diekstraksi menggunakan Term Frequency-Inverse Document Frequency dan Count Vectorizer. Hasil anotasi menunjukkan perbandingan data imbalance sebesar 1:73 untuk ujaran kebencian dan 1:24 untuk ujaran kasar. Evaluasi dari hasil penelitian menunjukkan bahwa pemanfaatan model klasifikasi dari penelitian terdahulu (2019) dikombinasikan dengan dataset COVID19 memiliki nilai recall dan F1 klasifikasi ujaran kebencian (nilai recall 69.23%) dan ujaran kasar (nilai recall 71.3%) yang lebih baik. Algoritma pembangun model terbaik didominasi oleh algoritma SVM dan ADABoost. Hasil dari penelitian perlu ditindaklanjuti agar dapat dirasakan manfaatnya secara langsung, misalnya dengan membungkus model klasifikasi pada API (application programmable interface).

One of the efforts to control negative aspect of social media like hate speech and abusive language is by automating the filtering process of content on social media. In the context of COVID19, KOMINFO, the virtual police, the COVID19 task force, or academics can benefit from this solution. Data was collected from Twitter in the period of May to June 2021. The study utilizes the corpus from previous studies to find out whether previous research knowledge can be used in the COVID19 domain. The COVID19 dataset uses the Support Vector Machine (SVM), Naïve Bayes, Random Forest Decision Tree (RFDT), Logistic Regression, and ADABoost algorithms, with variations of data imbalances handling (SMOTE and undersampling). Unigram-bigram words, lexicon, and orthogonal are used as features extracted by TF-IDF and Count Vectorizer. The annotation results show a comparison of the imbalanced data of 1:73 for hate speech and 1:24 for abusive language in COVID19 dataset. Results of the study shows that the use of the classification model from previous studies (2019) combined with the COVID19 dataset has a better recall value and F1 classification of hate speech (with recall score of 69.23%) and abusive language (with recall score of 71.3%). The best classifier models mostly built using SVM and ADABoost. The results of this research need to be followed up so that they can be used directly, for example by wrapping the best classifier model on API (application programmable interface)."
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Silmi Kamilah
"Penelitian ini bertujuan untuk menjelaskan pengungkapan kasus kekerasan seksual melalui Twitter sebagai bentuk resistensi penyintas kekerasan seksual di Indonesia. Studi-studi terdahulu mengenai pengungkapan kasus kekerasan seksual membahas dua jenis pengungkapan, yaitu secara langsung dan secara daring melalui perantara media sosial. Akan tetapi, belum banyak studi yang melihat fenomena ini sebagai bentuk resistensi penyintas, khususnya melalui pewacanaan diskursus tandingan dengan menggunakan metode analisis wacana kritis. Penelitian ini berargumen bahwa pengungkapan kasus kekerasan seksual di Twitter merupakan bentuk resistensi penyintas dan terwujud melalui diskursus tandingan yang memicu dialog publik mengenai kekerasan seksual. Diskursus tandingan penyintas beroperasi dalam online counterpublics, yaitu arena diskursif berbasis teknologi internet di mana kelompok marjinal mampu mengontestasikan eksklusi mereka dari ruang publik. Temuan penelitian menunjukkan diskursus tandingan penyintas terlihat dalam teks yang merebut kembali narasi kekerasan seksual dari perspektif penyintas, menggambarkan bentuk kekerasan yang beragam, serta memberikan sanksi sosial kepada pelaku. Proses produksi teks utas juga merepresentasikan resistensi penyintas sebagai aktor yang aktif dalam proses pengambilan keputusan. Meskipun begitu, terdapat kontestasi antara diskursus tandingan penyintas dengan diskursus dominan yang mereproduksi nilai-nilai rape culture di arena diskursif yang sama. Resistensi penyintas juga diinterpretasi secara berbeda-beda oleh publik sehingga arena diskursif yang ada tidak menjadi ruang aman bagi penyintas untuk bersuara. Oleh karena itu, pengungkapan kasus kekerasan seksual melalui Twitter tidak menjadi jalur alternatif yang ideal bagi penyintas untuk mendapatkan keadilan di tengah konteks sosiokultural Indonesia yang masih melanggengkan kekerasan seksual.

This study aims to explain how sexual assault disclosure on Twitter is a form of sexual violence survivors’ resistance in Indonesia. Previous studies on sexual assault disclosure mainly discussed two kinds of disclosure, which are direct or offline disclosure and disclosure through social media or online disclosure. However, there is little to no studies which analyzed the phenomenon as sexual violence survivors’ resistance through the construction of counter discourse, specifically using critical discourse analysis (CDA). This study argues that sexual assault disclosure on Twitter is a form survivors’ resistance which further manifested through counter discourse that encourages public discussion on sexual violence. Survivors’ counter discourse operates through online counterpublics, which is a discursive arena facilitated by the internet in which marginalized group contested their exclusion from the public sphere. The findings of this study show that survivors’ counter discourse can be seen through texts which reclaim sexual assault narrative, depict various sexual violence forms, and give social punishment to the perpetrators. The text production process also represents survivors’ resistance as an active actor in the decision-making process. However, there is a contestation between survivors’ counter discourse and the dominant discourse which reproduces rape culture values in the same discursive arena. Survivors’ resistance is also interpreted in different ways by the public, emphasizing how the discursive arena is not a safe space for survivors to speak up. Therefore, the sexual assault disclosure through Twitter is not an ideal alternative route for survivors to seek justice in the midst of Indonesia's sociocultural context which still perpetuates sexual violence"
Lengkap +
Depok: Fakultas Ilmu Sosial dan Ilmu Politik Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nur Indah Pratiwi
"Saat ini pengguna media sosial semakin kreatif dalam menyampaikan ujaran kebencian. Untuk menghindari peraturan kebijakan di media sosial, pengguna menggunakan kode untuk berinteraksi satu sama lain. Kode tersebut merupakan istilah atau julukan berisi kebencian yang ditargetkan pada suatu pihak untuk menyampaikan ujaran kebencian. Penelitian ini bertujuan untuk menggunakan kode kebencian dalam mengidentifikasi ujaran kebencian pada media sosial. Penelitian ini menggunakan twit berbahasa Indonesia serta menggunakan metode Logistic Regression, Support Vector Machine, Naïve Bayes, dan Random Forest Decision Tree. Hasil penelitian menunjukkan bahwa fitur kode
kebencian (hate-code HC) yang diusulkan, dapat digunakan sebagai fitur untuk identifikasi
ujaran kebencian. Jika tanpa fitur kode kebencian, F-Measure menghasilkan tidak lebih dari 55%. Namun, performa meningkat jika menggunakan fitur kode kebencian dengan hasil F-Measure sebesar 80.71% yang dikombinasikan dengan metode Logistic Regression Nowadays social media users are increasingly creative in expressing hate speech.

To avoid policy regulations on social media, users use code to interact with each other. The code is a term or nickname containing hatred that is targeted at a individual or groups to convey the utterance of hate. This study aims to use hate codes in identifying hate speech on social media. This study uses twit in Indonesian and uses the Logistic Regression, Support Vector Machine, Naïve Bayes, and Random Forest Decision Tree. The results show the hate code features (HC) that proposed can be used as a feature to identify hate speech. If without the hate code feature, F Measure generates nomore than 55%. However, performance increases if using this feature, with the result of F-Measure of 80.71%
combined with Logistic Regression method.
"
Lengkap +
Depok: Fakultas Komputer Universitas Indonesia, 2019
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Kwee Felicia Ilona
"Kejadian banjir ekstrem diperkirakan semakin sering terjadi seiring dengan perubahan iklim yang belum menunjukkan tanda-tanda perbaikan. Hal ini berpotensi menyebabkan curah hujan yang lebih tinggi dari rata-rata dan laju kenaikan genangan banjir yang lebih cepat dari biasanya. Ketidaktahuan bahwa suatu daerah tergenang banjir juga bisa mengakibatkan kendaraan terjebak di daerah banjir, kemacetan lalu lintas, serta terlambatnya evakuasi warga terutama yang tinggal di daerah rawan banjir. Penelitian ini bertujuan memberikan alternatif sumber informasi mengenai ketinggian genangan banjir dengan memanfaatkan data teks dari tweet pada media sosial Twitter. Salah satu tantangannya yaitu bahwa ketinggian genangan tidak selalu disebutkan dalam standar satuan internasional seperti centimeter atau meter sehingga machine learning digunakan untuk mengatasinya. Penyebutan ketinggian genangan didapati bisa menggunakan referensi bagian tubuh seperti lutut dan pinggang, serta juga bagian kendaraan atau kondisi jalan. Model yang diusulkan memberikan dua keluaran, yaitu kategori relevansi tweet terhadap informasi ketinggian banjir (Relevan atau Tidak Relevan) dan kategori ketinggian banjir (Tinggi, Sedang, Rendah, dan Tidak Diketahui). Algoritma klasifikasi yang digunakan yaitu SVM (Linear SVC dan RBF), Logistic Regression, Random Forest, Decision Tree, dan Naïve Bayes. Hasil uji coba menunjukkan bahwa nilai akurasi tertinggi untuk klasifikasi relevansi tweet adalah 91% dan F1-score tertinggi sebesar 82% diperoleh dengan menggunakan algoritma SVM Linear SVC. Sedangkan hasil klasifikasi ketinggian genangan terbaik diperoleh saat menggunakan SVM Linear SVC dengan akurasi 83% dan rata-rata F1-score 70%.

Extreme flood events are expected to occur more frequently as climate change has yet to show signs of improvement. This has the potential to lead to higher rainfall and floods that come more quickly. This has the potential for vehicle trapping, traffic jams, or delay in evacuation for people who live in areas which are prone to flooding. Hence, this study aims to provide an alternative source of information in flood conditions by using data in social media Twitter. One of the challenges was information about inundation level is not always in international standard unit like centimeter or meter so that machine learning was used to cope with this problem. Mention of inundation level was found to be done by also referring to certain body parts like knee and waist, and also parts of vehicles or road condition. The proposed model is expected to provide two outputs, which are relevance category of tweet (Relevant or Irrelevant) and inundation level category (High, Medium, Low, Unknown). Some classifier algorithms were used, like SVM (Linear SVC and RBF), Logistic Regression, Random Forest, Decision Tree, and Naïve Bayes. The test results showed that the best relevance classification resulted in 91% accuracy (SVM Linear SVC) and 82% average F1-score by using SVM Linear SVC. On the other side, the best result of classification of inundation level was obtained when using SVM Linear SVC which resulted in 83% accuracy and 70% average F1- score."
Lengkap +
2021
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Tansa Trisna Astono Putri
"ABSTRAK
Kebebasan berpendapat melalui media sosial untuk mengungkapkan pikiran, pendapat dan tanggapan terhadap suatu topik tertentu menimbulkan dampak negatif berupa konten yang menebarkan kebencian. Penelitian ini bertujuan untuk melakukan deteksi sebuah informasi yang merupakan ujaran kebencian di media sosial Twitter. Data yang digunakan berjumlah 4.002 data sentimen terkait topik politik, agama, suku dan ras di Indonesia. Pada pembangunan model, penelitian ini menggunakan metode klasifikasi sentimen dengan algoritma machine learning seperti Na ve Bayes, Multi Level Perceptron, AdaBoost Classifier, Random Forest Decision Tree dan Support Vector Machine SVM . Di samping itu, penelitian ini juga melakukan perbandingan performa model dengan menggunakan unigram, bigram dan unigram-bigram dalam proses fitur ekstraksi dan penggunaan SMOTE untuk mengatasi imbalanced data. Evaluasi dari percobaan yang dilakukan menunjukkan bahwa algoritma AdaBoost menghasilkan model terbaik dengan nilai recall tertinggi yaitu 99.5 yang memiliki nilai akurasi sebesar 70.0 dan nilai F1-score sebesar 82.2 untuk klasifikasi ujaran kebencian apabila menggunakan bigram.

ABSTRACT
Freedom of expression through social media to express idea, opinion and view about current topic causes negative impact as the rise of hateful content. This study aims to detect a hate speech information through Twitter. Dataset of this study consists of 4.002 sentiment data related to politic, race, religion and clan topic. The model development of this study conducted by sentiment classification method with machine learning algorithm such as Na ve Bayes, Multi Level Perceptron, AdaBoost Classifier, Random Forest Decision Tree and Support Vector Machine SVM . We also conduct a comparison of model performance that used unigram, bigram, unigram bigram feature and SMOTE to handle imbalanced data. Evaluation of this study showed that AdaBoost algorithm resulted the best classification model with the highest recall model which was 99.5 , accuracy score as much as 70.0 and F1 score 82.2 to classify hate speech when using bigram features."
Lengkap +
2018
TA-Pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Ajeng Dwi Asti
"Ujaran kebencian dapat menyebabkan terjadinya konflik dan pembantaian di masyarakat sehingga harus segera ditangani. Indonesia memiliki lebih dari 700 bahasa daerah dengan karakteristik masing-masing. Ujaran kebencian yang ada di Indonesia juga pernah dilakukan menggunakan bahasa daerah. Media sosial Twitter paling sering digunakan dalam menyebarkan ujaran kebencian. Identifikasi target, kategori, serta level ujaran kebencian dapat membantu Polri dan Kemenkominfo dalam menentukan prioritas penanganan ujaran kebencian sehingga dapat meminimalisir dampaknya. Penelitian ini melakukan identifikasi ujaran kasar dan ujaran kebencian beserta target, kategori, dan level ujaran kebencian pada data Twitter berbahasa daerah menggunakan algoritma classical machine learning dan deep learning. Penelitian ini menggunakan data lima bahasa daerah di Indonesia dengan penutur terbanyak yaitu Jawa, Sunda, Madura, Minang, dan Musi. Pada data Bahasa Jawa performa terbaik diperoleh menggunakan algoritma Support Vector Machine (SVM) dengan transformasi data Classifier Chains (CC) serta kombinasi fitur word unigram, bigram, dan trigram dengan F1-score 70,43%. Algoritma SVM dengan transformasi data CC serta kombinasi fitur word unigram dan bigram memberikan performa terbaik pada data Bahasa Sunda dan Madura dengan masing-masing F1-score 68,79% dan 78,81%. Sementara itu, pada data Bahasa Minang dan Musi hasil terbaik diperoleh menggunakan algoritma SVM dengan transformasi data CC serta fitur word unigram dengan F1-score 83,57% dan 80,72%. Penelitian ini diharapkan dapat digunakan sebagai masukan bagi Polri dan Kemenkominfo dalam pembangunan sistem identifikasi ujaran kasar, ujaran kebencian serta target, kategori, dan level ujaran kebencian pada media sosial.

Hate speech can lead to conflict and massacres in society so it must be dealt immediately. Indonesia has more than 700 regional languages with their own characteristics. Hate speech in Indonesia has also been carried out using regional languages. Twitter is the most frequently used social media to spread hate speech. Identification of targets, categories, and levels of hate speech can help the National Police and the Ministry of Communication and Information to determine priorities for handling hate speech to minimize its impact. This study identifies abusive speech and hate speech along with the target, category, and level of hate speech on regional language Twitter data using classical machine learning and deep learning algorithms. This study uses data from five regional languages in Indonesia with the most speakers, namely Javanese, Sundanese, Madurese, Minang, and Musi. In Java language data, the best performance is obtained using the Support Vector Machine (SVM) algorithm with Classifier Chains (CC) data transformation and a combination of unigram, bigram, and trigram word features with an F1-score of 70.43%. The SVM algorithm with CC data transformation and the combination of unigram and bigram word features provides the best performance on Sundanese and Madurese data with F1-scores of 68.79% and 78.81%, respectively. Meanwhile, in Minang and Musi language data, the best results were obtained using the SVM algorithm with CC data transformation and word unigram features with F1-scores of 83.57% and 80.72%, respectively. This research is expected to be used as input for the National Police and the Ministry of Communication and Information in developing a system for identifying harsh speech, hate speech and the target, category, and level of hate speech on social media."
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Nabila Khansa
"Ujaran kebencian dan bahasa kasar mempermudah penyebaran kekerasan di kehidupan nyata, sehingga muncul urgensi adanya pendeteksian secara otomatis. Untuk melanjutkan pekerjaan yang sudah dilakukan oleh Ibrohim dan Budi (2019), penelitian ini membahas dua isu terkait deteksi ujaran kebencian dan bahasa kasar pada mikroblog berbahasa Indonesia. Isu pertama adalah kajian terkait effect size fitur dan pengembangan model menggunakan fitur-fitur tersebut. Metode Analysis of Variance f-test, Logistic Regression Analysis, dan nilai Shapley digunakan untuk melakukan kajian effect size pada fitur-fitur yang dirancang secara manual. Kemudian, digunakan beberapa algoritma pemelajaran mesin untuk mengembangkan model prediksi berbasis fitur-fitur tersebut. Isu kedua adalah kajian bias dalam pengembangan model terkait keberadaan kata-kata bersifat netral pada data yang merupakan ujaran kebencian atau bahasa kasar. Kajian terkait bias dilakukan dengan menggunakan dataset uji bias. Dataset ini dikembangkan dengan menggantikan kata-kata yang dideteksi memiliki potensi adanya bias pada model yang dilatih menggunakan dataset hasil pekerjaan Ibrohim dan Budi (2019). Penelitian ini menunjukkan bahwa keberadaan kata-kata tertentu berpengaruh terhadap hasil deteksi ujaran kebencian dan bahasa kasar. Di antara kata-kata tersebut, terdeteksi beberapa kata-kata yang berpotensi bias, karena memiliki pengaruh terhadap pendeteksian padahal secara sendiri kata-kata yang dideteksi sebagai potensi bias tidak memiliki unsur kebencian atau bersifat kasar. Hasil evaluasi pengambilan sampel bootstrap menunjukkan Logistic Regression dan XGBoost sebagai model dengan akurasi terbaik dalam pendeteksian ujaran kebencian dan bahasa kasar. Namun, ketika model yang sudah dikembangkan digunakan untuk memprediksi dataset sintetis, didapatkan penurunan akurasi dalam pendeteksian ujaran kebencian. Hasil ini menandakan adanya bias pada model yang dikembangkan. Hasil tersebut didukung juga oleh hasil prediksi dengan akurasi rendah ketika model digunakan untuk melakukan pendeteksian ujaran kebencian pada dataset yang dikembangkan secara manual, tetapi ketika kata-kata bias digantikan dari data, akurasi model meningkat. Kontribusi yang diberikan oleh penelitian ini adalah pengembangan dataset uji bias secara otomatis dari dataset yang dikembangkan oleh Ibrohim dan Budi (2019) dan juga dataset uji bias yang dikembangkan secara manual.

Hate speech and abusive language facilitate the spread of violence in real life, hence the urgency of automatic detection. To continue the work done by Ibrohim dan Budi (2019), this research addresses two issues related to the detection of hate speech and abusive language on Indonesian-language microblogs. The first issue is a study on the effect size of features and the development of models using these features. Analysis of Variance f-test, Logistic Regression Analysis, and Shapley values are used to investigate the effect size of manually designed features. Several machine learning algorithms are then employed to develop prediction models based on these features. The second issue involves studying bias in model development concerning the presence of neutral words in data that constitute hate speech or abusive language. The study related to bias is conducted by using a bias test dataset. This dataset is developed by replacing words that are detected to have the potential for bias in models trained using the dataset resulting from the work of Ibrohim dan Budi (2019). This research demonstrates that certain words significantly influence the detection of hate speech and abusive language. Among these words, some are identified as potentially biased, as they affect detection despite not inherently containing hate or abusive elements. The results of bootstrap sampling evaluation indicate that Logistic Regression and XGBoost are the models with the highest accuracy in detecting hate speech and abusive language. However, when the developed models are used to predict synthetic datasets, a significant decrease in accuracy is observed in hate speech detection. This finding indicates the presence of bias in the developed models. This result is further supported by low-accuracy predictions when the models are used to detect hate speech in manually developed datasets. However, when biased words are replaced in the data, the model’s accuracy significantly improves. The contributions of this research include the development of an automatically generated bias test dataset from the dataset created by Ibrohim dan Budi (2019), as well as a manually developed bias test dataset."
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Martono Kalapadang
"Kasus ujaran kebencian di media sosial Indonesia tidak sedikit. Penelitian ini akan mengkaji salah satu kasus ujaran kebencian yang terjadi di tahun 2022, yaitu kasus yang menimpa EM. Pada saat karya ilmiah ini ditulis, kasus ini sudah naik ke tahap persidangan di pengadilan. EM didakwa menyatakan ujaran kebencian terhadap masyarakat yang ada di Kalimantan dengan frasa "tempat jin buang anak". Jenis kajian penelitian adalah deskriptif kualitatif. Objek penelitian ini bersumber dari YouTube yang dikelola oleh EM sendiri. Penelitian ini untuk mengungkapkan apakah ujaran EM “tempat jin buang anak” dapat dikategorikan sebagai ujaran kebencian atau tidak berdasarkan Pasal 156 KUHP dan Pasal 45A ayat (2) dalam UU RI No. 19 Tahun 2016 tentang Perubahan atas UU No. 11 Tahun 2008 tentang ITE. Peneliti menggunakan teori tindak tutur, konteks pertuturan, dan analisis wacana untuk membuktikan ujaran EM tersebut. Berdasarkan analisis tindak tutur, konteks pertuturan, dan analisis wacana, EM dapat dinyatakan melakukan ujaran kebencian berdasarkan Pasal 156 KUHP karena memenuhi semua unsur yang dipaparkan dalam undang-undang tersebut. Namun, EM tidak dapat dinyatakan melakukan ujaran kebencian berdasarkan Pasal 45A ayat (2) dalam UU RI No. 19 Tahun 2016 tentang Perubahan atas UU No. 11 Tahun 2008 tentang ITE karena salah satu unsur wajib tidak memenuhi. Unsur yang tidak memenuhi tersebut adalah semua pernyataan EM tidak ditujukan untuk menimbulkan rasa kebencian kepada masyarakat Kalimantan. Selain itu, pernyataan EM juga tidak ditujukan untuk menimbulkan permusuhan kepada masyarakat Kalimantan.

There are many cases of hate speech on Indonesian social media. This study will examine one of the cases of hate speech that occurred in 2022, namely the case that befell EM. At the time this scientific paper was written, this case had already reached the stage of trial in court. EM was charged with expressing hatred towards the people in Kalimantan with the phrase "tempat jin buang anak". The type of research study is descriptive qualitative. The object of this research is sourced from YouTube which is managed by EM himself. This research is to reveal whether the EM utterance “tempat jin buang anak” can be categorized as hate speech or not based on Pasal and Pasal 45A ayat (2) dalam UU RI No. 19 Tahun 2016 tentang Perubahan atas UU No. 11 Tahun 2008 tentang ITE. The researcher uses speech act theory, context of speech, and discourse analysis to prove the EM utterances. Based on the analysis of speech acts, context of speech, and analysis of discourse, EM can be declared to have committed hate speech in Pasal 156 KUHP because it fulfills all the elements described in the 2 law. However, EM cannot be declared to have committed hate speech on Pasal 45A ayat (2) dalam UU RI No. 19 Tahun 2016 tentang Perubahan atas UU No. 11 Tahun 2008 tentang ITE because one of the mandatory elements does not fulfill. The element that does not fulfill this is that all of EM's statements are not intended to cause hatred for the people of Kalimantan. In addition, all of EM's statements are also not intended to cause hostility to the people of Kalimantan.
"
Lengkap +
Depok: Fakultas Ilmu Pengetahuan dan Budaya Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>