Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 230896 dokumen yang sesuai dengan query
cover
Mega Oktafiani Putri
"Media sosial telah menjadi fenomena dunia, lebih dari 80% pengguna Internet adalah penguna media sosial. Ketika terjadi sebuah bencana, kebutuhan informasi akan meningkat. Twitter merupakan salah satu sumber informasi populer terutama di Indonesia yang tercatat sebagai negara pengguna twitter terbanyak di asia. Oleh karena itu dibutuhkan sebuah sistem yang dapat mengekstraksi informasi dari media sosial. Penelitian ini menawarkan sebuah sistem yang dapat mendeteksi topik pada media sosial twitter dengan merepresentasikan konten media sosial twitter ke graph jaringan kompleks menggunakan pengimplentasian metode pembentukan graph (pengolahan bahasa natural dan konsep graph) dan metrik pengkukur jaringan kompleks sebagai acuan analisa.
Sistem analisa media sosial pada penelitian ini terdiri dari 3 buah subsistem yaitu crawler dengan mengunakan perangkat lunak the archvist, graph converter berupa perangkat lunak Textttogexf untuk Bahasa Indonesia yang diimplementasikan pada bahasa pemrograman Ruby berdasarkan perangkat lunak Textttogexf untuk Bahasa Jepang, dan perangkat lunak untuk memvisualisasikan graph (gephi dan gvedit). Berdasarkan hasil pengujian, metode pembobotan yang paling baik untuk media sosial twitter adalah pembobotan RIDF dan pendefinisian dokumen berdasarkan kategori (persentase keberhasilan: 89%). Pada penelitian ini, topik umum mengenai pilkada 2012 dan 13 sub topik berhasil diekstraksi dari set data banjir Jakarta.

Social media had become worldwide phenomena. More than 80% of Internet?s users are social media?s users. When a disaster occurred, information needs will rise. Twitter is one of popular information resource especially in Indonesia. Because of that, twitter?s information extraction system was needed. This research proposes a system that can detect topic in social media twitter by representing its content as a complex network graph using the implementation of natural language processing, graph concept, and complex network analysis.
This system consists of 3 subsystems which are crawler, graph converter, and application for graph visualization. The Graph visualization is done using Gephi and Graphviz. From testing result, we reach 89% success rate of keyword extraction using RIDF term weighting method and collecting messages by certain category. General topic about governor election and 13 subtopics was successfully extracted from set data flood in Jakarta.
"
Depok: Fakultas Teknik Universitas Indonesia, 2012
S42095
UI - Skripsi Open  Universitas Indonesia Library
cover
Aditya Tejabaswara
"Pesatnya perkembangan teknologi disertai dengan tingkat penggunaannya membawa dampak positif di berbagai bidang kehidupan manusia, namun juga dapat membawa dampak negatif jika tidak didukung dengan tanggung jawab pengguna teknologi itu sendiri. Bidang telekomunikasi adalah salah satu bidang yang perkembangannya sangat dirasakan oleh manusia. Salah satu dari perkembangan telekomunikasi adalah lahirnya media sosial. Manusia menggunakan media sosial untuk berbagi informasi apapun kepada siapapun. Namun yang menjadi masalah kemudian adalah apakah informasi yang tersebar merupakan informasi yang nilai kebenarannya telah teruji atau hanya sebuah rumor. Rumor dapat saja mengakibatkan tersebarnya informasi yang salah di suatu golongan atau komunitas manusia.
Adapun topik yang terkait pada tugas akhir ini adalah siak-ng yang menjadi trending topic di media sosial twitter. l. Mengidentifikasi rumor pada media sosial online sangat krusial nilainya karena mudahnya informasi yang disebar oleh sumber yang tidak jelas.
Pada tugas akhir ini akan ditunjukkan salah satu cara pengidentifikasian rumor dengan menggunakan kalkulasi graph edit distance. Graph edit distance merupakan salah satu langkah yang paling cocok untuk menentukan persamaan antar grafik dan pengenalan pola jaringan kompleks. Untuk mencapai tujuan akhir, langkahlangkah yang dilakukan adalah pengambilan data, konversi data, pengolahan data, dan visualisasi. Dengan pengolahan data didapat Sembilan padanan kata antara Parent Node dan Child Node serta 3 kategori edge label. Pada akhirnya ditemukan bahwa rumor sistem siak-ng sedang mengalami load tinggi merupakan rumor yang nilai kebenarannya tinggi.

Rapid development of technology coupled with the utilizing bring positive impact in many areas of human life, but also have negative impacts if not supported with the responsibility of the users. Telecommunications is one area in which development is perceived by humans. One of the development of telecommunications is social media established.Humans use social media to share any information with anyone. However, the issue then is whether the spread of information is information whose truth value has been tested or just a rumor. Rumors will lead to the spread of false information in a group or people's community.
The topics related to this thesis is the SIAK-NG become trending topic on social media Twitter. Identifying online rumors on social media is crucial value because of the information ease spread by unverified sources.
At the end of this assignment will be demonstrated one way of identifying the rumor by using graph edit distance calculations. Graph edit distance is one of the most appropriate steps to determine the similarities between graphs and pattern recognition of complex networks. To achieve the ultimate goal, the steps taken are data retrieval, data conversion, data processing, and visualization. By data processing obtain nine words comparison between Parent node and Child Node with three edge label category. Finally, the tweet that said the system has high range of load was the true rumor.
"
Depok: Fakultas Teknik Universitas Indonesia, 2012
S42944
UI - Skripsi Open  Universitas Indonesia Library
cover
Anindito Izdihardian Wibisono
"Pada tahun 2020, nilai customer satisfaction index (CSI) PT XYZ yang mempresentasikan kepuasan konsumen XYZ berjumlah 83.9. Angka ini gagal mencapai target PT XYZ di tahun tersebut yaitu 87, dan turun dari tahun sebelumnya yaitu 86,5 di tahun 2019. Berdasarkan pengambilan data, diketahui bahwa XYZ mengelola aduan konsumen hanya melalui Twitter. Dari ribuan tweet yang diterima akun resmi customer care PT XYZ (@XYZCares) tiap bulan di Twitter, diperkirakan hanya 1-2% yang dideteksi sebagai aduan dengan proses pengawasan manual. Penelitian ini merancang solusi dua langkah berupa implementasi social media listening dalam bentuk sentiment analysis dan topic modelling, untuk mengetahui isu dalam tweet aduan kepada XYZ. Dataset berupa kumpulan tweet yang menyebutkan @XYZCares pada kurun waktu 1 Januari 2020 - 31 Desember 2020. Data di-scrape dari Twitter menggunakan script Python. Hasil evaluasi secara cross-validation menunjukkan akurasi rerata sentiment analysis dengan algoritme SVM lebih akurat (77%) untuk kasus ini dibandingkan algoritme RF (75%). Untuk task pemodelan topik, algoritme LDA menghasilkan klaster topik sejumlah 4 dengan rerata TPC sebesar 80%. Diketahui bahwa topik yang dominan adalah isu korupsi dan suap di badan PT XYZ. Dengan mempertimbangkan penemuan tersebut, saran yang dapat diberikan berdasarkan penelitian ini adalah memberhentikan staf yang diduga terlibat dalam isu-isu tersebut, serta menerapkan good corporate governance berupa aspek pengawasan dan pencegahan korupsi.

The customer satisfaction index (CSI) for the year 2020 is calculated at 83.9. This value fails to reach the company’s target for the year at 87 and is lower than the CSI value for 2019 at 86.5. Data acquired from the company shows that consumer complaints are accepted and processed only through Twitter. It is estimated that of the thousands of tweets processed by PT XYZ’s official customer care account (@XYZCares) each month, only 1-2% of the tweets are considered complaints based on manual searching and classification. This research proposes a two-step solution by implementing social media listening in the form of sentiment analysis and topic modelling, to detect the most frequent issues addressed to XYZ. The dataset consists of tweets created from January 1st, 2020, to December 31st, 2020 which mentioned @XYZCares. The tweets were scraped from Twitter using Python scripts. The results of cross-validation show that for the task of sentiment analysis, SVM is a more accurate algorithm on average (77%) compared to Random Forest (75%). For the following task of topic modelling, the LDA algorithm model produced 4 topic clusters with an average TPC of 80%. The most dominant topic detected relate to allegations of bribery and corruption within PT XYZ. Taking these finds into consideration, this research suggests that PT XYZ immediately dismiss all staff implicated in the aforementioned cases, as well as implementing good corporate governance in the form of tighter supervision and prevention of corrupt dealings."
Depok: Fakultas Ilmu Komputer Universita Indonesia, 2021
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Anindito Izdihardian Wibisono
"Pada tahun 2020, nilai customer satisfaction index (CSI) PT XYZ yang mempresentasi- kan kepuasan konsumen XYZ berjumlah 83.9. Angka ini gagal mencapai target PT XYZ di tahun tersebut yaitu 87, dan turun dari tahun sebelumnya yaitu 86,5 di tahun 2019. Berdasarkan pengambilan data, diketahui bahwa XYZ mengelola aduan konsumen hanya melalui Twitter. Dari ribuan tweet yang diterima akun resmi customer care PT XYZ (@XYZCares) tiap bulan di Twitter, diperkirakan hanya 1-2% yang dideteksi sebagai aduan dengan proses pengawasan manual. Penelitian ini merancang solusi dua langkah berupa implementasi social media listening dalam bentuk sentiment analysis dan topic modelling, untuk mengetahui isu dalam tweet aduan kepada XYZ. Dataset berupa kum- pulan tweet yang menyebutkan @XYZCares pada kurun waktu 1 Januari 2020 - 31 Desember 2020. Data di-scrape dari Twitter menggunakan script Python. Hasil evaluasi secara cross-validation menunjukkan akurasi rerata sentiment analysis dengan algoritme SVM lebih akurat (77%) untuk kasus ini dibandingkan algoritme RF (75%). Untuk task pemodelan topik, algoritme LDA menghasilkan klaster topik sejumlah 4 dengan rerata TPC sebesar 80%. Diketahui bahwa topik yang dominan adalah isu korupsi dan suap di badan PT XYZ. Dengan mempertimbangkan penemuan tersebut, saran yang dapat diberi- kan berdasarkan penelitian ini adalah memberhentikan staf yang diduga terlibat dalam isu-isu tersebut, serta menerapkan good corporate governance berupa aspek pengawasan dan pencegahan korupsi.

The customer satisfaction index (CSI) for the year 2020 is calculated at 83.9. This value fails to reach the company’s target for the year at 87 and is lower than the CSI value for 2019 at 86.5. Data acquired from the company shows that consumer complaints are ac- cepted and processed only through Twitter. It is estimated that of the thousands of tweets processed by PT XYZ’s official customer care account (@XYZCares) each month, only 1-2% of the tweets are considered complaints based on manual searching and classifica- tion. This research proposes a two-step solution by implementing social media listening in the form of sentiment analysis and topic modelling, to detect the most frequent issues addressed to XYZ. The dataset consists of tweets created from January 1st, 2020, to De- cember 31st, 2020 which mentioned @XYZCares. The tweets were scraped from Twitter using Python scripts. The results of cross-validation show that for the task of sentiment analysis, SVM is a more accurate algorithm on average (77%) compared to Random For- est (75%). For the following task of topic modelling, the LDA algorithm model produced 4 topic clusters with an average TPC of 80%. The most dominant topic detected relate to allegations of bribery and corruption within PT XYZ. Taking these finds into considera- tion, this research suggests that PT XYZ immediately dismiss all staff implicated in the aforementioned cases, as well as implementing good corporate governance in the form of tighter supervision and prevention of corrupt dealings."
Jakarta: Fakultas Ilmu Komputer Universitas Indonesia, 2021
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Angga Pratama
"ABSTRAK
Perkembangan teknologi khususnya internet berkembang begitu pesat dewasa ini. Oleh karena itu, arus informasi meningkat begitu cepat yang menyebabkan informasi diperoleh sangat banyak. Media sosial pun menjadi salah satu sarana penyedia informasi, salah satunya adalah Twitter. Pendeteksian topik menjadi suatu kebutuhan bagi masyarakat untuk mengetahui hal-hal yang bicarakan pada waktu tertentu. Maka, dibutuhkan suatu cara yang cepat dan tepat untuk mendapatkan topik dari tweet yang terkirim pada Twitter. Dengan jumlah dokumen yang sangat besar, diperlukan suatu metode otomatis. Salah satu metode otomatis untuk pendeteksian topik adalah model yang berbasis faktorisasi matriks yaitu Non-negative Matrix Factorization (NMF). Metode NMF yang digunakan pada penelitian ini difokuskan pada wilayah Jakarta dan sekitarnya guna melihat topik yang dibahas masyarakat Jakarta dan sekitarnya pada kurun waktu tertentu. Hasil yang didapatkan lewat metode NMF ini selanjutnya akan dievaluasi dengan cara melihat tingkat akurasi yang dihasilkan lalu disimulasikan dalam bentuk tren berdasarkan frekuensi masing-masing topik.

ABSTRACT
Development of technology spesifically in internet grows so fast nowadays. Therefore, flow of information increase rapidly that leads information to be obtained so much. Social media become the one information provider, such as Twitter. Topic detection become a public society to know the things that being discussed at a certain time. Hence, needed a quick and precise method to obatain topic from tweet posted from twitter. With large amount of document, needed an automaticly method. One of automaticly method that based on matrix factorization is Non-negative Matrix Factorization as usually being called as NMF. Non-negative matrix factorization method on this research focused on region of Jakarta in order to know what are being discussed by society there in a period of time. The result have been obtain with NMF method will be evaluated by calculating the accuracy and finally will be simulated in the form of trend plot based on the frequency of the topic."
2016
S65611
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dwie Putri Donnaro
"Masyarakat Indonesia sangat sering menggunakan media sosial twitter dan sekarang lebih dikenal dengan X untuk berbagi foto, video atau membuat tweet tentang topic yang sedang trend. Namun tidak banyak dari masyarakat Indonesia yang memanfaatkan trending topic ini untuk membuat konten dalam memasarkan produk barunya. Pada penelitian ini telah dilakukan pengelompokkan trending topic dengan menggunakan 3 algoritma clustering yaitu K-Means, DBScan dan LDA dengan menggunakan 2 kondisi yaitu Menggunakan Kata Kunci dan Tanpa Menggnakan kata Kunci, untuk kategori cluster telah ditentukan yaitu Cluster Politik, Cluster Ekonomi dan Cluster Pendidikan. Hasil penelitian ini adalah K-Means dengan menggunakan kata kunci lebih baik dari pada semuanya yaitu dengan nilai validitas 0,5810 sedangkan diposisi kedua yang termasuk baik adalah DBScan menggunakan kata kunci dengan nilai validitas 0,4656. Oleh karena itu karena hasilnya masih dalam tingkatan 2 yaitu struktur cluster masih dalam kategori baik, maka peneliti melakukan kombinasi antara K-Means dan DBScan dengan menggunakan kata kunci. Dan hasilnya struktur yang terbentuk masuk dalam tingkatan 1 yaitu dalam kategori kuat, nilai validitas yang dihasilkan yaitu 0,7864, sehingga antar trending topic dalam masing-masing cluster memiliki keterkaitan.

Indonesians very often use social media twitter and now better known as X to share photos, videos or make tweets about trending topics. However, not many Indonesians utilize this trending topic to create content to market their new products. In this study, clustering of trending topics has been carried out using 3 clustering algorithms namely K-Means, DBScan and LDA using 2 conditions namely Using Keywords and Without Using Keywords, for cluster categories have been determined namely Political Cluster, Economic Cluster and Education Cluster. The results of this study are K-Means using keywords is better than all of them with a validity value of 0.5810 while in second place which is good is DBScan using keywords with a validity value of 0.4656. Therefore, because the results are still in level 2, namely the cluster structure is still in the good category, the researchers conducted a combination of K-Means and DBScan using keywords. And the result is that the structure formed is in level 1, which is in the strong category, the resulting validity value is 0.7864, so that between trending topics in each cluster have a relationship."
Depok: Fakultas Teknik Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Owen Susanto
"Dalam beberapa dekade terakhir, teknologi informasi berkembang dengan sangat pesat, hal ini juga diikuti dengan meningkatnya ancaman keamanan teknologi tersebut. Serangan siber seperti hacking, malware, dan pencurian data menjadi masalah yang serius dan merugikan bagi individu ataupun organisasi. Salah satu kelemahan yang sering digunakan untuk menyerang komputer adalah melalui jaringan. Maka, dibuat metode IDS (Intrusion Detection System) yang dapat membantu menjaga keamanan jaringan. Namun, IDS yang umum digunakan memiliki kelemahan dalam melihat pola dari kemiripan. Dari koneksi tersebut dapat dibangun pola antar koneksi sebagai tanda pengenal dini jenis koneksi. Koneksi-koneksi yang dilakukan ini secara natural akan membentuk pola yang saling berhubungan dimana ada sumber dan target koneksi. Maka, dapat digunakan bentuk Graph data, yang memiliki node (simpul) dan edges (sisi) sebagai penanda sumber (host) dan koneksi yang dilakukan. Untuk membantu melihat pola dari Graph data ini, diperlukan bantuan kemampuan machine learning yang dapat membangun model untuk melihat pola tersebut. Akan digunakan arsitektur GNN dan dataset AWID-2 untuk membangun model yang mampu mengelompokkan koneksi secara efisien. Setelah proses pembelajaran selesai, ditemukan bahwa model yang sudah dibangun tersebut memiliki akurasi 0,97, presisi 0,97 serta recall bernilai 0,97, dengan nilai F1 0,97.

In the last few decades, information technology has evolved very rapidly, which has also been accompanied by rising security threats. Cyber-attacks like hacking, malware, and data theft are serious problems and harmful to individuals or organizations. One of the weaknesses that is often used to attack computers is through a network. So, we created an IDS (Intrusion Detection System) method that can help keep the network safe. However, the commonly used IDS has weaknesses in seeing patterns of similarities. These connections will naturally form interrelated patterns where there is a source and a destination of the connection. So, you can use the data Graph form, which has nodes and edges as hosts and connections. To help see the pattern from this Graph data, you need the help of machine learning abilities that can build a model to see that pattern. It will use the GNN model architecture and the AWID-2 dataset to build a model that can efficiently group connections. After the learning process was completed, it was found that the built-in model had an accuracy of 0.97, a precision of 0.97 and a recall value of 0,97, with a value of F1 0.97."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yudho Prakoso
"Salah satu metode otomatis untuk analisis data tekstual adalah deteksi topik. Eigenspace-based Fuzzy C-Means EFCM adalah metode berbasis soft clustering untuk pendeteksian topik. Pertama, EFCM menggunakan dekomposisi nilai tunggal terpotong untuk mengubah data tekstual dimensi tinggi menjadi data berdimensi rendah. Selanjutnya, proses pengelompokan dilakukan dalam ruang dimensi yang lebih kecil. Namun, proses transformasi itu dapat menghilangkan beberapa fitur penting dari data tekstual. Karena itu, akurasi dapat berkurang.
Dalam penelitian ini digunakan kernel trick untuk mengatasi kelemahan tersebut sehingga proses clustering dapat dilakukan dalam ruang dimensi yang lebih tinggi. Simulasi menunjukkan bahwa pendekatan ini memberikan akurasi yang lebih baik dalam menemukan topik daripada EFCM untuk masalah mendeteksi topik di Twitter.

One of automated methods for textual data analysis is topic detection. Eigenspace based fuzzy c means EFCM is a soft clustering based method for topic detection. Firstly, EFCM use truncated singular value decomposition to transform high dimensional textual data to low dimensional data. Next, the clustering process is conducted in the smaller dimensional space. However, that transformation process may eliminate some important features from the textual data. Therefore, the accuracy may be reduced.
In this study used kernel trick to overcome that weakness so that the clustering process is performed in a higher dimensional space. Simulations show that this approach gives better accuracies in term of topic recall than EFCM for the problem of sensing trending topic in Twitter.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Praditya Nugraha
"Salah satu metode otomatis untuk analisis data tekstual adalah deteksi topik. Fuzzy C- Means di Ruang Eigen (EFCM) adalah metode berbasis soft clustering untuk pendetek- sian topik. Pada Algoritme EFCM adanya reduksi dimensi data awal menjadi lebih kecil. Namun, proses reduksi itu dapat menghilangkan beberapa fitur penting dari data tekstual. Sehingga, akurasi dapat berkurang. Dalam mengatasi hilangnya fitur penting digunakan bantuan Kernelisasi Fuzzy C-Means di Ruang Eigen sehingga proses clustering dapat di- lakukan dalam ruang dimensi yang lebih tinggi. Dalam penelitian ini akan dicek akurasi dari metode EFCM dan KEFCM dan perbandingannya dengan metode standar seperti Latent Dirichlet Allocation (LDA) dan Nonnegative Matrix Factorization (NMF) dalam masalah pendeteksian topik. Simulasi menunjukkan bahwa KEFCM memberikan akurasi yang lebih baik dalam menemukan topik daripada metode standar LDA dan EFCM namun tidak lebih baik dari NMF untuk masalah mendeteksi topik berita online di Twitter.

One of automated methods for textual data analysis is topic detection. Fuzzy C-Means in Eigenspace (EFCM) is a soft clustering-based method for topic detection. In, EFCM Algorithm there is a step to transform high dimensional textual data into lower dimensional data. However, that transformation process may eliminate some important features from the textual data. Therefore, the accuracy may be reduced. To overcome in losing important features Kernelized Fuzzy C-Means in Eigenspace (KEFCM) is needed, so that clustering process can be done in higher dimensional space. In this study the accuracy of EFCM and KEFCM will be evaluated and these methods will be compared by any standard method such as Latent Dirichlet Allocation (LDA) and Nonnegative Matrix Factorization (NMF) for topic detection problem. Simulations show that KEFCM gives better accuracy to find topics than LDA and EFCM method. However, these methods fail to give better results than NMF for the problem of sensing trending topic in online news in Twitter."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Julizar Isya Pandu Wangsa
"Pendeteksian topik merupakan suatu proses pengidentifikasian suatu tema sentral yang ada dalam kumpulan dokumen yang luas dan tidak terorganisir. Hal ini merupakan hal sederhana yang bisa dilakukan secara manual jika data yang ada hanya sedikit. Untuk data yang banyak dibutuhkan pengolahan yang tepat agar representasi topik dari setiap dokumen didapat dengan cepat dan akurat sehingga machine learning diperlukan. BERTopic adalah metode pemodelan topik yang memanfaatkan teknik clustering dengan menggunakan model pre-trained Bidirectional Encoder Representations from Transformers (BERT) untuk melakukan representasi teks dan Class based Term Frequency Invers Document Frequency (c-TF-IDF) untuk ekstraksi topik. Metode clustering yang digunakan pada penelitian ini adalah metode ­K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), dan Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). BERT dipilih sebagai metode representasi teks pada penelitian ini karena BERT merepresentasikan suatu kalimat berdasarkan sequence-of-word dan telah memperhatikan aspek kontekstual kata tersebut dalam kalimat. Hasil representasi teks merupakan vektor numerik dengan dimensi yang besar sehingga perlu dilakukan reduksi dimensi menggunakan Uniform Manifold Approximation and Projection (UMAP) sebelum clustering dilakukan. Model BERTopic dengan tiga metode clustering ini akan dianalisis kinerjanya berdasarkan matrik nilai coherence, diversity, dan quality score. Nilai quality score merupakan perkalian dari nilai coherence dengan nilai diversity. Hasil simulasi yang didapat adalah model BERTopic menggunakan metode clustering K-Means lebih unggul 2 dari 3 dataset untuk nilai quality score dari kedua metode clustering yang ada.

Topic detection is the process of identifying a central theme in a large, unorganized collection of documents. This is a simple thing that can be done manually if there is only a small amount of data. For large amounts of data, proper processing is needed to represent the topic of each document quickly and accurately, so machine learning is required. BERTopic is a topic modeling method that utilizes clustering techniques by using pre-trained Bidirectional Encoder Representations from Transformers (BERT) models to perform text representation and Class based Term Frequency Inverse Document Frequency (c-TF-IDF) for topic extraction. The clustering methods used in this research are the K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), and Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). BERT was chosen as the text representation method in this research because BERT represents a sentence based on sequence-of-words and has considered the contextual aspects of the word in the sentence. The result of text representation is a numeric vector with large dimensions, so it is necessary to reduce the dimensions using Uniform Manifold Approximation and Projection (UMAP) before clustering is done. The BERTopic model with three clustering methods will be analyzed for performance based on the matrix of coherence, diversity, and quality score values. The quality score value is the multiplication of the coherence value with the diversity value. The simulation results obtained are the BERTopic model using K-Means clustering method is superior to 2 of the 3 datasets for the quality score value of the two existing clustering methods."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>