Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 218197 dokumen yang sesuai dengan query
cover
Evan Haryowidyatna
"Per 9 Februari 2023, 87% dari total populasi kendaraan pribadi di Indonesia merupakan sepeda motor. Persebaran sepeda motor terpadat di Indonesia berada di Pulau Jawa dengan persentase sebesar 60%. Tingginya populasi sepeda motor dan fakta bahwa 80% rumah tangga di Pulau Jawa sudah memiliki sepeda motor membuat pasar sepeda motor semakin mengecil. Dalam jangka panjang, kondisi ini dapat berdampak buruk bagi industri sepeda motor yang terus ingin berkembang. Penelitian ini membahas tentang pengelompokan kabupaten dan kota di Pulau Jawa berdasarkan karakteristik demografinya. Kemudian, diberikan saran keputusan yang dapat dilakukan oleh industri sepeda motor berdasarkan kelompok kabupaten dan kota yang terbentuk menggunakan teknik clustering. Hal ini bertujuan agar produsen yang bergerak di industri sepeda motor dapat memfokuskan produknya pada kelompok kabupaten dan kota yang memiliki potensi terbaik. Terdapat 12 variabel demografi yang digunakan dalam penelitian ini, dan variabel tersebut terbagi menjadi tiga kategori: kondisi ekonomi masyarakat, kondisi kehidupan masyarakat, dan kondisi demografis daerah. Metode yang digunakan dalam penelitian ini adalah metode partitional hard clustering. Sebelumnya, dilakukan pembuatan dataset melalui proses data scrapping pada situs terpercaya, dan dilanjutkan dengan proses Exploratory Data Analysis (EDA) pada dataset. Setelah dataset terbentuk, dilakukan pengelompokan dengan metode partitional hard clustering yang terdiri dari metode K-Means Clustering dan metode K-Medoids Clustering. Kemudian, dilakukan evaluasi cluster untuk menentukan metode clustering yang paling sesuai dengan menggunakan empat metrik evaluasi yaitu Indeks Silhouette, Indeks Dunn, Indeks Davies Bouldin, dan Indeks Calinski Harabasz. Didapatkan hasil bahwa metode K-Medoids Clustering dengan 5 kelompok merupakan yang terbaik untuk mengelompokkan kabupaten dan kota di Pulau Jawa. Setelah kelompok terbentuk, setiap kelompok diberikan rekomendasi keputusan yang sebaiknya diambil oleh industri sepeda motor. Terdapat 4 rekomendasi yang dapat diberikan, yaitu distribusi suku cadang, pembuatan bengkel, penjualan sepeda motor kelas menengah ke atas, dan penjualan sepeda motor kelas menengah ke bawah.

As of February 9, 2023, 87% of the total population of private vehicles in Indonesia consists of motorcycles. The densest distribution of motorcycles in Indonesia is found on the Island of Java, with a percentage of 60%. The high population of motorcycles and the fact that 80% of households in Java already have motorcycles are causing the motorcycle market to shrink. In the long run, this condition can have negative impacts on the motorcycle industry that continues to seek growth. This research focuses on the clustering of regencies and cities in Java based on their demographic characteristics. Subsequently, decision recommendations will be provided for the motorcycle industry based on the formed groups using clustering techniques. The aim is to enable manufacturers in the motorcycle industry to focus their products on regencies and cities with the best potential. There are 12 demographic variables used in this research, divided into three categories: the economic conditions of society, the living conditions of society, and the demographic conditions of the region. The method used in this research is the partitional hard clustering method. Firstly, a dataset is created through the data scraping process on trusted sites, followed by the Exploratory Data Analysis (EDA) process on the dataset. Once the dataset is formed, clustering is performed using the partitional hard clustering method, consisting of the K-Means Clustering and K-Medoids Clustering methods. Subsequently, cluster evaluation is carried out to determine the most suitable clustering method using four evaluation metrics: Silhouette Index, Dunn Index, Davies Bouldin Index, and Calinski Harabasz Index. The results show that the K-Medoids Clustering method with 5 clusters is the best for grouping regencies and cities in Java. After the groups are formed, each group is given decision recommendations that the motorcycle industry should consider. There are four recommendations: spare parts distribution, workshop establishment, sales of mid- to high-end motorcycles, and sales of mid-range motorcycles and below."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ananda Sekar Ayu
"Pola konsumsi pangan didefinisikan sebagai kebiasaan makan yang berbeda antara satu individu dengan individu lainnya. Perbedaan kebiasaan makan seseorang sejatinya dapat disebabkan oleh berbagai faktor, mulai dari faktor kesehatan, faktor harga, faktor agama, dan faktor budaya. Penelitian ini bertujuan untuk mengelompokkan individu dari lima kota besar di Indonesia berdasarkan pola konsumsi pangan. Terdapat 18 variabel yang digunakan dalam penelitian ini, 6 diantaranya merupakan variabel numerik dan 12 variabel lainnya merupakan variabel kategorik. Mengingat data yang digunakan terdiri dari dua jenis variabel yang berbeda, maka pengelompokan dilakukan secara terpisah. Variabel numerik dikelompokkan menggunakan metode K-Means Clustering, sementara variabel kategorik dikelompokkan menggunakan metode ROCK Clustering. Hasil kedua pengelompokan tersebut kemudian digabungkan dan dipandang sebagai data baru yang terdiri dari dua variabel bertipe kategorik. Variabel baru tersebut kemudian dikelompokkan kembali menggunakan metode pengelompokan data kategorik yang sebelumnya digunakan, yaitu ROCK Clustering. Proses pengelompokan data gabungan tersebut kemudian dikenal sebagai Ensemble Clustering. Hasil dari penelitian ini menunjukkan bahwa kelompok optimal yang terbentuk untuk data gabungan adalah sebanyak tiga klaster. Klaster satu terdiri dari 286 individu yang pola konsumsi pangannya cenderung dipengaruhi faktor harga, agama, dan budaya. Klaster dua terdiri dari 233 individu yang pola konsumsi pangannya cenderung dipengaruhi faktor kesehatan, agama, dan budaya serta cenderung netral akan faktor harga. Sementara itu, klaster tiga terdiri dari 191 individu yang pola konsumsi pangannya dipengaruhi faktor kesehatan, agama, dan budaya.

Food consumption patterns are defined as eating habits that differ from one individual to another. Differences in a person's eating habits can be caused by various factors, ranging from health factors, price factors, religious factors, and cultural factors. This study aims to clustering individuals from five cities in Indonesia based on food consumption patterns. There are 18 variables used in this study, 6 of them are numerical variables and 12 others are categorical variables. Since the data consists of two different types of variables, the clustering process will be done separately. Numerical variables were grouped using the K-Means Clustering, while categorical variables were grouped using the ROCK Clustering. The grouping result of numerical and categorical variables are then combined into a new data with two categorical variables. The new data then regrouped using the categorical data grouping method, namely ROCK Clustering. This process then known as Ensemble Clustering. The results of this study indicate that the optimal group formed for the new categorical data is three clusters. Cluster one consists of 286 individuals, where food consumption patterns in this cluster tend to be influenced by price, religion, and culture factors. Cluster two consists of 233 individuals, where food consumption patterns in this cluster tend to be influenced by health, religion, and cultural factors and tend to be neutral on price factors. Cluster three consists of 191 individuals, where food consumption patterns in this cluster are influenced by health, religion, and cultural factors."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
K. Aparna
"Data clustering is one
of the major areas in data mining. The
bisecting clustering algorithm is one of the most widely used for high
dimensional dataset. But its performance
degrades as the dimensionality increases.
Also, the task of selection of a cluster for further bisection is a
challenging one. To overcome these
drawbacks, we developed a novel partitional clustering algorithm called a HB-K-Means algorithm (High dimensional Bisecting
K-Means). In order to improve the
performance of this algorithm, we incorporate two constraints, such
as a stability-based
measure and a Mean Square Error (MSE) resulting in CHB-K-Means
(Constraint-based
High dimensional Bisecting K-Means) algorithm.
The CHB-K-Means algorithm generates two initial partitions. Subsequently, it calculates the stability and
MSE for each partition generated.
Inference techniques are applied on the stability and MSE values of the
two partitions to select the next partition for the re-clustering process. This process is repeated until K number of clusters
is obtained. From the experimental
analysis, we infer that an average clustering accuracy of 75% has been
achieved. The comparative analysis of
the proposed approach with the other traditional algorithms shows an
achievement of a higher clustering accuracy rate and an increase in
computation time."
2016
J-Pdf
Artikel Jurnal  Universitas Indonesia Library
cover
K. Aparna
"Data clustering is one of the major areas in data mining. The bisecting clustering algorithm is one of the most widely used for high dimensional dataset. But its performance degrades as the dimensionality increases. Also, the task of selection of a cluster for further bisection is a challenging one. To overcome these drawbacks, we developed a novel partitional clustering algorithm called a HB-K-Means algorithm (High dimensional Bisecting K-Means). In order to improve the performance of this algorithm, we incorporate two constraints, such as a stability-based measure and a Mean Square Error (MSE) resulting in CHB-K-Means (Constraint-based High dimensional Bisecting K-Means) algorithm. The CHB-K-Means algorithm generates two initial partitions. Subsequently, it calculates the stability and MSE for each partition generated. Inference techniques are applied on the stability and MSE values of the two partitions to select the next partition for the re-clustering process. This process is repeated until K number of clusters is obtained. From the experimental analysis, we infer that an average clustering accuracy of 75% has been achieved. The comparative analysis of the proposed approach with the other traditional algorithms shows an achievement of a higher clustering accuracy rate and an increase in computation time."
Depok: Faculty of Engineering, Universitas Indonesia, 2016
UI-IJTECH 7:4 (2016)
Artikel Jurnal  Universitas Indonesia Library
cover
Maria Angelica Christabel
"Poverty is still a serious challenge for all countries in the world, including Indonesia. The Central Statistics Agency (BPS) noted that 25.9 million people were still living in poverty as of March 2023. The challenge of inefficient and poorly targeted budget distribution in some programs hampers poverty alleviation efforts. In line with that, the objective of this study is to categorize provinces based on poverty indicators to provide an understanding of the characteristics and patterns of poverty in various Indonesian provinces. This research uses the Link-based Cluster Ensemble method, which combines various solutions from different clustering methods, namely K-medoids and Agglomerative Hierarchical Clustering to obtain more optimal results. The final result of ensemble clustering is obtained through a similarity matrix by applying the Connected-Triple-based Similarity (CTS) algorithm, which utilizes pairwise similarity relationships between all data points. The data for this study comes from BPS regarding Poverty Data in Indonesia in 2023, with the selection of variables that can reveal the characteristics of poverty in Indonesia, such as aspects of education, employment, expenditure, and household facilities. The results showed that the Link-based Cluster Ensemble method, which was formed through a three-member ensemble from the results of K-Medoids and Agglomerative Hierarchical Clustering, successfully outperformed the single clustering method based on cluster evaluation values using Silhouette, Davies-Bouldin, and Dunn Index. The results grouped the provinces into four clusters: Cluster 1 reveals poverty conditions with low education participation and sanitation facilities, Cluster 2 with low education and high expenditure, Cluster 3 with high unemployment, and Cluster 4 with low clean water facilities.

Kemiskinan masih menjadi tantangan serius bagi seluruh negara di dunia, termasuk Indonesia. Badan Pusat Statistik (BPS) mencatat sebanyak 25,9 juta masyarakat masih hidup dalam kemiskinan per Maret 2023. Tantangan dalam penyaluran anggaran yang tidak efisien dan tepat sasaran pada beberapa program menghambat upaya pengentasan kemiskinan. Sejalan dengan hal itu, tujuan dari penelitian ini adalah mengelompokkan provinsi berdasarkan indikator kemiskinan untuk memberikan pemahaman tentang karakteristik dan pola kemiskinan di berbagai provinsi Indonesia. Penelitian ini menggunakan metode Link-based Cluster Ensemble, yang menggabungkan berbagai solusi dari metode pengelompokan berbeda, yaitu K-medoids dan Agglomerative Hierarchical Clustering untuk mendapatkan hasil yang lebih optimal. Hasil akhir pengelompokan ensemble diperoleh melalui similarity matrix dengan menerapkan algoritma Connected-Triple-based Similarity (CTS), yang memanfaatkan hubungan kesamaan berpasangan antara seluruh titik data. Data penelitian ini berasal dari BPS mengenai Data Kemiskinan di Indonesia tahun 2023, dengan pemilihan variabel yang dapat mengungkapkan karakteristik kemiskinan di Indonesia, seperti aspek pendidikan, ketenagakerjaan, pengeluaran konsumsi, dan fasilitas rumah tangga. Hasil penelitian menunjukkan bahwa metode Link-based Cluster Ensemble, yang dibentuk melalui tiga anggota ensemble dari hasil pengelompokan K-Medoids dan Agglomerative Hierarchical Clustering, berhasil mengungguli metode pengelompokan tunggal berdasarkan nilai evaluasi cluster menggunakan Silhouette, Davies-Bouldin, dan Dunn Index. Hasil penelitian mengelompokkan provinsi ke dalam empat cluster: Cluster 1 mengungkapkan kondisi kemiskinan dengan aspek partisipasi pendidikan dan fasilitas sanitasi yang rendah, Cluster 2 dengan kondisi aspek pendidikan yang rendah dan pengeluaran konsumsi yang tinggi, Cluster 3 dengan kondisi pengangguran yang tinggi, dan Cluster 4 dengan kondisi fasilitas air bersih yang rendah."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Lumbantobing, Esther Widya Impola
"Self Organizing Map (SOM) adalah metode pengelompokan yang berguna untuk mengeksplorasi karakteristik data secara visual. Pada penelitian ini metode SOM digunakan untuk mengelompokkan kecamatan-kecamatan di Pulau Sumatera berdasarkan karakteristik penggunaan fixed broadband di masing-masing wilayah tersebut. Melalui pengelompokan dengan metode SOM, didapatkan 3 kelompok kecamatan yaitu: kecamatan dengan penggunaan fixed broadband rendah, menengah dan tinggi. Agar hasil pengelompokan dapat dilihat secara detail, maka hasil SOM dipetakan ke dalam Sistem Informasi Geografis. Hasil visualisasi ini adalah peta penggunaan fixed broadband di Pulau Sumatera yang dapat digunakan untuk menggambarkan bagaimana kondisi penggunaan fixed broadband di Pulau Sumatera.

Self Organizing Map (SOM) is a powerful clustering method to explore the characteristics of the data visually. In this study, SOM is used to cluster the subdistrict regions in Sumatera based on their characteristics of fixed broadband application in each region. Through clustering with SOM, three distinct clusters of those subdistricts are found. Cluster 1 consists of subdistricts with low fixed broadband application, Cluster II consists of subdistricts with medium fixed broadband application and the last consists of subdistricts with high application in fixed broadband. In order to get a geographical representation of the clusters, the results from SOM are visualized into Geographic Information System. From this visualization, a fixed broadband map of Sumatera is created of which can be used to describe the conditions of fixed broadband application in Sumatera."
Depok: Fakultas Teknik Universitas Indonesia, 2014
S59288
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Naufal Luthfi
"Peradaban yang terus berkembang telah membuat konflik antara manusia dan lingkungan menjadi semakin parah sehingga menyebabkan banyak terjadinya bencana alam. Banyak negara yang terdampak oleh bencana alam dan salah satunya adalah Indonesia. Kondisi dan letak geografis Indonesia menyebabkan banyak terjadinya bencana alam di Indonesia. Oleh karena itu, perlu dilakukan pengelompokan daerah bencana alam di Indonesia untuk mengetahui daerah yang paling sering terkena bencana alam. Metode clustering dapat digunakan untuk mengetahui daerah tersebut. Dari studi literatur yang telah dilakukan, belum ada penelitian yang menggunakan metode hierarchical clustering dan fuzzy c-means untuk clustering daerah bencana alam di Indonesia. Maka dari itu, tujuan dari penelitian ini adalah mengklasifikasi daerah yang sering mengalami bencana alam di Indonesia dengan menggunakan metode hierarchical clustering dan fuzzy c-means. Data yang digunakan dalam penelitian ini adalah data bencana alam di Indonesia dari tahun 2019 hingga 2023. Variabel yang digunakan adalah jumlah kebakaran hutan dan lahan, banjir, cuaca ekstrem, gelombang pasang, tanah longsor, kekeringan, erupsi gunung api, dan gempa bumi di setiap kabupaten yang terdampak bencana alam. Hasil clustering menunjukan terdapat 66 daerah yang sering mengalami banjir, 45 daerah yang sering mengalami kebakaran hutan dan gelombang pasang, dan 30 daerah yang sering mengalami cuaca ekstrem, tanah longsor, kekeringan, erupsi gunung api, dan gempa bumi.

The continuously evolving civilization has exacerbated the conflict between humans and the environment, leading to increasingly severe natural disasters. Many countries are affected by natural disasters, and one of them is Indonesia. Indonesia's conditions and geographic location contribute to the occurrence of numerous natural disasters in the country. Therefore, it is necessary to classify areas prone to natural disasters in Indonesia to identify the most frequently affected regions. Clustering methods can be used to determine these areas. From the literature review conducted, there has been no research utilizing hierarchical clustering and fuzzy c-means methods for clustering areas prone to natural disasters in Indonesia. Therefore, the aim of this research is to classify areas that frequently experience natural disasters in Indonesia using hierarchical clustering and fuzzy c-means methods. The data used in this research is the natural disaster data in Indonesia from 2019 to 2023. The variables used include the number of forest and land fires, floods, extreme weather events, tidal waves, landslides, droughts, volcanic eruptions, and earthquakes in each disaster-affected district. The clustering results indicate that there are 66 regions frequently experiencing floods, 45 regions often experiencing forest fires and tidal waves, and 30 regions commonly facing extreme weather, landslides, droughts, volcanic eruptions, and earthquakes."
Jakarta: Fakultas Teknik Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Moch Galih Primantara
" ABSTRAK
Clustering adalah salah satu topik penting pada bidang Data Mining. Teori graf dapat digunakan untuk membantu clustering dengan cara membuat graf yang mewakili data-data yang akan di-cluster. Salah satu metode graf clustering adalah k-way spectral clustering yang memanfaatkan sebanyak k nilai eigen dan vektor eigen pertama dari matriks Laplacian suatu graf untuk melakukan clustering dengan k adalah banyaknya cluster yang diinginkan. Pada skripsi ini dibahas mengenai algoritma k-way spectral clustering merujuk kepada Ng, Jordan, dan Weiss (2002) dan von Luxburg (2007).

ABSTRACT
Clustering is one of the most important topic in Data Mining. Graph can be used to do clustering by forming a representation graph data which is needed to be clustered. K-way spectral clustering is one of many methods of graph clustering. This method uses first-k eigen values and eigen vectors of a Laplacian matrix to cluster with k is the number of desired clusters. In this skripsi, it will be discussed a k-way spectral clustering algorithm by Ng, Jordan, and Weiss (2002) and von Luxburg (2007).
"
Universitas Indonesia, 2016
S61791
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alvin Subakti
"Text clustering adalah teknik pengelompokan teks sehingga teks di dalam kelompok yang sama memiliki tingkat similaritas yang lebih tinggi satu sama lain dibandingkan dengan teks pada kelompok yang berbeda. Proses pengelompokkan teks secara manual membutuhkan waktu dan sumber daya yang banyak sehingga digunakan machine learning untuk melakukan pengelompokan secara otomatis. Representasi dari teks perlu diekstraksi sebelum dimasukkan ke dalam model machine learning. Metode yang umumnya digunakan untuk mengekstraksi representasi data teks adalah TFIDF. Namun, metode TFIDF memiliki kekurangan yaitu tidak memperhatikan posisi dan konteks penggunaan kata. Model BERT adalah model yang dapat menghasilkan representasi kata yang bergantung pada posisi dan konteks penggunaan suatu kata dalam kalimat. Penelitian ini menganalisis kinerja model BERT sebagai metode representasi data teks dengan membandingkan model BERT dengan TFIDF. Selain itu, penelitian ini juga mengimplementasikan dan membandingkan kinerja metode ekstraksi dan normalisasi fitur yang berbeda pada representasi teks yang dihasilkan model BERT. Metode ekstraksi fitur yang digunakan adalah max dan mean pooling. Sementara itu, metode normalisasi fitur yang digunakan adalah identity, layer, standard, dan min-max normalization. Representasi teks yang diperoleh dimasukkan ke dalam 4 algoritma clustering berbeda, yaitu k-means clustering, eigenspace-based fuzzy c-means, deep embedded clustering, dan improved deep embedded clustering. Kinerja representasi teks dievaluasi dengan menggunakan metrik clustering accuracy, normalized mutual information, dan adjusted rand index. Hasil simulasi menunjukkan representasi data teks yang dihasilkan model BERT mampu mengungguli representasi yang dihasilkan TFIDF pada 28 dari 36 metrik. Selain itu, implementasi ekstraksi dan normalisasi fitur yang berbeda pada model BERT memberikan kinerja yang berbeda-beda dan perlu disesuaikan dengan algoritma yang digunakan.

Text clustering is a task of grouping a set of texts in a way such that text in the same group will be more similar toward each other than to those from different group. The process of grouping text manually requires significant amount of time and labor. Therefore, automation utilizing machine learning is necessary. Text representation needs to be extracted to become the input for machine learning models. The common method used to represent textual data is TFIDF. However, TFIDF cannot consider the position and context of a word in a sentence. BERT model has the capability to produce text representation that incorporate position and context of a word in a sentence. This research analyzed the performance of BERT model as a text representation method by comparing it with TFIDF. Moreover, various feature extraction and normalization methods are also applied in text representation from BERT model. Feature extraction methods used are max and mean pooling. On the other hand, feature normalization methods used are identity, layer, standard, and min-max normalization. Text representation obtained become an input for 4 clustering algorithms, k-means clustering, eigenspace-based fuzzy c-means, deep embedded clustering, and improved deep embedded clustering. Performance of text representations in text clustering are evaluated utilizing clustering accuracy, normalized mutual information, and adjusted rand index. Simulation results showed that text representation obtained from BERT model outperforms representation from TFIDF in 28 out of 36 metrics. Furthermore, different feature extraction and normalization produced varied performances. The usage of these feature extraction and normalization must be altered depending on the text clustering algorithm used."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alvin Subakti
"Text clustering adalah teknik pengelompokan teks sehingga teks di dalam kelompok yang sama memiliki tingkat similaritas yang lebih tinggi satu sama lain dibandingkan dengan teks pada kelompok yang berbeda. Proses pengelompokkan teks secara manual membutuhkan waktu dan sumber daya yang banyak sehingga digunakan machine learning untuk melakukan pengelompokan secara otomatis. Representasi dari teks perlu diekstraksi sebelum dimasukkan ke dalam model machine learning. Metode yang umumnya digunakan untuk mengekstraksi representasi data teks adalah TFIDF. Namun, metode TFIDF memiliki kekurangan yaitu tidak memperhatikan posisi dan konteks penggunaan kata. Model BERT adalah model yang dapat menghasilkan representasi kata yang bergantung pada posisi dan konteks penggunaan suatu kata dalam kalimat. Penelitian ini menganalisis kinerja model BERT sebagai metode representasi data teks dengan membandingkan model BERT dengan TFIDF. Selain itu, penelitian ini juga mengimplementasikan dan membandingkan kinerja metode ekstraksi dan normalisasi fitur yang berbeda pada representasi teks yang dihasilkan model BERT. Metode ekstraksi fitur yang digunakan adalah max dan mean pooling. Sementara itu, metode normalisasi fitur yang digunakan adalah identity, layer, standard, dan min-max normalization. Representasi teks yang diperoleh dimasukkan ke dalam 4 algoritma clustering berbeda, yaitu k-means clustering, eigenspace-based fuzzy c-means, deep embedded clustering, dan improved deep embedded clustering. Kinerja representasi teks dievaluasi dengan menggunakan metrik clustering accuracy, normalized mutual information, dan adjusted rand index. Hasil simulasi menunjukkan representasi data teks yang dihasilkan model BERT mampu mengungguli representasi yang dihasilkan TFIDF pada 28 dari 36 metrik. Selain itu, implementasi ekstraksi dan normalisasi fitur yang berbeda pada model BERT memberikan kinerja yang berbeda-beda dan perlu disesuaikan dengan algoritma yang digunakan.

Text clustering is a task of grouping a set of texts in a way such that text in the same group will be more similar toward each other than to those from different group. The process of grouping text manually requires significant amount of time and labor. Therefore, automation utilizing machine learning is necessary. Text representation needs to be extracted to become the input for machine learning models. The common method used to represent textual data is TFIDF. However, TFIDF cannot consider the position and context of a word in a sentence. BERT model has the capability to produce text representation that incorporate position and context of a word in a sentence. This research analyzed the performance of BERT model as a text representation method by comparing it with TFIDF. Moreover, various feature extraction and normalization methods are also applied in text representation from BERT model. Feature extraction methods used are max and mean pooling. On the other hand, feature normalization methods used are identity, layer, standard, and min-max normalization. Text representation obtained become an input for 4 clustering algorithms, k-means clustering, eigenspace-based fuzzy c-means, deep embedded clustering, and improved deep embedded clustering. Performance of text representations in text clustering are evaluated utilizing clustering accuracy, normalized mutual information, and adjusted rand index. Simulation results showed that text representation obtained from BERT model outperforms representation from TFIDF in 28 out of 36 metrics. Furthermore, different feature extraction and normalization produced varied performances. The usage of these feature extraction and normalization must be altered depending on the text clustering algorithm used."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>