Hasil Pencarian

Ditemukan 108313 dokumen yang sesuai dengan query

Yudho Prakoso

Kernelisasi metode fuzzy C-means berbasis ruang eigen untuk pendeteksian topik pada Twitter = Kernelized eigenspace based fuzzy C-means for topic detection in Twitter

"Salah satu metode otomatis untuk analisis data tekstual adalah deteksi topik. Eigenspace-based Fuzzy C-Means EFCM adalah metode berbasis soft clustering untuk pendeteksian topik. Pertama, EFCM menggunakan dekomposisi nilai tunggal terpotong untuk mengubah data tekstual dimensi tinggi menjadi data berdimensi rendah. Selanjutnya, proses pengelompokan dilakukan dalam ruang dimensi yang lebih kecil. Namun, proses transformasi itu dapat menghilangkan beberapa fitur penting dari data tekstual. Karena itu, akurasi dapat berkurang.

Dalam penelitian ini digunakan kernel trick untuk mengatasi kelemahan tersebut sehingga proses clustering dapat dilakukan dalam ruang dimensi yang lebih tinggi. Simulasi menunjukkan bahwa pendekatan ini memberikan akurasi yang lebih baik dalam menemukan topik daripada EFCM untuk masalah mendeteksi topik di Twitter.

One of automated methods for textual data analysis is topic detection. Eigenspace based fuzzy c means EFCM is a soft clustering based method for topic detection. Firstly, EFCM use truncated singular value decomposition to transform high dimensional textual data to low dimensional data. Next, the clustering process is conducted in the smaller dimensional space. However, that transformation process may eliminate some important features from the textual data. Therefore, the accuracy may be reduced.
In this study used kernel trick to overcome that weakness so that the clustering process is performed in a higher dimensional space. Simulations show that this approach gives better accuracies in term of topic recall than EFCM for the problem of sensing trending topic in Twitter."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Praditya Nugraha

Analisis akurasi fuzzy C-means berbasis kernel untuk pendeteksian topik pada data Twitter = Accuracy analysis kernelized fuzzy C-means for topic detection on Twitter

"Salah satu metode otomatis untuk analisis data tekstual adalah deteksi topik. Fuzzy C- Means di Ruang Eigen (EFCM) adalah metode berbasis soft clustering untuk pendetek- sian topik. Pada Algoritme EFCM adanya reduksi dimensi data awal menjadi lebih kecil. Namun, proses reduksi itu dapat menghilangkan beberapa fitur penting dari data tekstual. Sehingga, akurasi dapat berkurang. Dalam mengatasi hilangnya fitur penting digunakan bantuan Kernelisasi Fuzzy C-Means di Ruang Eigen sehingga proses clustering dapat di- lakukan dalam ruang dimensi yang lebih tinggi. Dalam penelitian ini akan dicek akurasi dari metode EFCM dan KEFCM dan perbandingannya dengan metode standar seperti Latent Dirichlet Allocation (LDA) dan Nonnegative Matrix Factorization (NMF) dalam masalah pendeteksian topik. Simulasi menunjukkan bahwa KEFCM memberikan akurasi yang lebih baik dalam menemukan topik daripada metode standar LDA dan EFCM namun tidak lebih baik dari NMF untuk masalah mendeteksi topik berita online di Twitter.

One of automated methods for textual data analysis is topic detection. Fuzzy C-Means in Eigenspace (EFCM) is a soft clustering-based method for topic detection. In, EFCM Algorithm there is a step to transform high dimensional textual data into lower dimensional data. However, that transformation process may eliminate some important features from the textual data. Therefore, the accuracy may be reduced. To overcome in losing important features Kernelized Fuzzy C-Means in Eigenspace (KEFCM) is needed, so that clustering process can be done in higher dimensional space. In this study the accuracy of EFCM and KEFCM will be evaluated and these methods will be compared by any standard method such as Latent Dirichlet Allocation (LDA) and Nonnegative Matrix Factorization (NMF) for topic detection problem. Simulations show that KEFCM gives better accuracy to find topics than LDA and EFCM method. However, these methods fail to give better results than NMF for the problem of sensing trending topic in online news in Twitter."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Triyana Muliawati

Fuzzy c-means pada ruang eigen untuk pendeteksian topik = Fuzzy c means in eigen space for topic detection / Triyana Muliawati

"ABSTRAK

Seiring perkembangan teknologi informasi dan komunikasi, pemenuhan

kebutuhan informasi dapat diperoleh melalui media sosial, seperti Twitter.

Banyaknya pengguna internet telah memicu aliran data yang sangat besar dan

cepat, sehingga membuat analisis secara manual sulit atau bahkan tidak mungkin

dilakukan. Metode otomatis diperlukan untuk menganalisis data tersebut yang

salah satunya yaitu dengan topic detection and tracking (TDT). Suatu metode

alternatif laindari TDT untuk masalah pendeteksian topik selain latent dirichlet

allocation (LDA) adalah fuzzy clustering dengan menggunakan algoritma fuzzy Cmeans

(FCM). FCM pada pendeteksian topik dapat memenuhi asumsi bahwa

suatu dokumen pada Twitter dapat terdiri dari beberapa topik. FCM bekerja cukup

baik di dimensi data yang rendah, akan tetapi gagal dalam dimensi data yang

tinggi. Oleh karena itu, dibutuhkan suatu metode untuk mereduksi dimensi ruang

eigen yang tinggi ke dimensi yang lebih rendah. Salah satu metodenya adalah

singular value decomposition (SVD) dengan menggunakan truncated SVD. Pada

penelitian ini, dilakukan prosestruncated SVD kemudian FCM yang

dinamakanfuzzy C-means pada ruang eigen (Eigen FCM). Hasil akurasi dari

metode ini menunjukkan peningkatan lebih baik dibandingkan FCM dan LDA

pada pendeteksian topik.

ABSTRACT

As the information and communication technology developed, the fulfillment of

information can be obtained through social media, like Twitter. The enormous

number of internet users has triggeredfast and large data flow, thus making the

analysis manually is difficult, or even impossible. The automated methods for

data analysis is needed now, one of which is the topic detection and tracking

(TDT). An alternative method other than TDT fortopic detection problemother

than latent dirichlet allocation (LDA) is a fuzzy clustering algorithms using fuzzy

C-means (FCM). FCM in topic detection meet the assumption that a document on

Twitter can consists of several topics. FCM works pretty well in low-dimensional

data, but fail in high-dimensional data. Therefore, we need a method to reduce the

dimension of the high-dimensional eigenspaceinto lower dimension. One method

to do that is the singular value decomposition (SVD) using truncated SVD. This

papercarried out the truncated SVD process then FCM called fuzzy C-means on

the eigenspace (Eigen FCM). The results of the accuracy of this method shows an

increase is better than FCM and LDA on topic detection."

2016

T45625

UI - Tesis Membership Universitas Indonesia Library

Christhoper Nugraha

Pendeteksian topik pada twitter menggunakan online eigenspace-based fuzzy c-means clustering untuk big data = Topic detection on twitter using online eigenspace-based fuzzy c-means clustering for big data / Christhoper Nugraha

"ABSTRAK

Deteksi topik adalah proses menganalisis kumpulan data tekstual untuk menentukan topik pengumpulan data tekstual. Salah satu metode pengelompokan yang dapat digunakan untuk deteksi topik adalah metode Fuzzy C-Means (FCM). Namun, penggunaan FCM sederhana untuk pendeteksian topik tentang big data kurang efektif, karena akan memakan waktu lama dan banyak memori. FCM sederhana juga memiliki masalah lain, ketika melakukan deteksi topik aktif data dimensi tinggi, FCM sederhana hanya akan menghasilkan satu topik. Dalam penelitian ini, suatu gabungan metode Single-Pass Fuzzy C-Means (SPFCM) dan Fuzzy C-Means Berbasis Eigenspace (EFCM) diusulkan, yaitu Single-Pass Eigenspace-Based Fuzzy C-Means (SPEFCM) metode untuk mengatasi masalah ini. Data yang digunakan untuk deteksi topik adalah

tweet yang berasal dari aplikasi Twitter. Lalu, keakuratan topik didapat menggunakan SPEFCM dan EFCM akan dibandingkan berdasarkan nilai koherensi. Itu hasil simulasi menunjukkan bahwa nilai koherensi topik yang diperoleh menggunakan SPEFCM adalah sebanding dengan EFCM. Ini menunjukkan bahwa SPEFCM adalah metode yang tepat untuk mendeteksi topik pada data besar, tanpa mengurangi kualitas topik yang dihasilkan.

ABSTRACT

Topic detection is the process of analyzing a textual data set to determine the topic of textual data collection. One of the grouping methods that can be used for topic detection is the Fuzzy C-Means (FCM) method. However, the use of simple FCM for the detection of topics about big data is less effective, because it will take a long time and a lot of memory. Simple FCM also has another problem, when detecting active topics of high dimensional data, simple FCM will only produce one topic. In this study, a combination of the Single-Pass Fuzzy C-Means (SPFCM) method and the Fuzzy C-Means Based on Eigenspace (EFCM) is proposed, namely the Single-Pass Eigenspace-Based Fuzzy C-Means (SPEFCM) method to overcome this problem. The data used for topic detection is

tweets that come from the Twitter application. Then, the accuracy of the topics obtained using SPEFCM and EFCM will be compared based on coherence values. The simulation results show that the topic coherence value obtained using SPEFCM is comparable to EFCM. This shows that SPEFCM is the right method for detecting topics in big data, without reducing the quality of the topics produced."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Rifky Yusdiansyah

Analisis akurasi fuzzy C-means dengan reduki dimensi random projection pada pendeteksian topik = Accuracy analysis of fuzzy C-means with random projection dimensional reduction on topic detection

"Pendeteksian topik (Topic detection) adalah suatu proses yang digunakan untuk menganalisis kata-kata pada suatu koleksi data tekstual untuk menentukan topik-topik yang ada pada koleksi tersebut, bagaimana hubungan topik-topik tersebut satu sama lainnya, dan bagaimana mereka berubah dari waktu ke waktu. Metode Fuzzy C-Means (FCM) merupakan metode clustering yang sering digunakan pada masalah pendeteksian topik. Fuzzy C-Means dapat mengelompokkan dataset ke beberapa cluster dengan baik pada dataset dengan dimensi yang rendah, namun gagal pada dataset yang berdimensi tinggi. Untuk mengatasi permasalahan tersebut, dilakukan reduksi dimensi pada dataset sebelum dilakukan pendeteksian topik menggunakan metode FCM. Pada penelitian ini digunakan data tweets akun berita nasional pada sosial media Twitter yang kemudian dilakukan pen-deteksian topik menggunakan metode Random space-based Fuzzy C-Means (RFCM) dan Kernelized Random space-based Fuzzy C-Means (KRFCM). Metode pembelajaran RFCM dan KRFCM terbagi menjadi dua langkah yaitu mereduksi dimensi dataset ke dimensi yang lebih rendah dengan menggunakan random projection dan melakukan metode pem-belajaran FCM pada RFCM dan metode pembelajaran KFCM pada KRFCM. Setelah didapatkan topik-topik, kemudian dilakukan evaluasi dengan menghitung nilai coher-ence pada topik. Nilai coherence yang digunakan pada penelitian ini menggunakan sa-tuan Pointwise Mutual Information (PMI). Penelitian dilakukan dengan membandingkan nilai rata-rata PMI dari RFCM dan KRFCM dengan Eigenspace-based Fuzzy C-Means (EFCM) dan Kernelized Eigenspace-based Fuzzy C-Means (KEFCM). Hasil yang didapatkan menggunakan data tweets akun berita nasional menunjukkan bahwa metode RFCMdan KRFCM menawarkan running time untuk reduksi dimensi yang lebih cepat namun memiliki rata-rata nilai PMI yang lebih kecil dibandingkan rata-rata nilai PMI yang di-hasilkan oleh metode pembelajaran EFCM dan KEFCM.

Topic detection is a process that is used to analyze

words in a collection of textual data to determine which topics are in the collection, how the topics relate to each other, and how they change over time. Fuzzy C-Means (FCM) Method is a clustering method that is often used in topic detection problems. Fuzzy C-Means can group datasets into several clusters properly on dataset with low dimensions, but failed on the high dimension dataset. To overcome this problem, a dimension reduction is performed on the previous dataset Topic detection was performed using the FCM method. In this study used data on national news account tweets on Twitter social media which is then detected topics using the Randomspace-based Fuzzy C-Means (RFCM) method Kernelized Randomspace-based Fuzzy C-Means (KRFCM). RFCM learning methods and KRFCM is divided into two steps, namely reducing the dataset dimension to dimensions lower cost by using random projection and learning methods FCM on RFCM and KFCM learning methods on KRFCM. After obtained topics, then conducted an evaluation by calculating the value of coherence on the topic. The coherence value used in this study uses units Pointwise Mutual Information (PMI). Research carried out by comparing

the average PMI values of RFCM and KRFCM with Eigenspace-based Fuzzy C-Means (EFCM) and Kernelized Eigenspace-based Fuzzy C-Means (KEFCM). Results obtained using national news account tweets data shows that the RFCM method and KRFCM offers running time for faster dimension reduction however has an average PMI value that is smaller than the average PMI value produced by the EFCM and KEFCM learning methods."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Natasha Rosaline

Fuzzy C-Means Clustering dengan Reduksi Dimensi Deep Autoencoders untuk Pendeteksian Topik pada Data Tekstual Twitter = Fuzzy C-Means Clustering with Deep Autoencoders Dimensional Reduction for Topic Detection on Textual Data from Twitter

"Pendeteksian topik merupakan suatu teknik untuk memperoleh informasi dengan cara mengekstrak topik-topik dari kumpulan data yang sangat besar. Salah satu metode yang digunakan untuk pendeteksian topik adalah metode clustering, yaitu Fuzzy C-Means (FCM). Namun, kinerja dari FCM menjadi buruk saat harus melakukan clustering pada data yang berdimensi tinggi. Kelemahan dari FCM tersebut dapat ditanggulangi dengan cara melakukan reduksi dimensi. Pada penelitian ini, digunakan suatu metode deep learning, yaitu Deep Autoencoders (DAE), untuk mereduksi dimensi dari kumpulan data. Metode FCM clustering dengan reduksi dimensi DAE ini disebut Deep Autoencoders-Based Fuzzy C-Means (DFCM). Metode DFCM dibagi menjadi dua tahapan, yakni mereduksi dimensi kumpulan data yang berdimensi tinggi menggunakan Deep Autoencoders, dan melakukan FCM clustering pada data yang telah direduksi. Hasil dari metode DFCM adalah topik-topik. Topik-topik tersebut dievaluasi menggunakan nilai coherence. Pada penelitian ini, dibangun dua metode DFCM, yaitu FCM berbasis DAE dengan satu lapisan tersembunyi (DFCM-single hidden layer) dan FCM berbasis DAE dengan multi lapisan tersembunyi (DFCM-multi hidden layers). Hasil dari kedua metode ini menunjukkan bahwa topik-topik pada DFCM-single hidden layer memiliki nilai coherence lebih tinggi dari topik-topik pada DFCM-multi hidden layers.

Topic detection is a technique to find out information by extracting topics from big data. One method used for topic detection is the clustering method, namely Fuzzy C-Means (FCM). However, the performance of FCM becomes worse when clustering on highdimensional data. That weakness is resolved by dimensional reduction. In this research, deep learning method is used to reduce the dimensions of the data set, namely Deep Autoencoders (DAE). FCM clustering method with DAE dimensional reduction is called Deep Autoencoders-Based Fuzzy C-Means (DFCM). DFCM is divided into two parts. First, reducing the dimensions of high-dimensional data collection using Deep Autoencoders. Second, performing FCM clustering on the reduced data. Results of DFCM are topics. These topics are evaluated using the value of coherence. In this research, two DFCM methods were built, namely DAE with one hidden layer based FCM (DFCM-single hidden layer) and DAE with multi-hidden layers based FCM (DFCMmulti hidden layers). The results of these two methods show that the topics in DFCMsingle hidden layer have a higher coherence value than the topics in DFCM-multi hidden layers."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Raden Trivan Sutrisman

Analisis metode inisialisasi pada algortima eigenspace based fuzzy c-means untuk pendeteksian topik berita online Indonesia = Analysis of initialization methods on eigenspace based fuzzy c-means algorithm for Indonesian online news topic detection

"ABSTRAK

Perkembangan berita online di Indonesia saat ini sudah semakin meningkat sehingga kebutuhan dalam melakukan analisis data berita sangat diperlukan untuk mendapatkan intisari informasi yang akurat dan cepat. Topik merupakan komponen dasar yang sering digunakan untuk menganalisis data dalam bentuk teks seperti berita. Dengan menggunakan pemodelan topik, dapat dilakukan pendeteksian topik secara otomatis pada koleksi dokumen berita yang sangat besar dan sulit dilakukan secara manual oleh manusia. Salah satu pemodelan topik yang dapat digunakan adalah metode clustering menggunakan Eigenspace Based Fuzzy C-Means (EFCM). Metode EFCM pada umumnya menggunakan inisialisasi random. Pada penelitian ini akan diimplementasikan metode inisialisasi menggunakan Non-Negative Double Singular Value Decomposition (NNDSVD) dan Fuzzy C-Means++ (FCM++) sebagai alternatif metode inisialisasi pada algoritma EFCM. Hasil simulasi menggunakan inisialisasi NNDSVD dan FCM++ menunjukkan nilai akurasi yang lebih baik dalam hal tingkat interpretabilitas topik daripada metode random.

ABSTRACT
The rapid increasing of online news in Indonesia creates the need for news analysis to obtain information as fast as possible. Topics are basic components that are often used to analyze data in the textual forms, such as the news article. By using topic modeling, topics can be detected automatically on large news documents which are difficult to perform manually. One of the topic modeling that can be used is the clustering-based method, i.e., Eigenspace-based Fuzzy C-Means (EFCM). The common initialization method of EFCM is random. In this research, Non-Negative Double Singular Value Decomposition (NNDSVD) and Fuzzy C-Means++ (FCM++) will be used as initialization methods of EFCM. The simulations show that the NNDSVD and FCM++ methods gives better accuracies in term of interpretability score than the random method."

Depok: Universitas Indonesia, 2018

T50041

UI - Tesis Membership Universitas Indonesia Library

Nedya Shandri

Klasifikasi data diabetes dan kanker menggunakan entropi fuzzy C-means berbasis = Diabetes and cancer data classification using entropy fuzzy C-means based on kernel with chi-square feature selection

"Penyakit kronis adalah penyakit yang diderita dalam waktu panjang dan dapat berkembang secara cepat, salah satunya adalah penyakit kanker dan diabetes. Oleh karena itu, dengan melakukan pendeteksian dini maka perkembangan penyakit kanker dan diabetes akan menurun. Salah satu cara pendektesian dini dapat dilakukan oleh machine learning. Teknik machine learning banyak digunakan dalam berbagai bidang khususnya untuk analisa data medis. Clustering merupakan salah satu metode dari machine learning yang bertujuan untuk mengelompokkan suatu dataset ke dalam subset berdasarkan ukuran jarak. Salah satu contoh metode clustering adalah metode Entropi Fuzzy C-Means yang dapat mengidentifikasi entropi disetiap titik data dan memilih pusat kluster terdekat dengan entropi minimum. Pada penelitian akan digunakan data kanker dan diabetes dari UCI Repository dengan menggunakan metode Entropi Fuzzy C-Means yang akan dimodifikasi dengan kernel RBF. Sebelum dilakukan klasifikasi, dilakukan pemilihan fitur menggunakan Chi-Square. Tujuan dari penelitian ini adalah untuk mendapatkan fitur-fitur yang optimal dan mengetahui hasil akurasi menggunakan untuk klasifikasi data diabetes dan kanker. Diperoleh hasil akurasi tertinggi pada klasifikasi data medis menggunakan metode Entropi Fuzzy C-Means berbasis kernel dengan pemilihan fitur Chi-Square yaitu sebesar 83.33% untuk data diabetes dan 77.77-100% untuk data kanker.

Chronic disease is a disease that occur for a long time and can develop quickly, one of them is cancer and diabetes. The early detection is very helpful to reduce the development of the disease. One of the ways to detect cancer and diabetes disease is using machine learning technic. Machine learning technic is widely use in many aspects especially in medical data analysis. Clustering is part of machine learning technic that is used to group a dataset into subset based on space size. Entropy Fuzzy C-Means is one of the methods which can identify entropy in every data and can choose the cluster center similar with minimum entropy. In this paper we will use cancer and diabetes medical data from UCI Repository using Entropy Fuzzy C-Means method which is modified by kernel RBF. Before classification, we will select the feature using Chi-Square to get the optimal subset feature. The purpose of this study was to obtain optimal features and find out the results of accuracy using for the classification of diabetes and cancer data. The medical data classification using Entropy Fuzzy C-Means based on kernel with Chi-Square feature selection gives the 100% highest accuration result for cancer data and 83,33% for diabetes data."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Rezki Aulia Putri

Aplikasi fuzzy C-means berbasis kernel pada klasifikasi data penyakit sinusitis = Application of kernel based fuzzy C-means for sinusiitis dataset classification

"Sinusitis adalah peradangan pada dinding sinus, yaitu rongga kecil yang terhubung dengan rongga udara dalam tulang tengkorak. Sinus terletak di belakang dahi, di dalam struktur tulang pipi, di kedua sisi hidung, dan di belakang mata. Sinusitis disebabkan oleh peradangan pada rongga hidung, tumbuhnya polip, alergi, dan hal lainnya yang dapat terjadi pada orang dewasa, remaja, bahkan anak-anak. Untuk mengklasifikasi jenis sinusitis, penulis menggunakan Fuzzy C-Means Berbasis Kernel yang merupakan pengembangan dari Fuzzy C-Means. Fuzzy C-Means mengelompokkan data menggunakan jarak Euclidean. Namun, jika data yang akan dipisahkan adalah data non linear, maka konvergensinya akan kecil dan membutuhkan waktu yang lama. Untuk menyelesaikan masalah ini dapat digunakan Fuzzy C-Means Berbasis Kernel yang menggunakan fungsi kernel untuk menggantikan jarak Euclidean. Metode ini memetakan objek dari ruang data ke ruang fitur yang berdimensi lebih tinggi, sehingga dapat mengatasi kelemahan FCM. Data yang digunakan adalah data penyakit sinusitis yang diperoleh dari laboratorium radiolog RSUPN Cipto Mangunkusumo, Jakarta. Karena data yang digunakan adalah data non linear, maka metode yang lebih cocok digunakan adalah Fuzzy C-Means Berbasis Kernel. Dengan menggunakan software Matlab diperoleh akurasi 100% dengan waktu mendekati 0 detik untuk Fuzzy C-Means Berbasis Kernel.

Sinusitis is an inflammation of the sinus wall, a small cavity interconnected through the airways in the skull bones. It is located on the back of the forehead, inside the cheek bone structure, on both side of the nose, and behind the eyes. Sinusitis is caused by infection, growth of nasal polips, allergies, and others. This condition can effect adults, teenagers, and even children. To classify sinusitis we used Kernel Based Fuzzy C-Means, which is the development of Fuzzy C-Means (FCM). FCM algorithm groups data using Euclidean distance. However, when non linear data is separated, the convergence is innacurate and need a long running time. To overcome this problem, a Kernel Based Fuzzy C-Means that use kernel functions as a substitute for Euclidean distance. It maps objects from data space to a higher dimention feature space, so they can overcome FCM deficiencies. Data that is used is sinusitis dataset obtained from the laboratory of radiology at Cipto Mangunkusumo National General Hospital, Jakarta. Because the data used is non-linear dataset, the more suitable method is Kernel Based Fuzzy C-Means. By using the Matlab software 100% accuracy is obtained and running time is close to 0 for Kernel Based Fuzzy C-Means."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Ichsani Mursidah

Analisis metode inisialisasi pada algoritma Fuzzy C-Means berbasis singular value decomposition untuk pendeteksian topik = Analysis of initialization methods on a Fuzzy C-Means algorithm based on singular value decomposition for topical detection / Ichsani Mursidah

"ABSTRAK

Pendeteksian topik adalah proses untuk menemukan topik atau pokok pembahasan utama dalam suatu kumpulan dokumen. Untuk data yang besar, pendeteksian topik dengan manual sulit atau bahkan tidak mungkin dilakukan. Sehingga, dibutuhkan metode otomatis yang dikenal dengan istilah Topic Detection and Tracking (TDT). Pada penelitian ini metode TDT yang digunakan untuk masalah pendeteksian topik adalah fuzzy C-means (FCM). FCM bekerja cukup baik pada dimensi data yang rendah, tetapi gagal pada dimensi data yang tinggi. Pada metode fuzzy c-means umumnya dilakukan inisialisasi random yang menyebabkan data konvergen ke satu pusat (centre of gravity) sehingga topik-topik yang dihasilkan antara satu dengan yang lainnya sama. Untuk mengatasi masalah tersebut dibutuhkan inisialisasi yang tidak random, yaitu dengan menggunakan inisialisasi berbasis singular value decomposition (SVD). Hasil akurasi dari metode ini menunjukkan adanya peningkatan lebih baik dibandingkan dengan metode FCM dengan inisialisasi random. Dengan nilai akurasi terbaik untuk FA Cup adalah 0,923, untuk US Elections adalah 0,661 dan untuk Super Tuesday adalah 0,727.

ABSTRACT

Topic detection is the process of finding the main topic or topic in a document. For large data, manual topic detection is difficult or even impossible. Thus, it takes an automatic method known as Topic Detection and Tracking (TDT). In this research the TDT method used for topic detection problem is fuzzy C-means (FCM). FCM works reasonably well on low data dimensions, but fails on high data dimensions. In the method of fuzzy c-means is generally done random initialization that causes data convergent to one center (center of gravity) so that the topics generated from one another are equal. To solve this problem requires non-random initialization, ie by using a singular value decomposition (SVD) based initialization. The accuracy of this method shows a better improvement compared to the FCM method with random initialization. With the best accuracy value for the FA Cup is 0.923, for US Elections is 0.661 and for Super Tuesday is 0.727."

2017

T48587

UI - Tesis Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian