Ditemukan 2 dokumen yang sesuai dengan query
Arman
"
ABSTRAKEkstraksi topik merupakan tugas utama dalam penambangan teks sebagai upaya mengeluarkan informasi yang terpendam dalam teks secara heuristik. Proses ini dilakukan lewat pemodelan topik yakni sebuah proses mengidentifikasi topik- topik yang ada dalam sebuah objek teks atau menurunkan pola-pola tersembunyi dalam sebuah korpus teks. Dalam penelitian ini pemodelan topik diaplikasikan pada data teks berbahasa Indonesia menggunakan modul program bernama Gensim dalam bahasa pemrograman Python. Dataset terdiri dari 93 dokumen berita daring Kompas dengan beragam klasifikasi. Jumlah topik optimal yang diperoleh diuji menggunakan machine learning clustering k-means. Dalam proses penelitian ini ternyata diperlukan suatu mekanisma umpanbalik manual untuk mereduksi noise agar diperoleh pemodelan topik yang lebih baik. Hasil uji memperlihatkan teknik Latent Dirichlet Allocation LDA yang telah ditingkatkan / dimodifikasi LDA as LSI memiliki koherensi topik yang jauh lebih baik dibanding teknik LDA saja dalam penelitian ini: 0.94 dibanding 0.34 . Koherensi yang tinggi mengindikasikan bahwa topik hasil pemodelan ini merupakan topik yang dapat dijelaskan dengan sedikit label.
ABSTRACTTopic extraction is main task in text mining as an effort to dig buried information within text heuristically. This process is done through topic modeling, a process to identify topics within text object or to derive hidden patterns in a text corpus. In this research, topic modeling is applied to Indonesian language texts using Gensim module in Python programming language. The dataset consists of 93 online news documents from Indonesian national newspaper, Kompas, with several different classifications. The identified optimum number of topics k is visualized using clustering machine learning k means. In the process of this research turned out to need a mechanism of manual feedback for noise reduction in order to get better topic modeling. The test results show that enhanced modified Latent Dirichlet Allocation LDA as LSI has a much better topic coherence than LDA technique alone in this study 0.94 compared to 0.34 . High coherence indicates that topics resulting from this topic modeling is a topic that can be explained with few labels. "
2017
T47943
UI - Tesis Membership Universitas Indonesia Library
Koeanan, Elisabeth Martha
"Image clustering adalah pengelompokan citra berdasarkan kesamaan ciri tententu pada sekumpulan citra. Image clustering yang dilakukan berdasarkan konten citra dapat menggunakan komponen warna, tekstur, garis tepi, bentuk, dan lainnya, atau berupa gabungan dari beberapa komponen. Pada penelitian ini dilakukan image clustering berdasarkan komponen warna. Tiga hal yang diperhatikan dalam proses clustering ini adalah penggunaan ruang warna, representasi citra, dan metode clustering. Ruang warna yang digunakan dalam penelitian ini adalah RGB, HSV, dan L*a*b*. Representasi citra atau feature extraction menggunakan histogram dan Gaussian Mixture Model, sedangkan metode clustering yang digunakan adalah K-Means dan Agglomerative Hierarchical. Pada ruang warna RGB dan L*a*b*, kinerja clustering terbaik berhasil dilakukan dengan menggunakan representasi citra GMM, sedangkan pada ruang warna HSV, citra yang berhasil dikelompokan dengan kinerja paling baik menggunakan representasi citra histogram. Kemudian, metode K-Means clustering bekerja lebih baik daripada Agglomerative Hierarchical pada image clustering yang menggunakan komposisi warna.
Image clustering is a process of grouping the image based on their similarity. Image clustering based on image content usually uses the color component, texture, edge, shape, or mixture of two components, etc. This research focuses in image clustering uses color component. Three main concepts concerned on this research are color space, image representation (feature extraction), and clustering method. RGB, HSV, and L*a*b* are used in color spaces. The image representations use Histogram and Gaussian Mixture Model (GMM), whereas the clustering methods are K-Means and Agglomerative Hierarchical Clustering. The result of the experiment show that GMM representation is better used for RGB and L*a*b* color space, whereas Histogram is better used for HSV. The experiment also show that K-Means better than Agglomerative Hierarchical for clustering method."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open Universitas Indonesia Library