Pengembangan pemodelan topik bahasa indonesia memanfaatkan latent dirichlet allocation = Development of indonesian language topic modeling using latent dirichlet allocation

Arman, author

Pengembangan pemodelan topik bahasa indonesia memanfaatkan latent dirichlet allocation = Development of indonesian language topic modeling using latent dirichlet allocation

Arman; Anak Agung Putri Ratna, supervisor; Riri Fitri Sari, examiner; Muhammad Salman, examiner ([Publisher not identified] , 2017)

Abstrak

ABSTRAK

Ekstraksi topik merupakan tugas utama dalam penambangan teks sebagai upaya mengeluarkan informasi yang terpendam dalam teks secara heuristik. Proses ini dilakukan lewat pemodelan topik yakni sebuah proses mengidentifikasi topik- topik yang ada dalam sebuah objek teks atau menurunkan pola-pola tersembunyi dalam sebuah korpus teks. Dalam penelitian ini pemodelan topik diaplikasikan pada data teks berbahasa Indonesia menggunakan modul program bernama Gensim dalam bahasa pemrograman Python. Dataset terdiri dari 93 dokumen berita daring Kompas dengan beragam klasifikasi. Jumlah topik optimal yang diperoleh diuji menggunakan machine learning clustering k-means. Dalam proses penelitian ini ternyata diperlukan suatu mekanisma umpanbalik manual untuk mereduksi noise agar diperoleh pemodelan topik yang lebih baik. Hasil uji memperlihatkan teknik Latent Dirichlet Allocation LDA yang telah ditingkatkan / dimodifikasi LDA as LSI memiliki koherensi topik yang jauh lebih baik dibanding teknik LDA saja dalam penelitian ini: 0.94 dibanding 0.34 . Koherensi yang tinggi mengindikasikan bahwa topik hasil pemodelan ini merupakan topik yang dapat dijelaskan dengan sedikit label.

ABSTRACT

Topic extraction is main task in text mining as an effort to dig buried information within text heuristically. This process is done through topic modeling, a process to identify topics within text object or to derive hidden patterns in a text corpus. In this research, topic modeling is applied to Indonesian language texts using Gensim module in Python programming language. The dataset consists of 93 online news documents from Indonesian national newspaper, Kompas, with several different classifications. The identified optimum number of topics k is visualized using clustering machine learning k means. In the process of this research turned out to need a mechanism of manual feedback for noise reduction in order to get better topic modeling. The test results show that enhanced modified Latent Dirichlet Allocation LDA as LSI has a much better topic coherence than LDA technique alone in this study 0.94 compared to 0.34 . High coherence indicates that topics resulting from this topic modeling is a topic that can be explained with few labels.

File Digital: 1

Shelf

T47943-Arman.pdf :: Unduh

LOGIN required

Kata Kunci

pemodelan topik

probabilistic latent semantic analysis (plsa)

latent dirichlet allocation (lda)

expectation-maximization (em)

word distribution

bag of words

koherensi topik

Metadata

Jenis Koleksi :	UI - Tesis Membership
No. Panggil :	T47943
Entri utama-Nama orang :	Arman, author


Entri tambahan-Nama orang :	Anak Agung Putri Ratna, supervisor Riri Fitri Sari, examiner Muhammad Salman, examiner
Entri tambahan-Nama badan :	Universitas Indonesia. Fakultas Teknik

Program Studi :	Teknik Elektro
Subjek :	Dirichlet problem -- Numerical solutions
Penerbitan :	[Place of publication not identified]: [Publisher not identified], 2017

Bahasa :	ind
Sumber Pengatalogan :	LibUI ind rda
Tipe Konten :	text
Tipe Media :	unmediated ; computer
Tipe Carrier :	volume ; online resource
Deskripsi Fisik :	x, 126 pages : illustration ; 28 cm + appendix
Naskah Ringkas :
Lembaga Pemilik :	Universitas Indonesia
Lokasi :	Perpustakaan UI, Lantai 3

Ketersediaan
Ulasan
Sampul

No. Panggil	No. Barkod	Ketersediaan
T47943	15-21-702947567	TERSEDIA

Ulasan:

Tidak ada ulasan pada koleksi ini: 20454639

UI - Tesis Membership :: Kembali

UI - Tesis Membership :: Kembali

Pengembangan pemodelan topik bahasa indonesia memanfaatkan latent dirichlet allocation = Development of indonesian language topic modeling using latent dirichlet allocation

Abstrak

File Digital: 1

LOGIN required

Kata Kunci

Metadata