Hasil Pencarian

Ditemukan 3 dokumen yang sesuai dengan query

Prajna Wira Basnur

Pengklasifikasian artikel berita berbahasa Indonesia secara otomatis menggunakan ontologi

"Klasifikasi dokumen adalah sebuah metode untuk menentukan suatu dokumen termasuk ke suatu kategori secara otomatis berdasarkan isi dokumen. Metode Naïve Bayes dan ontologi merupakan metode klasifikasi dokumen teks yang digunakan dalam penelitian ini. Data yang digunakan dalam penelitian ini berupa artikel berita berbahasa Indonesia dari situs http://www.kompas.com. Dalam penelitian ini menggunakan lima kategori dalam domain olahraga untuk melakukan klasifikasi dokumen, yaitu kategori bulutangkis, basket, otomotif, sepakbola, dan tenis. Klasifikasi dokumen dengan menggunakan ontologi dilakukan dengan membandingkan nilai kemiripan diantara dokumen dan sebuah node yang ada di ontologi. Sebuah dokumen diklasifikasikan ke sebuah kategori atau node, jika memiliki nilai kemiripan paling tinggi diantara semua node yang ada di ontologi. Hasil penelitian menunjukkan bahwa ontologi dapat digunakan untuk melakukan klasifikasi dokumen. Nilai recall, precision, dan f-measure untuk klasifikasi dokumen menggunakan ontologi berturut-turut adalah 97.03%, 91.63%, dan 94.02%.

Document classification is a method for determine document category automatically based on contents of document. In this research, we use Naïve Bayes and Ontology method for document classification. Mass media in Bahasa Indonesia is used as data in this research. Data is taken from http//www.kompas.com. We uses five category in sports domain for document classification that comprise with bulutangkis, basketball, automotive, soccer, and tennis category. Document classification uses ontology can be done with compare similarity value between document and a node in ontology. A document can classified to a category or node, if a document has highest similarity value between all node in ontology. In this research indicate that ontology can used for document classification. Recall, precision, and f-measure value for document classification using ontology in a row are 97.03%, 91.63%, and 94.02%."

2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Bayu Distiawan Trisedya

Pemanfaatan dokumen unlabeled pada klasifikasi topik berbasis naive bayes dengan algoritma expectation maximization

"Klasifikasi dokumen teks adalah masalah sederhana namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Namun, kebanyakan teknik klasifikasi dokumen yang ada memerlukan labeled documents dalam jumlah besar untuk melakukan tahap training. Dalam melakukan klasifikasi dokumen, pada tugas akhir ini digunakan algoritma Expectation Maximization yang dikombinasikan dengan algoritma Naïve Bayes untuk memanfaatkan unlabeled documents dengan tiga buah kumpulan data yaitu dokumen hukum, artikel media massa, dan 20Newsgroups dataset. Selain melihat pengaruh penggunaan unlabeled documents, percobaan pada tugas akhir ini juga menganalisis hasil klasifikasi dari beberapa aspek seperti pengaruh stopwords, penggunaan jumlah kategori, dan penggunaan empat buah jenis fitur yaitu presence, frequency, frequency normalized, dan pembobotan tf-idf. Secara umum, penggunaan unlabeled documents memberikan manfaat yang cukup berarti bagi peningkatan akurasi hasil klasifikasi. Dengan konfigurasi tertentu, rata-rata peningkatan akurasi yang diperoleh dapat mencapai angka 9,5%. Namun, penggunaan unlabeled documents ini harus didukung oleh penggunaan labeled documents dalam jumlah yang tepat. Dari percobaan yang telah dilakukan diperlukan sekitar 30 hingga 60 labeled documents tiap kategorinya untuk membangun initial classifier untuk dapat memanfaatkan unlabeled documents secara maksimal.

Text documents classification is a simple problem but it is very important because the benefit is quite large considering the number of documents become more and more to handle each day. However, most of the document classification technique requires large numbers of labeled documents. In performing document classification on this final project, Expectation Maximization algorithm combined with Naïve Bayes algorithm is used to take advantage of unlabeled documents with the three set of data that is legal documents, news articles collection, and 20Newsgroups dataset. In addition to see the influence of unlabeled documents, we also analyze the classification results from several aspects such as the effect of stopwords, the number of categories, and the use of four types of features namely presence, frequency, frequency normalized, and TF-IDF. In general, the uses of unlabeled documents provide a significant benefit for increasing the classification accuracy. With a certain configuration, the average escalation in accuracy can be reached 9,5%. However, the use of unlabeled documents must be supported by the use of labeled documents in the appropriate amount. From the results obtained show that to get maximum benefit from unlabeled documents required 30 to 60 labeled documents per category."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Ulfah Andayani

Proses pengindeksan subjek: studi di tiga perpustakaan yang memiliki koleksi Islam

"Penelitian ini didasarkan atas kenyataan akan adanya inkonsistensi di dalam kegiatan klasifikasi dokumen. Di beberapa perpustakan ditemukan dokumen-dokumen yang sama tetapi memilild notasi yang berbeda dengan menggunakan pedoman atau skema klasifikasi yang sama. Dalam klasifikasi perpustakaan, dokumen-dokumen yang sama tersebut seharusnya memiliki notasi yang sama pula. Didasarkan atas temuan inilah penelitian ini dilakukan. Penelitian ini bertujuan untuk memahami bagaimana pengindeks melakukan proses klasifikasi terhadap suatu dokumen di perpustakaan sehingga dokumen-dokumen yang sama tersebut dapat memiliki notasi yang berbeda.

Penelitian ini dilakukan dengan menggunakan pendekatan kualitatif, dengan model penelitian grounded theory. Dengan grounded theory ini, penelitian didasarkan atas fakta empires yang dilakukan pengindeks dalam melakukan proses klasifikasi. Penelitian dilakukan di tiga lokasi yang berbeda, yaitu Perpustakaan UIN Syarif Hidayatullah, Pusat Perpustakaan Islam Indonesia (Perpustakaan Masjid Istiglal), dan Perpustakaan Umum Islam Iman Jama.

Berdasarkan penelitian yang telah dilakukan, ditemukan bahwa proses klasifikasi ternyata bukan merupakan persoalan yang mudah. Proses klasifikasi merupakan proses yang sulit, dan banyak dipengaruhi oleh faktor-faktor internal pengindeks, terutama menyangkut perbedaan kemampuan intelektual yang diakibatkan oleh perbedaan latar belakang pendidikan dan pengalaman pekerjaan. Proses klasifikasi juga dipengaruhi oleh persoalan skema klasifikasi yang digunakan. Adanya istilah yang tidak jelas, banyaknya subjek yang tidak tercakup, serta adanya notasi subjek yang memiliki interpretasi ganda merupakan persoalan utama yang menghambat proses klasifikasi.

Di samping itu, proses klasifikasi juga dipengaruhi oleh unsur senoritas yaitu adanya unsur ketokohan dalam proses klasifikasi. Kegiatan klasifikasi ternyata bukan hanya merupakan proses yang melibatkan pengindeks dengan dokumen semata-semata Proses klasifikasi jugs melibatkan unsur ketokohan seseorang. Adanya seorang tokoh yang dipandang senior, lebih berpengalaman dan lebih mengetahui ilmu perpustakaan mempengaruhi proses klasifikasi yang dilakukan pengindeks. Senioritas menentukan persepsi pengindeks di dalam proses klasifikasi. Kebutuhan akan adanya seorang tokoh atau figur senioritas ini terjadi pada suatu situasi dan kondisi di mana pengindeks mengalami kesulitan di dalam proses klasifikasi, dan di antara pengindeks telah saling mengenal kemampuan masing-masing.

This research is initiated as a query on the fact that there has been inconsistency in classifying documents in 3 libraries, which have specific collection in Islamic studies. It was found that documents with one subject have different notation using the same scheme. The purpose of this research is to understand how indexers doing the process of classification of a document arrive at different notation.
This research is conducted using qualitative approach, and an analysis based on grounded theory model. The research studies empirical facts of classification process conducted by indexers in three different locations. They are UIN Syarif Hidayatullah Library, Indonesian Islamic Library Center (Istiglal Mosque Library), and Islamic Public Library of Iman Jama.
The result of this research proves that classification is not an easy process because it is influenced by many factors especially by internal factors, such as differences in intellectual ability, educational background and work experience. The classification process is obviously influenced by classification scheme used by the indexer. It's found that the number of subject, which not covered, terms that can't be understood and also multi interpretative subject notation that represent especial problem are influencing the indexers capability.
Other than that, seniority or leadership also influences the classification process. Classification activity is not merely representing process involving indexer with documents, but also the involvement of certain people who have more experiences and library knowledge in classifying documents. Seniority determines indexer perception of classification process, most importantly in classifying difficult documents where they are recognized because of their ability superior."

Depok: Fakultas Ilmu Pengetahuan Budaya Universitas Indonesia, 2004

T11241

UI - Tesis Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian