Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 28594 dokumen yang sesuai dengan query
cover
As`ad, Bahrawi
"Proses mencari pola atau informasi yang berguna pada suatu kumpulan data dengan menggunakan metode tertentu, saat ini telah menjadi topik yang menarik. Salah satu manfaatnya yaitu dapat menunjang pengambilan keputusan dalam suatu organisasi baik itu organisasi profit maupun non profit. Pada makalah ini akan dilakukan pengujian terhadap sekumpulan data yang diambil dari kejadian nyata untuk diolah, guna mendapatkan informasi atau pola yang dapat berguna untuk penentuan pengambilan sebuah keputusan. Pengujian pada makalah ini merupakan prediksi terhadap pengguna jasa sebuah operator seluler akan kehadirannya pada suatu acara berdasarkanbeberapa indicator, cuaca, jarak relative terhadap lokasi acara, serta apakah pengguna jasa tersebut merupakan termasuk pelanggan pasca bayar atau tidak. Pengujian dilakukan dengan menggunakan tiga metode klasifikasi, yakni naïve bayes, decision tree, dan oneR. Hasil dari percobaan ini bisa menunjukkan prediksi dari setiap percobaan dengan tingkat akurasi prediksi yang berbeda-beda disetiap metode yang digunakan."
Kementerian Komunikasi dan Informatika RI. Badan Penelitian dan Pengembangan Sumber Daya Manusia, 2016
384 JPKOP 20:1 (2016)
Artikel Jurnal  Universitas Indonesia Library
cover
Ranni R.
"Perkembangan teknologi basis data, khususnya data mining saat ini sangat pesat. Oleh karena itu, dibutuhkan suatu sarana untuk dapat mempelajari dan membandingkan metode-metode yang terdapat di dalam data mining. University of Waikato telah memiliki data mining tools yang disebut sebagai WEKA yang berisi koleksi b'rbagaialgoritma di dalam data mining. Akan tetapi, WEKA tidak memiliki algoritma klasifikasi data mining yang telah dikenal secara umum. Fokus utama dari bagian ini adalah pengembangan algoritma teknik classi cation pada data mining. Laporan Tugas Akhir ini akan membahas hasil analisis dua algoritma teknik classification data mining yang merupakan bagian dari data mining tools yang sedang dikembangkan, yaitu CMAR (Classification Based on Multiple Association Rules ) dan CSFP(Classification Based on Strong Frequent Pattern ). Selain analisis, di dalam tugas akhir juga dilakukan implementasi algoritma CMAR. Kedua algoritma tersebut menggunakan prinsip association rules dalam proses menghasilkan rules. Uji coba CMAR dilakukan terhadap satu data set kecil dan data set besar. Selain itu, uji coba juga dilakukan dengan membandingkan hasil CSFP dan CMAR pada kedua data set tersebut. Algoritma CMAR pernah dikembangkan sebelumnya di Liverpool. Akan tetapi, algoritma tersebut hanya dapat diuji coba dengan menggunakan data yang telah disediakan oleh pembuat, sehingga algoritma ini tidak dapat diuji coba dengan menggunakan data set lain.
Berdasarkan uji coba yang telah dilakukan, tingkat confidence sangat menentukan banyak rules yang dihasilkan. Walaupun CSFP dan CMAR menggunakan prinsip association rules, terdapat perbedaan pada rata-rata jumlah rules yang dihasilkan dan akurasi terhadap data set. Secara umum, algoritma CSFP lebih unggul dari CMAR dalam hal rules yang dihasilkan dan akurasi.
Kata kunci: CFP-Tree, classi cation, classifier, CMAR, CSFP, FP-Tree, "
Depok: Universitas Indonesia, 2007
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Tri Widodo
"Gerakan tanah merupakan peristiwa perpindahan material pembentuk lereng berupa batuan, bahan rombakan, tanah, atau material campuran yang bergerak ke bawah atau keluar lereng. Gerakan tanah dapat terjadi karena faktor alam maupun faktor perbuatan manusia. Kecamatan Sukaresmi, Kabupaten Cianjur merupakan salah satu wilayah yang mempunyai kejadian gerakan tanah yang cukup sering terjadi. Oleh karena itu, penelitian ini dilakukan dengan tujuan untuk mendeteksi serta menganalisis sebaran wilayah potensi gerakan tanah di Kecamatan Sukaresmi, Kabupaten Cianjur.
Metode pendeteksian potensi gerakan tanah dilakukan dengan menggunakan metode Decision Tree pohon keputusan dengan algoritma C4.5 untuk mendapatkan nilai Gain tertinggi dalam penentuan akar pada pohon keputusan. Data aktual kejadian gerakan tanah digunakan untuk megetahui tingkat akurasi wilayah potensi gerakan tanah dengan uji confussion matrix. Selanjutnya, analisis keterhubungan antara titik aktual kejadian dengan kondisi fisik wilayah dan hasil model dilakukan menggunakan metode weighted of evidence.
Penelitian ini menggunakan data litologi, jenis tanah, penggunaan tanah, ekstrasi data citra Landsat 8 OLI pada bulan Agustus 2017 dengan analisis Normalized Difference Vegetation Index NDVI serta ekstrasi data citra Alos PALSAR untuk wilayah ketinggian, dan kemiringan lereng.
Hasil dari penelitian ini menunjukkan tingkat gerakan tanah dengan potensi tinggi di wilayah penelitian seluas 18.23 Km2 atau 19.09 dari total wilayah penelitian. Asosiasi data kejadian aktual dengan hasil identifikasi potensi gerakan tanah menunjukkan akurasi model sebesar 80.91. Distribusi wilayah potensi gerakan tanah tersebar pada wilayah dengan ciri pada ketinggian 600-800 mdpl, kemiringan lereng 14-20, kerapatan vegetasi 50-75, penggunaan tanah permukiman, jenis batuan anggota batu pasir cantayan dengan jenis tanah asosiasi latosol coklat kemerahan dan latosol coklat.

Landslide is a phenomenon of movement of slope forming material in the form of rocks, soil, or mixed material moving down or out of the slope. Landslide can occur due to natural factors and factors of human action. Sukaresmi District, Cianjur Regency is one of the areas that has landslide occurrence which is quite common. Therefore, this study was conducted with the aim to detect and analyze the spread of landslide susceptibility areas in Sukaresmi District, Cianjur Regency.
The landslide susceptibility detection method was performed using the Decision Tree method with C4.5 algorithm to obtain the highest gain value in root determination in the decision tree. Actual data of landslide occurrence was used to determine the accuracy of susceptibility region with confussion matrix examination. Furthermore, the correlation analysis between the actual point of landslide occurrence with the physical condition of the region and the model results was done using the weighted of evidence method.
This research used lithology data, soil type, landuse, Landsat 8 multispectral imagery data extraction in August 2017 with Normalized Difference Vegetation Index analysis, and Alos PALSAR imagery data extraction for altitude area and slope.
The results of this study indicate a high potential landslide in the research area of 18.23 Km2 or 19.09 of the total research area by accuracy level 80.91 with actual event data. Distribution of landslide susceptibility area was spread on area with characteristics at an altitude of 600 ndash 800 m, slope 14 20, vegetation density 50 75, settlement landuse, cantayan sandstone rock type with soil associations latosol reddish brown and brown latosol.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhamad Ido Raskapati
"Analisis triclustering adalah salah satu metode data mining yang memiliki tujuan mengelompokkan data berbentuk tiga dimensi. Triclustering umumnya digunakan pada bidang bioinformatika untuk menganalisis kesamaan ekspresi gen suatu eksperimen pada titik waktu tertentu. Analisis triclustering yang dilakukan pada penelitian ini menggunakan metode gabungan Fuzzy Cuckoo Search berdasarkan Gaussian Distribution dengan -Trimax. Metode ini merupakan penggabungan algoritma nodes deletion pada Trimax dengan algoritma optimasi Fuzzy Cuckoo Search. Algoritma nodes deletion pada -Trimax digunakan pada fase pembentukan populasi awal tricluster. Konsep algoritma nodes deletion yaitu dapat menghasilkan himpunan tricluster dengan Mean Square Residue (MSR) di bawah threshold dan mendekati 0. Algoritma optimasi Cuckoo Search adalah algoritma pencarian solusi tricluster, digambarkan dengan konsep parasitisme spesies burung cuckoo. Pada penelitian ini, Cuckoo Search menggunakan random walk Gaussian Distribution untuk pencarian solusi tricluster. Berdasarkan hal ini komputasi algoritma Cuckoo Search menjadi lebih efisien dan efektif dalam menghasilkan himpunan tricluster yang lebih optimal dan mempercepat waktu komputasi. Fuzzy Cuckoo Search adalah pengembangan dari Cuckoo Search yang menggunakan fungsi objektif Fuzzy C-Means untuk mengatasi ketidakjelasan (uncertainty) dalam data ekspresi gen. Analisis triclustering menggunakan metode gabungan Fuzzy Cuckoo Search berdasarkan Gaussian Distribution dengan -Trimax digunakan pada data ekspresi gen tiga dimensi sel fibroblas yang diberikan perlakuan dengan Egr-1 dan Tgf-, di mana ekspresi gen diamati pada 6 kondisi dan 2 titik waktu. Pada penelitian ini, himpunan tricluster yang memiliki kualitas terbaik berdasarkan Triclustering Quality Index adalah himpunan tricluster yang dihasilkan dengan nilai = 0,015 dan = 0,50 . Berdasarkan himpunan tricluster tersebut, didapatkan informasi penting mengenai kumpulan gen yang memiliki respon baik terhadap pemberian perlakuan dengan Egr-1, Tgf- dan bertahan setiap titik waktu. Kumpulan gen tersebut dilakukan Gene Ontology (GO) yang diuji menggunakan Fisher’s exact dengan tingkat signifikansi 0,05 dan dikoreksi dengan False Discovery Rate. Hasil GO tersebut terdiri dari 219 GO Terms Biological Process, 28 GO Terms Molecular Function, dan 52 GO Terms Cellular Component. GO Terms dari masing-masing aspek GO tersebut dapat dijadikan bahan untuk penelitian di bidang bioinformatika untuk menganalisis hubungan GO Terms terhadap penyakit Systemic Sclerosis (SSc).

Triclustering analysis is one of the data mining methods aimed at clustering threedimensional data. Triclustering is commonly used in the field of bioinformatics to analyze the similarity of gene expression in an experiment at specific time points. The triclustering analysis in this research uses a combined method of Fuzzy Cuckoo Search based on Gaussian Distribution with -Trimax. This method combines the nodes deletion algorithm of -Trimax with the optimization algorithm of Fuzzy Cuckoo Search. The nodes deletion algorithm of -Trimax is used in the initial population formation phase of the tricluster. The concept of the nodes deletion algorithm is to produce tricluster sets with Mean Square Residue (MSR) below the threshold and close to 0. The optimization algorithm of Cuckoo Search is a search algorithm for tricluster solutions, depicted with the parasitism concept of cuckoo bird species. In this research, Cuckoo Search uses random walk Gaussian Distribution for tricluster solution search. This enhances the efficiency and effectiveness of the Cuckoo Search algorithm in producing more optimal tricluster sets and accelerating the computation time. Fuzzy Cuckoo Search is an extension of Cuckoo Search that employs Fuzzy C-Means objective function to handle uncertainty in gene expression data. The triclustering analysis using the combined method of Fuzzy Cuckoo Search based on Gaussian Distribution with -Trimax is applied to the three-dimensional gene expression data of fibroblast cells treated with Egr-1 and Tgf-1, where gene expressions are observed under 6 conditions and 2 time points. In this research, the tricluster set with the best quality based on the Triclustering Quality Index (TQI) is obtained with = 0.015 and = 0.50. Based on this tricluster set, important information is derived regarding groups of genes that respond well to treatment with Egr1, Tgf, and persist at each time point. These gene groups are subjected to Gene Ontology (GO) analysis, which is tested using Fisher's exact test with a significance level of 0.05 and corrected with False Discovery Rate. The GO results consist of 219 GO Terms Biological Process, 28 GO Terms Molecular Function, and 52 GO Terms Cellular Component. The GO Terms from each aspect can be utilized for further research in the field of bioinformatics to analyze the relationship of GO Terms with Systemic Sclerosis (SSc) disease."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Afif Farisi
"Data Mining merupakan serangkaian proses untuk menganalisa data sehingga dapat ditemukan sesuatu informasi yang berguna dan dapat digunakan demi mendapatkan keuntungan pada suatu perusahaan. Perkembangan teknologi Data Mining yang sangat pesat dan dengan semakin berkembangnya algoritma-algoritma yang dapat digunakan untuk proses Data Mining itu sendiri, memungkinkan sebuah kasus untuk dapat diproses dengan beberapak kemungkinan algoritma dan hasilnya pun akan berbeda. PT. XYZ sebagai salah satu perusahaan yang bergerak dibidang manufaktur dan penjualan sepeda berusaha untuk terus mengembangkan strateginya dalam melakukan pemasaran dan penjualan produk-produknya sekaligus sebisa mungkin melakukan penekanan terhadap biaya yang dikeluarkan. Direct marketing sebagai salah satu strategi pemasaran yang dilakukan oleh PT. XYZ , dinilai mengeluarkan biaya operasional yang cukup besar, sehingga mereka berfikir untuk melakukan suatu cara agar kegiatan direct marketing yang dilakukan lebih mengenai sasaran dan dapat mengurangi biaya, dimana pada akhirnya mereka menggunakan solusi data mining. Tesis ini melakukan simulasi pembuatan Data Mining model dengan mengambil dataset dari database dan datawarehouse yang ada pada PT. XYZ. Metodologi yang penulis gunakan dalam melakukan pembuatan model Data Mining adalah dengan menggunakan metodologi CRISP-DM. Pada akhirnya tesis ini berhasil melakukan pengujian tingkat akurasi pada dua model Data Mining yang dihasilkan dengan dua algoritma yang berbeda, yaitu dengan algoritma Decision Tree dan algoritma Naive Bayes.

Data mining is a series of process to analyze data with the aim of gaining useful information and can be used to add some values for the organization. With the growth of data mining and the variety of data mining algorithm, it is very possible for one case being analyzed with different algorithm and also with a different result. Finally, a method to test the accuracy of Data Mining model is needed. PT. XYZ, a retail company that sells and manufactures bicycles, constantly researching and developing their marketing and sales strategies, while reducing costs. Direct marketing is one of the strategy used by PT. XYZ. As the strategy takes too much cost, the management is looking for a way to more accurately identify potential customers. Several algorithms in Data Mining could answer their problem. This thesis simulates the generation of data mining models by taking sample dataset from database and datawarehouse of PT. XYZ. The models were generated using the decision tree and the naïve bayes algorithms. The methodology that is used to generate the data mining models is CRISP-DM. Finaly the level of accuracy of the resulting models were evaluated and compared."
Depok: Universitas Indonesia, 2007
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Panjaitan, Yantine Arsita Br. author
"Peningkatan aksesibilitas koleksi perpustakaan, khususnya koleksi skripsi, tesis, dan disertasi perlu dilakukan, mengingat jumlah koleksi yang tinggi, namun sistem pengelolaan saat ini masih didasarkan pada kedatangan koleksi di Perpustakaan Universitas Indonesia. Untuk mengelola koleksi tersebut dibutuhkan kategori-kategori yang dapat mewakili skripsi, tesis, dan disertasi. Penelitian ini dilakukan untuk menentukan kategori-kategori tersebut melalui pengolahan data abstrak setiap skripsi, tesis, dan disertasi pada tahun 2005-2015 dengan salah satu algoritma clustering, yaitu Self-Organizing Map. Melalui penelitian ini ditemukan 139 kategori yang dapat mewakili skripsi, tesis, dan disertasi, yang akan digunakan untuk mengelompokkan skripsi, tesis, dan disertasi Universitas Indonesia.

Accessibility improvement of library collection, in particular undergraduate thesis, post-graduate thesis, and dissertation needs to be done, given the high number of collection, but the current management system is still based on the arrival of collection in Universitas Indonesia?s Library. Categories that can represent undergraduate thesis, post-graduate thesis, and dissertation are required in order to manage those collections. This research aims to determine categories through abstract data processing of each undergraduate thesis, post-graduate thesis, and dissertation in 2005-2015 with a clustering algorithm, namely Self-Organizing Map. This study found 139 categories that can represent undergraduate thesis, postgraduate thesis, and dissertation, that can be used to classify those collections."
Depok: Universitas Indonesia, 2016
14-21-050822194
UI - Skripsi Membership  Universitas Indonesia Library
cover
Shabila Anjani
"[ABSTRAK
Dalam mengemudikan mobil, pengemudi harus membagi konsentrasi antara mengemudi dan mengamati ikon dalam mobil, untuk itu diperlukan ikon yang dapat dikenali dengan baik untuk mengurangi beban mental dan waktu operasi pengemudi mobil. Penelitian ini mengembangkan metode untuk mengidentifikasi penyebab ikon tidak dapat dikenali dengan baik, sehingga dapat menjadi masukan untuk pengembangan ikon baru. 34 ikon yang tidak dapat dikenali dengan baik dengan recognition rate dibawah 80% dalam penelitian sebelumnya oleh C.-F. Chi and Dewi (2014) diuji kembali kepada 14 pengemudi pengalaman melalui wawancara yang dilakukan oleh Hsieh (2014). Pendapat mengenai ikon mobil yang tidak dapat dikenali dengan baik disurvey berdasarakan 3 tahapan pemahaman ikon (Campbell et al, 2004) dan 3 aspek memahami objek alphanumerical (Sanders & McCormick, 1993), yang kemudian digunakan untuk mencari kemungkinan penyebab tidak dikenalinya ikon-ikon ini. Pertanyaan dalam wawancara meliputi apakah ikon ini dapat dilihat, familier, bermakna, menarik dan apabila ada saran untuk desain alternative. Semua pertanyaan akan dibagi menjadi pertanyaan ya/tidak untuk aturan pembuatan keputusan. Sebuah tabel pembuatan keputusan digunakan untuk mengorganisir aturan keputusan sesuai dengan 7 klasifikasi ikon oleh C.-F. Chi and Dewi (2014), dan aturan ini dipastikan sesuai dengan logika dan mutually exclusive (Chi, Tseng, & Jang, 2012). Dengan menggabungkan ikon yang diuji dengan aturan keputusan, tabel keputusan dapat diubah menjadi pohon keputusan untuk mengilustrasi dan memfasilitasi perbaikan desain dari ikon-ikon yang tidak dikenali ini. Ikon-ikon baru dibuat untuk menggantikan ikon-ikon yang tidak dikenali untuk membuktikan bahwa pohon keputusan merupakan sebuah metode efektif untuk evaluasi dan desain ulang.

ABSTRACT
A comprehensible icon can reduce mental load and operation time for the driver to time share between driving and icon recognition. This study developed a diagnostic tool to identify the causes of poorly recognised icons that could be used for the redesign of existing icons. Thirty-four poorly recognized icons were selected for the current experiment because they had a below 80% recognition rate by experienced drivers in a previous study (C.-F. Chi and Dewi (2014). Fourteen experienced drivers participated in the experiment conducted by Hsieh (2014), where each participant was asked to review all poorly recognized icons one by one based on three stages of icon comprehension (Campbell et al, 2004) and the three aspects of understanding alphanumerical objects (Sanders & McCormick, 1993) to explore possible causes for poor recognition of these icons. Specific questions include whether each icon is visible, familiar, meaningful, and attractive, and if the participants have any suggestion for a better alternative design. All the answers can be further divided into more specific Yes/No decision rules. A decision table is used to organize all the decision rules based on seven categories of icon design, and to ensure these decision rules are logical and mutually exclusive (Chi, Tseng, & Jang, 2012). By associating all the tested icons with the decision rules, the decision table can be transformed into a decision tree illustration to facilitate the redesign of these poorly recognized icons A new set of redesigned icons would be created to replace all the poorly recognized icons to prove that the decision tree is a very effective diagnostic tool for icon evaluation and redesign., A comprehensible icon can reduce mental load and operation time for the driver to time share between driving and icon recognition. This study developed a diagnostic tool to identify the causes of poorly recognised icons that could be used for the redesign of existing icons. Thirty-four poorly recognized icons were selected for the current experiment because they had a below 80% recognition rate by experienced drivers in a previous study (C.-F. Chi and Dewi (2014). Fourteen experienced drivers participated in the experiment conducted by Hsieh (2014), where each participant was asked to review all poorly recognized icons one by one based on three stages of icon comprehension (Campbell et al, 2004) and the three aspects of understanding alphanumerical objects (Sanders & McCormick, 1993) to explore possible causes for poor recognition of these icons. Specific questions include whether each icon is visible, familiar, meaningful, and attractive, and if the participants have any suggestion for a better alternative design. All the answers can be further divided into more specific Yes/No decision rules. A decision table is used to organize all the decision rules based on seven categories of icon design, and to ensure these decision rules are logical and mutually exclusive (Chi, Tseng, & Jang, 2012). By associating all the tested icons with the decision rules, the decision table can be transformed into a decision tree illustration to facilitate the redesign of these poorly recognized icons A new set of redesigned icons would be created to replace all the poorly recognized icons to prove that the decision tree is a very effective diagnostic tool for icon evaluation and redesign.]"
Fakultas Teknik Universitas Indonesia, 2015
T43844
UI - Tesis Membership  Universitas Indonesia Library
cover
Nisa Nurul Hidayah
"Triclustering digunakan untuk mengelompokkan data tiga dimensi secara simultan. Metode triclustering yang digunakan pada penelitian ini adalah gabungan 𝛿-Trimax dengan Fuzzy Cuckoo search (FCS) berdasarkan Lévy Flight. Data yang digunakan adalah data ekspresi gen dari proses diferensiasi human induced pluripoten stem cell (HiPSC) pada penderita penyakit jantung. Tahap awal adalah mencari populasi solusi tricluster homogen menggunakan metode 𝛿-Trimax. Penentuan nilai skala 𝛿 untuk menjalankan algoritma pada tahap populasi awal dilakukan menggunakan metode silhouette coefficient. Algoritma 𝛿-Trimax yang digunakan pada penelitian ini adalah algoritma Muliple Nodes Deletions dan Single Node Deletions. Tricluster yang didapatkan dari tahap 𝛿- Trimax selanjutnya akan dioptimasi menggunakan metode Fuzzy Cuckoo search berdasarkan Lévy Flight. Solusi tricluster yang berpotensi meningkatkan nilai fungsi objektif akan diganti menggunakan local random walk. Kumpulan tricluster yang terbentuk dari tahap optimasi akan dievaluasi menggunakan metode Tricluster Quality Index (TQI). Solusi tricluster terbaik yang diterapkan pada dataset tiga dimensi penyakit jantung didapatkan dari penggunaan nilai skala 𝛿 = 0,026 dan 𝜃 = 1,7. Solusi tricluster terbaik dianalisis lebih lanjut menggunakan Gene Ontology (GO) untuk menjelaskan keterkaitan gen-gen terhadap proses biologis, fungsi molekuler, dan komponen seluler.

Triclustering is used to group three-dimensional data simultaneously. The triclustering method used in this research is a combination of δ-Trimax with Fuzzy Cuckoo search (FCS) based on Lévy Flight. The threedimensional data used is gene expression data from the human induced pluripotent stem cell (HiPSC) differentiation process in heart disease sufferers. The initial stage finds a homogeneous population of tricluster solutions using the δ-Trimax method. Determining the δ scale value for running the algorithm at the initial population stage is carried out using the silhouette coefficient method. The δ-Trimax algorithm used in this research is the Multiple Nodes Deletions and Single Node Deletions algorithms. The tricluster obtained from the δ-Trimax stage will then be optimized using the Fuzzy Cuckoo search method based on Lévy Flight. The tricluster solution which has the potential to increase the objective function value will be replaced using a local random walk. The tricluster collection formed from the optimization stage will be evaluated using the Tricluster Quality Index (TQI) method. The best tricluster solution applied to a three-dimensional heart disease dataset was obtained from using scale values δ = 0,026 and θ = 1,7. The best tricluster solution was further analyzed using Gene Ontology (GO) to explain the relationship of genes to biological processes, molecular functions, and cellular components.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Devina Christianti
"ABSTRACT
Klasifikasi adalah proses menugaskan satu set data ke dalam kelas yang ada berdasarkan nilai setiap atribut. Pengklasifikasi pohon keputusan diklaim lebih cepat dan berproduksi akurasi yang lebih baik. Namun, ia memiliki beberapa kelemahan di mana pengklasifikasi rentan untuk overfitting. Overfitting adalah suatu kondisi di mana model tidak mampu menarik kesimpulan data baru dengan cara yang benar. Overfitting di pohon keputusan dapat dihindari dengan memotong subtree pengaruh kecil dalam melakukan klasifikasi ketika pohon ditanam, disebut post-pruning, yang bertujuan untuk meningkatkan kinerja model dalam memprediksi data. Tesis ini mengusulkan metode pasca pemangkasan dengan menerapkan Risiko Bayes, di mana estimasi risiko setiap simpul induk dibandingkan dengan simpul daunnya. Sebagai perbandingan, pemangkasan pasca lainnya Metode yang diterapkan, yaitu Reduced Error Pruning (REP). Kedua metode tersebut diterapkan
untuk tiga dataset klasifikasi churn pelanggan dari situs Kaggle dan IBM Datasets. Untuk hasilnya, Bayes Risk Post-Pruning dapat meningkatkan kinerja Decision Tree lebih baik dari Reduced Error Pruning dengan meningkatkan nilai akurasi, presisi, dan daya ingat. Kedua metode juga diterapkan pada tiga proporsi berbeda untuk data pelatihan (60%, 70% dan 80%). Hasilnya menunjukkan bahwa semakin besar ukuran dataset pelatihan dikaitkan akurasi, presisi, dan daya ingat model yang lebih tinggi.

ABSTRACT
Classification is the process of assigning a set of data to an existing class based on the value of each attribute. Decision tree classifiers are claimed to be faster and produce better accuracy. However, it has several disadvantages where the classifier is prone to overfitting. Overfitting is a condition in which the model is unable to draw new data conclusions in the right way. Overfitting in the decision tree can be avoided by cutting the subtree of small influence in classifying when the tree is planted, called post-pruning, which aims to improve the performance of the model in predicting data. This thesis propose a post-pruning method by applying Bayes Risk, where the estimated risk of each parent node is compared to the leaf node. As a comparison, other post pruning methods are applied, namely Reduced Error Pruning (REP). Both methods are applied for three customer churn classification datasets from the Kaggle site and IBM Datasets. For the results, Bayes Risk Post-Pruning can improve Decision Tree performance better than Reduced Error Pruning by increasing the value of accuracy, precision, and memory. Both methods are also applied to three different proportions for training data (60%, 70% and 80%). The results show that the greater the size of the training dataset is associated with higher model accuracy, precision, and recall.
"
2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nabilla Ayu Fauziyyah
"ABSTRACT
Dewasa ini, sudah banyak rumah sakit modern yang dilengkapi dengan peralatan monitoring yang lengkap, yang menyebabkan makin banyaknya data medis yang tersimpan. Data medis ini memiliki karakteristik khusus, dan biasanya metode statistika biasa tidak dapat diterapkan begitu saja. Dari sinilah kemudian muncul gagasan mengenai Medical Data Mining (MDM) yang sudah terbukti cocok untuk diterapkan dalam analisis data medis. Naive Bayes Classifier (NBC) merupakan salah satu implementasi dari MDM. Kendati terbukti memiliki hasil yang akurat dan memuaskan dalam proses diagnosis medis, metode-metode dalam MDM belum sepenuhnya diterima dalam praktek medis untuk diterapkan. Alasan utama mengapa metode ini belum dapat diterima adalah karena terdapatnya resistansi dari tenaga medis terhadap metode diagnosis yang baru. Tujuan dari penelitian ini adalah untuk menerapkan dan mengevaluasi performa NBC  pada data rekam medis pasien kanker payudara di salah satu rumah sakit di Jakarta dalam masalah klasifikasi subtipe molekular kanker payudara, serta membandingkan hasil klasifikasi NBC dengan metode MDM lain, yaitu Decision Tree (DT). Hasil analisis menunjukkan bahwa NBC mengungguli DT dengan tingkat akurasi sebesar 92,8%. Selain itu, dapat juga ditunjukkan secara empiris bahwa NBC mampu menangani missing value dengan cukup baik dan tidak membutuhkan data dalam jumlah banyak untuk tetap dapat mengklasifikasikan sebagian besar pasien dengan benar.

ABSTRACT
Nowadays, modern hospitals are well equipped with data monitoring devices, which resulted in an abundant amount of medical data. These medical data possess specific characteristics and usually, statistical methods could not be applied directly. This is what started the notion of Medical Data Mining (MDM), which has proven to be effective in analysing medical data. Naive Bayes Classifier (NBC) is an implementation of MDM. Even though MDM methods produce a sufficiently accurate and satisfying results in diagnosis problems, these methods are still not well accepted in the medical practice. One of the main reasons is because there is a resistance of physicians to a new diagnosis method. The main goal of this study is to apply and evaluate the performance of NBC in classifying breast cancer patients in a private hospital in Indonesia into five classes of molecular subtypes and compare its performance with another popular MDM method, Decision Tree (DT). Results showed that NBC outperformed DT by reaching an accuracy rate of 92.8%. This study could also show empirically that NBC does not need a big dataset to be able to achieve a high accuracy rate and that NBC could handle the problem of missing values just fine."
2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>