Hasil Pencarian

Ditemukan 136788 dokumen yang sesuai dengan query

Nedya Shandri

Klasifikasi data diabetes dan kanker menggunakan entropi fuzzy C-means berbasis = Diabetes and cancer data classification using entropy fuzzy C-means based on kernel with chi-square feature selection

"Penyakit kronis adalah penyakit yang diderita dalam waktu panjang dan dapat berkembang secara cepat, salah satunya adalah penyakit kanker dan diabetes. Oleh karena itu, dengan melakukan pendeteksian dini maka perkembangan penyakit kanker dan diabetes akan menurun. Salah satu cara pendektesian dini dapat dilakukan oleh machine learning. Teknik machine learning banyak digunakan dalam berbagai bidang khususnya untuk analisa data medis. Clustering merupakan salah satu metode dari machine learning yang bertujuan untuk mengelompokkan suatu dataset ke dalam subset berdasarkan ukuran jarak. Salah satu contoh metode clustering adalah metode Entropi Fuzzy C-Means yang dapat mengidentifikasi entropi disetiap titik data dan memilih pusat kluster terdekat dengan entropi minimum. Pada penelitian akan digunakan data kanker dan diabetes dari UCI Repository dengan menggunakan metode Entropi Fuzzy C-Means yang akan dimodifikasi dengan kernel RBF. Sebelum dilakukan klasifikasi, dilakukan pemilihan fitur menggunakan Chi-Square. Tujuan dari penelitian ini adalah untuk mendapatkan fitur-fitur yang optimal dan mengetahui hasil akurasi menggunakan untuk klasifikasi data diabetes dan kanker. Diperoleh hasil akurasi tertinggi pada klasifikasi data medis menggunakan metode Entropi Fuzzy C-Means berbasis kernel dengan pemilihan fitur Chi-Square yaitu sebesar 83.33% untuk data diabetes dan 77.77-100% untuk data kanker.

Chronic disease is a disease that occur for a long time and can develop quickly, one of them is cancer and diabetes. The early detection is very helpful to reduce the development of the disease. One of the ways to detect cancer and diabetes disease is using machine learning technic. Machine learning technic is widely use in many aspects especially in medical data analysis. Clustering is part of machine learning technic that is used to group a dataset into subset based on space size. Entropy Fuzzy C-Means is one of the methods which can identify entropy in every data and can choose the cluster center similar with minimum entropy. In this paper we will use cancer and diabetes medical data from UCI Repository using Entropy Fuzzy C-Means method which is modified by kernel RBF. Before classification, we will select the feature using Chi-Square to get the optimal subset feature. The purpose of this study was to obtain optimal features and find out the results of accuracy using for the classification of diabetes and cancer data. The medical data classification using Entropy Fuzzy C-Means based on kernel with Chi-Square feature selection gives the 100% highest accuration result for cancer data and 83,33% for diabetes data."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Andi Wulan Lestari A.

Klasifikasi data kanker dengan menggunakan normed kernel function-based fuzzy possibilistic C-means dan pemilihan fitur berdasarkan laplacian score = Classification of cancer data using normed kernel function based fuzzy possibilistic C-means and feature selection based on laplacian score

"Dalam dekade terakhir ini, kanker menjadi pusat perhatian dunia kesehatan dikarenakan penyakit ini termasuk dalam penyebab utama kematian di seluruh dunia. Menurut statistik GLOBOCAN, International Agency for Research on Cancer IARC pada tahun 2012, terdapat 14.067.894 kasus kanker baru dengan 8.201.575 kematian akibat kanker di seluruh dunia. Oleh sebab itu, dibutuhkan tindakan pencegahan dan pengobatan yang efektif. Salah satunya dengan metode klasifikasi kanker. Metode klasifikasi kanker dapat dijadikan sebagai alat bantu tenaga medis untuk menangani kanker. Dalam tugas akhir ini diusulkan algoritma untuk mengklasifikasikan data kanker dengan menggunakan Fuzzy Possibilistic C-means FPCM dan metode baru yang menggunakan Normed Kernel Function-based Fuzzy Possibilistic C-means NKFPCM. Tujuannya untuk mendapatkan keakuratan terbaik dalam pengklasifikasian data kanker. Untuk meningkatkan keakuratan dua metode tersebut, dilakukan evaluasi kandidat fitur dengan menggunakan pemilihan fitur. Untuk pemilihan fitur digunakan metode Laplacian Score. Hasil yang diperoleh menunjukkan perbandingan keakuratan dan running time dari FPCM dan NKFPCM tanpa dan dengan dilakukan pemilihan fitur. Hasilnya, didapatkan akurasi terbaik saat dengan menggunakan metode NKFPCM dengan dilakukan pemilihan fitur, yaitu 90,91 dengan penggunaan 750 fitur untuk data kanker kandung kemih, 100 dengan penggunaan 250 fitur untuk data kanker darah leukemia , 96,67 dengan penggunaan 3.000 fitur untuk data kanker prostat, dan 100 dengan penggunaan 250 fitur untuk data kanker lambung.

Over the past decade, cancer has become the center of attention in the medical field due to its reputation as one of the main causes of death in the worldwide. According to GLOBOCAN statistics, International Agency for Research on Cancer IARC , there were 14,067,894 new cancer cases and 8,201,575 cancer related deaths occurred in 2012. Therefore, preventive actions and effective treatments are required to reduce these threats. One method of handling of cancer using cancer classification. Cancer classification method can be used as aids to handle Cancer. This research proposed an algorithm to classify cancer data using Fuzzy Possibilistic C Means FPCM and a new method, Normed Kernel Function Based Fuzzy Possibilistic C Means NKFPCM. The purpose of this research is to obtain the best accuracy in the classification of cancer data. To improve the accuracy of these two methods, the feature candidate will be evaluated using feature selection. The feature selection was conducted using Laplacian Score. The results obtained show the comparison of the accuracy and running time of FPCM and NKFPCM without and with feature selection. The results show that the best accuracy obtained when using NKFPCM with features selection, with percentage of 90.91 by using 750 features for bladder cancer data, 100 by using 250 features for blood cancer leukemia data, 96.67 by using 3,000 features for prostate cancer data, and 100 by using 250 features for gastric cancer data."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016

S66693

UI - Skripsi Membership Universitas Indonesia Library

Arvan Aulia Rachman

Klasifikasi data kanker menggunakan fuzzy c-means dengan pemilihan fitur menggunakan fisher's ratio = Classification of cancer data using fuzzy c means with feature selection using fisher's ratio

"Klasifikasi data kanker dilakukan untuk menemukan terapi yang tepat yaitu memaksimalkan efektivitas dan meminimalkan toksisitas. Pada umumnya, data kanker terdiri dari banyak fitur. Namun, tidak semua fitur tersebut informatif. Oleh karena itu, fitur-fitur tersebut akan diseleksi menggunakan metode Fisher's Ratio untuk memilih fitur-fitur yang paling informatif. Fitur-fitur terbaik akan dibentuk data baru. Data, sebelum dan setelah dilakukan pemilihan fitur, diklasifikasi menggunakan metode Fuzzy C-Means. Akurasi dari proses klasifikasinya akan dibandingkan. Hasilnya, tanpa melakukan pemilihan fitur, diperoleh rata-rata akurasi sebesar 82.92%. Setelah dilakukan pemilihan fitur, diperoleh akurasi terbaik dengan menggunakan 150 fitur dengan rata-rata akurasi sebesar 89.68%.

Classification of cancer data is done to find the right therapy that maximize efficacy and minimize toxicity. In general, cancer data consists of many features. However, not all of these features are informative. Therefore, these features will be selected using Fisher's Ratio to choose features that are most informative. The best features to be formed new data. Data, before and after feature selection, are classified using Fuzzy C-Means. The accuracy of the classification process will be compared. As a result, without doing feature selection, the accuracy is 82.92%. After doing feature selection, the best accuracy is obtained by using 150 features with the accuracy is 89.68%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016

S64140

UI - Skripsi Membership Universitas Indonesia Library

Aldi Purwanto

Klasifikasi Kanker Paru-Paru Menggunakan Fuzzy C-Means dan Fuzzy Kernel C-Means Berdasarkan Gambar CT Scan = Lung Cancer Classification Using Fuzzy C-Means and Fuzzy Kernel C-Means Based on CT Scan Image

Kanker merupakan salah satu penyakit dengan angka kematian tertinggi di dunia. Kanker adalah penyakit ketika sel-sel abnormal tumbuh tidak terkendali yang dapat menyerang organ tubuh yang berdampingan atau menyebar ke organ lain. Untuk mendiagnosis kanker paru-paru dapat dilakukan dengan pengambilan gambar rontgen, CT scan, dan biopsi jaringan paru. Tujuan dari penelitian ini adalah untuk memprediksi apakah pasien menderita kanker paru-paru atau tidak, dengan menggunakan data gambar CT scan mereka. Oleh sebab itu, dalam penelitian ini digunakan ekstraksi fitur dari gambar CT scan sebagai data untuk mengklasifikasi kanker paru-paru. Data yang digunakan merupakan data gambar CT scan yang didapat dari SPIE-AAPM Lung CT Challenge 2015. Gambar CT scan paru-paru dengan ukuran 512x512 sebelumnya dilakukan pre-processing 2D crop dan filtering. Dengan mengekstraksi fitur dari data gambar seperti ukuran nodul, Gray Level Co-occurrence Matriks (GLCM), dan Local Binary Pattern (LBP) dapat mengubah data gambar menjadi numerik. K-Fold Cross Validation digunakan untuk memisahkan data menjadi data training dan data testing. Fuzzy C-Means (FCM) dan Fuzzy Kernel C-Means (FKCM) diterapkan untuk pengklasifikasian. Didapatkan performa FKCM lebih baik dibandingkan FCM, dengan rata-rata akurasi 75.60%, precision 83.05%, dan specificity 87.80%. Oleh karena itu, penambahan kernel pada metode Fuzzy C-Means dapat meningkatkan performa dari metode tersebut

Cancer is one of the diseases with the highest mortality rate in the world. Cancer is a disease when abnormal cells grow out of control that can attack the body's organs side by side or spread to other organs. To diagnose lung cancer can be done by taking x-ray images, CT scans, and lung tissue biopsy. The purpose of this study is to classify whether patients have lung cancer or not using their CT scan image data. Therefore, in this study feature extraction from CT images was used as data to classify lung cancer. The data used in the form of CT scan image obtained from SPIE-AAPM Lung CT Challenge 2015. Previously, a CT scan of the lung with a size of 512x512 was pre-processed 2D crop and filtering. By extracting features from image data such as nodule size, Gray Level Co-occurrence Matrix (GLCM), and Local Binary Pattern (LBP) can convert image data to numeric. K-Fold Cross Validation is used to separate data into training data and testing data. Fuzzy C-Means (FCM) and Fuzzy C-Means (FKCM) are applied for classification. FKCM performed better than FCM, with 75.60% average accuracy, 83.05% average precision, and 87.80% average specificity. Therefore, adding a kernel to the Fuzzy C-Means method can improve the performance of the method.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Rezki Aulia Putri

Aplikasi fuzzy C-means berbasis kernel pada klasifikasi data penyakit sinusitis = Application of kernel based fuzzy C-means for sinusiitis dataset classification

"Sinusitis adalah peradangan pada dinding sinus, yaitu rongga kecil yang terhubung dengan rongga udara dalam tulang tengkorak. Sinus terletak di belakang dahi, di dalam struktur tulang pipi, di kedua sisi hidung, dan di belakang mata. Sinusitis disebabkan oleh peradangan pada rongga hidung, tumbuhnya polip, alergi, dan hal lainnya yang dapat terjadi pada orang dewasa, remaja, bahkan anak-anak. Untuk mengklasifikasi jenis sinusitis, penulis menggunakan Fuzzy C-Means Berbasis Kernel yang merupakan pengembangan dari Fuzzy C-Means. Fuzzy C-Means mengelompokkan data menggunakan jarak Euclidean. Namun, jika data yang akan dipisahkan adalah data non linear, maka konvergensinya akan kecil dan membutuhkan waktu yang lama. Untuk menyelesaikan masalah ini dapat digunakan Fuzzy C-Means Berbasis Kernel yang menggunakan fungsi kernel untuk menggantikan jarak Euclidean. Metode ini memetakan objek dari ruang data ke ruang fitur yang berdimensi lebih tinggi, sehingga dapat mengatasi kelemahan FCM. Data yang digunakan adalah data penyakit sinusitis yang diperoleh dari laboratorium radiolog RSUPN Cipto Mangunkusumo, Jakarta. Karena data yang digunakan adalah data non linear, maka metode yang lebih cocok digunakan adalah Fuzzy C-Means Berbasis Kernel. Dengan menggunakan software Matlab diperoleh akurasi 100% dengan waktu mendekati 0 detik untuk Fuzzy C-Means Berbasis Kernel.

Sinusitis is an inflammation of the sinus wall, a small cavity interconnected through the airways in the skull bones. It is located on the back of the forehead, inside the cheek bone structure, on both side of the nose, and behind the eyes. Sinusitis is caused by infection, growth of nasal polips, allergies, and others. This condition can effect adults, teenagers, and even children. To classify sinusitis we used Kernel Based Fuzzy C-Means, which is the development of Fuzzy C-Means (FCM). FCM algorithm groups data using Euclidean distance. However, when non linear data is separated, the convergence is innacurate and need a long running time. To overcome this problem, a Kernel Based Fuzzy C-Means that use kernel functions as a substitute for Euclidean distance. It maps objects from data space to a higher dimention feature space, so they can overcome FCM deficiencies. Data that is used is sinusitis dataset obtained from the laboratory of radiology at Cipto Mangunkusumo National General Hospital, Jakarta. Because the data used is non-linear dataset, the more suitable method is Kernel Based Fuzzy C-Means. By using the Matlab software 100% accuracy is obtained and running time is close to 0 for Kernel Based Fuzzy C-Means."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Sakinah Hayati

Klasifikasi kanker untuk data berdimensi tinggi menggunakan tangent fuzzy possibilistic c-means algorithm = Classification cancer for high dimensional data using tangent fuzzy possibilistic c-means algorithm

"Klasifikasi kanker berbasis microarray data telah menjawab tantangan pengobatan kanker dengan terapi kanker yang dapat dimaksimalkan dan toksisitas yang dapat diminimalkan. Pada tugas akhir ini, dibahas proses klasifikasi terhadap data kanker colon untuk menentukan apakah data tersebut merupakan data kanker atau normal. Tujuan dari penulisan tugas akhir ini adalah memperoleh keakuratan klasifikasi data kanker colon dengan menggunakan Tangent Fuzzy Possibilistic C-Means (TFPCM). Keakuratan klasifikasi tergantung pada parameter-parameter: nilai , derajat fuzzy, dan derajat possibilistic yang terdapat pada algoritma TFPCM, sehingga diperlukan nilai optimal dari parameter-parameter tersebut. Metode pada tugas akhir ini menggunakan teknik Robust Fuzzy Possibilistic C-Means (RFPCM) dengan fungsi Kernel yang digunakan adalah hyper tangent Kernel Bray Curtis.

Cancer classification based on microarray data has been able to cure cancer with cancer therapy that can be maximized and with toxicity that can be minimized. In this essay, classification process of colon cancer data will be discussed further to determine whether the data is a cancer data or normal data. The purpose of writing this essay is to obtain the accuracy of colon cancer data classification using Tangent Fuzzy Possibilistic C-Means (TFPCM). The accuracy depends on the parameters: value, degree of fuzzy, and degree of possibilistic in TFPCM algorithm, so the optimal value of those parameters are needed. The method in this essay using Robust Fuzzy Possibilistic C-Means technique (RFPCM) where the Kernel function that is being used is hyper tangent Kernel Bray Curtis. "

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016

S63200

UI - Skripsi Membership Universitas Indonesia Library

Egira Adhani Khairunnisa

Analisis Cluster Kinerja Mahasiswa Tahun Pertama Menggunakan Fuzzy C-Means Clustering Dengan Metode Seleksi Fitur Chi-Square = Analysis of The First-Year University Students Performance Clusters Using Fuzzy C-Means Clustering with Chi-Square Feature Selection Method

Saat ini tidak ada keraguan bagi siswa-siswi sekolah menengah untuk melanjutkan pendidikannya ke jenjang universitas. Namun, transisi dari sekolah menengah ke pendidikan tinggi adalah tantangan besar bagi mahasiswa tahun pertama. Kinerja mahasiswa pada tahun pertama cenderung menentukan kinerja mahasiswa tersebut di tahun-tahun akademik berikutnya. Penting untuk mencari karakteristik-karakteristik mahasiswa berdasarkan kinerjanya pada awal tahun semester akademik, sehingga dapat dilakukan pendeteksian awal untuk mencegah penurunan kinerja dan meningkatkan prestasi akademik mahasiswa. Penelitian ini bertujuan untuk mengelompokkan 140 mahasiswa semester pertama. Fitur-fitur diseleksi menggunakan Chi-Square lalu digunakan Fuzzy C-Means clustering untuk mengelompokkan mahasiswa. Dari hasil simulasi, mahasiswa dikelompokkan ke dalam dua cluster dengan kinerja cluster kedua lebih baik dibanding kinerja cluster pertama.

Currently there is no doubt for high school students to continue their education at the university level. However, the transition from high school to university is a major challenge for the first-year students. Moreover, student performance during the first year tends to determine their performance in the following academic years. It is important to find student's characteristics based on their performance at the beginning of the academic semester so that early detection can be done to prevent performance degradation and increase student academic achievement. This study aims to cluster 140 first year students. Features are selected using the Chi-Square feature selection method and then using Fuzzy C-Means clustering to group the students. From simulation result, students are grouped into two clusters with the second cluster's performance is better than the first cluster's performance.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ruhul Selsi

Klasifikasi citra hasil biopsi kanker prostat dengan implementasi fuzzy Robust Kernel C-Means = Image classification of prostate cancer biopsy results with The implementation of fuzzy Robust Kernel C-Means

"Era revolusi industri 4.0 memberikan peluang bagi data science untuk membantu kepentingan masyarakat tidak hanya di bidang teknologi dan industri, tetapi juga di bidang kesehatan. Salah satu masalah di bidang kesehatan yaitu ketika mendiagnosis suatu penyakit dari hasil biopsi, CT-scan, maupun MRI-scan para tenaga medis akan kewalahan jika memeriksanya satu per satu. Oleh karena itu, penelitian ini menggunakan machine learning untuk membantu dunia kesehatan menyelesaikan masalah overload data saat mendiagnosis pasien. Penyakit yang digunakan dalam penelitian ini adalah kanker prostat, yaitu salah satu penyebab kematian tertinggi pada pria di negara Barat. Kanker prostat adalah tumor ganas yang tumbuh secara perlahan di dalam kelenjar prostat. Pada umumnya, kanker prostat stadium awal timbul tanpa adanya gejala dan berkembang dengan perlahan. Maka, sangat penting bagi pasien untuk mendeteksi dini penyakit kanker prostat, dengan melakukan pemeriksaan kadar Prostate Specific Antigen (PSA). Kadar PSA dalam darah diukur dalam satuan nanogram per milimeter (ng / mL) yang normalnya berada pada angka 4 – 7 ng/mL. Jika lebih dari itu, disarankan untuk melakukan tes lebih lanjut atau langsung melakukan biopsi (Kementerian Kesehatan Republik Indonesia, 2017). Tingkat keganasan kanker prostat dapat diukur dengan sistem pengelompokan gleason score dari hasil tes biopsi pasien. Penelitian ini bertujuan untuk memprediksi pasien mengidap kanker prostat atau tidak dengan menggunakan citra hasil biopsi pasien yang telah diperbesar yang diambil dari Prostate cANcer graDe Assessment (PANDA) Challenge 2020. Ekstraksi fitur dengan metode Gray Level Co-occurence Matrix (GLCM) akan membantu untuk mengubah data citra menjadi data numerik. Metode yang dipilih pada penelitian ini adalah Fuzzy Robust Kernel C-Means dengan akurasi 87,5 %.

The era of the industrial revolution 4.0 provides opportunities for data science to help the interests of society not only in technology and industry, but also in the health sector. One of the problems in the health sector is that when diagnosing a disease from the results of a biopsy, CT-scan, or MRI-scan, medical personnel will be overwhelmed if they check one by one. Therefore, this study uses machine learning to help the healthcare world solve the problem of data overload when diagnosing patients. The disease used in this study is prostate cancer, which is one of the leading causes of death in men in Western countries. Prostate cancer is a malignant tumor that grows slowly in the prostate gland. In general, early stage prostate cancer appears without symptoms and develops slowly. So, it is very important for patients to detect prostate cancer early, by checking the levels of the Prostate Specific Antigen (PSA). PSA levels in the blood are measured in units of nanograms per millimeter (ng / mL), which is normally 4 - 7 ng / mL. If it is more than that, it is advisable to carry out further tests or to immediately perform a biopsy (Ministry of Health of the Republic of Indonesia, 2017). The level of malignancy of prostate cancer can be measured by a system of grouping the gleason score from the results of the patient's biopsy test. This study aims to predict whether or not a patient has prostate cancer using enlarged biopsy images of patients taken from the Prostate Cancer GraDe Assessment (PANDA) Challenge 2020. Feature extraction using the Gray Level Co-occurrence Matrix (GLCM) method will help to change image data becomes numeric data. The method chosen in this study is Fuzzy Robust Kernel C-Means with an accuracy of 87.5%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Nadisa Karina Putri

Klasifikasi data diabetes dengan learning vector quantization dan seleksi fitur chi-square = Learning vector quantization for diabetes data classification with chi-square feature selection

"Diabetes mellitus atau biasa disebut sebagai diabetes adalah penyakit metabolik yang disebabkan oleh penderita memiliki kadar gula darah yang tinggi dan organ pankreas tidak dapat memproduksi hormon insulin secara efektif. Diabetes dapat mengakibatkan penyakit yang lebih parah seperti kebutaan, gagal ginjal, dan penyakit jantung. Oleh karena itu, pendeteksian sejak dini dibutuhkan agar pasien dapat mencegah penyakitnya sebelum menjadi lebih parah. Karena data medis biasanya berukuran besar dan tidak berdistribusi normal, beberapa peneliti menggunakan metode klasifikasi untuk memprediksi gejala penyakit atau mendiagnosa penyakit. Pada penelitian ini, digunakan algoritma Learning Vector Quantization (LVQ) untuk klasifikasi data set diabetes dengan seleksi fitur Chi-Square. Pada penelitian ini digunakan dua data set diabetes yaitu data set I dengan 8 fitur dan data set II dengan 19 fitur. Hasil dari penelitian ini menunjukkan bahwa untuk data set dengan 8 fitur, akurasi dan performa model tertinggi diperoleh ketika data set mengandung hampir seluruh fiturnya yaitu 7 fitur dengan akurasi sebesar 76,55%. Sedangkan untuk data set dengan 19 fitur, akurasi dan performa model tertinggi diperoleh ketika data set telah melewati proses seleksi fitur dengan menggunakan metode Chi-Square yaitu pada model dengan 10 fitur dengan akurasi sebesar 78,96%.

Diabetes mellitus or commonly referred as diabetes is a metabolic disorder caused by high blood sugar level and the pancreas that does not produce insulin effectively. Diabetes can lead to more relentless disease such as blindness, kidney failure, and heart attacks. Therefore, early detection is needed in order for the patients to prevent the disease for being more severe. According to the non-normality and huge size of data in medical field, some researchers use classification methods to predict symptoms or diagnose patients. In this study, Learning Vector Quantization (LVQ) is used to classify the diabetes data set with Chi-Square Feature Selection. This study adopted two kinds of diabetes data set which are, data set I that contains 8 features and data set II that contains 19 features. The result of the experience shows that for data set I, the highest accuracy and model performance is achieved when the model contains most of its features which is the model that contains 7 features with 76,55% of accuracy. Moreover, for data set II, the highest accuracy and model performance is achieved when the model contains features that has been selected with the Chi-Square feature selection which is the model with 10 features and the accuracy achieved is 78,96%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Kiki Aristiawati

Imputasi missing values menggunakan algoritma fuzzy c-means pada klasifikasi data Penyakit Paru Obstruktif Kronik (PPOK) = Missing values imputation based on fuzzy c-means algorithm for classification of Chronic Obstructive Pulmonary Disease (COPD)

"Penyakit Paru Obstruktif Kronik (PPOK) merupakan salah satu penyebab kematian terbanyak dengan jumlah kematian sekitar 3 juta jiwa atau setara dengan 5,2% dari jumlah

kematian di seluruh dunia. Untuk itu diperlukan penelitian lebih lanjut mengenai PPOK, namun data yang dikumpulkan dalam penelitian biasanya tidak memuat semua data yang diinginkan. Hilangnya informasi dalam data dikenal dengan istilah missing values yang dapat menjadi masalah untuk semua jenis analisis data. Salah satu cara untuk menangani missing values yaitu dengan melakukan proses imputasi data pada tahap preprocessing untuk mendapatkan data lengkap yang diharapkan mampu meningkatkan akurasi dari analisis data yang dilakukan. Pada penelitian ini dilakukan imputasi menggunakan mean dan Fuzzy C-Means (FCM). FCM merupakan metode pengelompokan yang memungkinkan satu bagian data menjadi milik dua atau lebih kelompok berdasarkan nilai keanggotaannya. Data lengkap hasil imputasi diuji menggunakan metode klasifikasi Decision Tree dengan persentase data training 50%-90% untuk melihat performa dari metode mean dan FCM. Berdasarkan penelitian ini diperoleh nilai akurasi, presisi, dan recall tertinggi untuk klasifikasi data PPOK yang diimputasi menggunakan mean masing-masing sebesar 64,7%, 71%, dan 65%. Sedangkan nilai akurasi, presisi, dan recall tertinggi untuk klasifikasi data PPOK yang diimputasi menggunakan FCM

masing-masing sebesar 78,9%, 85%, dan 79%. Hasil ini menunjukkan bahwa FCM membantu Decision Tree untuk mengklasifikasikan data lebih baik dengan nilai imputasi yang lebih baik untuk menggantikan missing values.

Chronic Obstructive Pulmonary Disease (COPD) is one of the most causes of death in the world with around 3 million deaths, equivalent to 5.2% of deaths worldwide. For this reason, further research needs to be done on CPOD, but the data collected in the study often does not contain all the desired data. Loss information in data is called as a missing values which can be a problem for all types of data analysis. One way to handle missing values is by doing the imputation process at the preprocessing stage to obtain complete data which is expected to increase the accuracy of the data analysis performed. In this study, imputation was done using mean and FCM. FCM is a clustering method that allows one part of the data to belong to two or more groups based on their membership function. The complete dataset was trained with Decision Tree classifier with the percentage of data training 50%-90% to observe the performance in terms of accuracy, precision, and recall for mean and FCM method. Based on this study, the highest value of accuracy, precision,

and recall for classification of COPD data imputed using mean of 64.7 %, 71 % and 65 % respectively. While the highest value of accuracy, precision, and recall for classification of COPD data imputed using FCM is 78.9 %, 85 %, and 79 % respectively. These results indicate that FCM helps Decision Tree to classify data better with better imputation values to replace missing values."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian