Hasil Pencarian

Ditemukan 47 dokumen yang sesuai dengan query

Annisa Kamalia

Klasifikasi data talasemia menggunakan K-nearest neighbor dan naive bayes = Classification of data thalassemia using K-nearest neighbor and naive bayes

"ABSTRACT

Talasemia adalah penyakit yang disebabkan oleh adanya kelainan dalam hemoglobin. Penyakit talasemia merupakan penyakit herediter atau penyakit keturunan dimana pembawa gen talasemia adalah orang tua dari penderita. Di Indonesia, pada tahun 2015 diketahui jumlah kasus talasemia mencapai 7.029 kasus. Sampai saat ini talasemia belum dapat disembuhkan namun dapat dikenali sifat pembawanya dengan skrining. Dalam tugas akhir ini, akan dibandingkan performa dari dua metode yang digunakan untuk mengklasifikasikan data talasemia, yaitu K-Nearest Neighbor dan Naive Bayes. Data yang digunakan adalah 82 data pasien talasemia dan 68 data pasien non-talasemia dari Rumah Sakit Anak dan Bunda Harapan Kita, Jakarta Barat. Hasil akhir menunjukkan bahwa metode Naive Bayes memberikan nilai akurasi yang lebih besar dari K-Nearest Neighbor dalam mengklasifikasikan talasemia. Rata-rata akurasi Naive Bayes sebesar 99.775% dengan rata-rata waktu running 0.0554 detik dan rata-rata akurasi K-Nearest Neighbor adalah 97.142% dengan rata-rata waktu running 0.081 detik. Untuk nilai spesifikasi, keduanya memberikan performa yang sama, yaitu dari K-Nearest Neighbor diperoleh ketika K=3 yaitu sebesar 100% dan dari Naive Bayes sebesar 100%. Hasil rata-rata sensitivitas tertingi diberikan oleh Naive Bayes yaitu sebesar 99.59%, sedangkan K-Nearest Neighbor sebesar 96.25% untuk K=1.

ABSTRACT

Thalassemia is a disease caused by abnormalities in the hemoglobin. Thalassemia is a hereditary disease which the thalassemia gene carriers are parents of sufferers. In Indonesia, in 2015 it was found that the number of thalassemia cases reached 7,029 cases. Until now thalassemia has not been cured, but it can be recognized the nature of its carrier by screening. In this final project, the performance of the two methods will be compared to classify thalassemia data, namely K-Nearest Neighbor and Naive Bayes. The data used were 82 data on thalassemia patients and 68 data on non-thalassemia patients from Harapan Kita Children and Womans Hospital, West Jakarta. The final results show that the Naive Bayes method provides greater accuracy value than K-Nearest Neighbor in classifying thalassemia. The average accuracy of Naive Bayes is 99.775% with an average running time of 0.0554 seconds and the average accuracy of K-Nearest Neighbor is 97.142% with an average running time of 0.081 seconds. For specification values, both give the same performance. The result of specification values using K-Nearest Neighbor yield when K = 3 that is 100% and from Naive Bayes that is 100%. The highest average sensitivity results are given by Naive Bayes is 99.59%, while K-Nearest Neighbor is 96.25% for K = 1."

2019

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Saragih, Glori Stephani

Prediksi kebangkrutan bank dengan menggunakan random forest = Predict bank failures using random forest

"ABSTRAK

Pada tahun 1994, Turki mengalami krisis keuangan yang sangat berpengaruh negatif terhadap sektor perbankan, sehingga banyak bank yang dinyatakan bangkrut. Kebangkrutan bank memiliki dampak yang besar pada sektor riil dan rumah tangga. Oleh karena itu, penting untuk memprediksi kebangkrutan bank. Tahun 2009, Boyacioglu, Kara dan Baykan telah memprediksi kebangkrutan bank di Turki pada periode 1994-2004 dengan menggunakan CAMELS sebagai variabel prediktor dan Artificial Neural Network, Support V ector Machine serta metode statistik peubah ganda sebagai metode klasifikasi. Namun, pada penelitian ini akan dibuat pembaruan dengan menggunakan random forest. Dari hasil yang didapat, random forest memiliki akurasi 100 performa training dan 94 performa testing dengan mengunakan 20 rasio. Salah satu kelebihan random forest adalah perhitungan variabel penting, apabila dibentuk model dengan menggunakan variabel prediktor terpilih didapat hasil 100 performa training dan 96 performa testing dengan menggunakan 6 rasio. Jika dibandingkan dengan model yang digunakan pada makalah Boyaciaglu, Kara dan Baykan 2009, meskipun pada performa testing random forest tidak memiliki akurasi yang lebih tinggi dari Learning Vector Quantization dengan performa testing 100, namun tingkat akurasinya tidak terlalu berbeda jauh dan random forest tidak memerlukan normalisasi. Pada penelitian ini didapat enam variabel yang paling penting, yaitu: CA2, E1, CA3, SMR1, SMR2 dan E2.

ABSTRACT

In 1994, there was a financial crisis in Turkey. Many banks were declared failed because of the negative impact from the crisis. The failure of individual banks has a huge impact on the real sector and households. Therefore, it is important to predict bank failure. The 2009, Boyacioglu, Kara, and Baykan had predicted bank failures in Turkey, during the period 1994 2004 using CAMELS as a predictor variable and Artificial Neural Network, Support Vector Machine, multivariate statistical methods as classifier method. However, in this research we will make novelty by using random forest. Based on our results, random forest has accuracy 100 training performance and 94 testing performance with used 20 ratios. One of advantage in random forest is variable importance measure, if we build model again with variable predictor selection, the result are accuracy 100 training performance and 96 testing performance with used 6 ratios. If we compare with Boyacioglu, et.al 2009, even random forest does not have accuracy more than Learning Vector Quantization with 100 testing performance, but its accuracy is not far away and doesn rsquo t need normalization. In this research we got CA2, E1, CA3, SMR1, SMR2 and E2 are six most important variables. "

2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Muh. Ardi Ramdani

Penerapan Metode Analisis Kluster Partitioning Around Medoids pada 100 Kabupaten Prioritas untuk Penanganan Stunting Tahun 2018 = Application of Partitioning Around Medoids Cluster Analysis in 100 Priority Regencies to Handle Stunting in 2018

"Berdasarkan standar prevalensi stunting yang ditetapkan oleh WHO, yaitu sebesar 20%,

tingkat prevalensi stunting di Indonesia masih cukup tinggi. Oleh sebab itu, pada tahun

2018 pemerintah menetapkan 100 kabupaten prioritas penurunan angka stunting.

Penentuan 100 kabupaten tersebut hanya didasarkan pada kriteria jumlah dan prevalensi

balita stunting yang dibobot dengan tingkat kemiskinan provinsi (desa-kota). Akibatnya,

akan tidak efektif apabila pemerintah memberikan alokasi APBN, APBD, dan perhatian

yang merata pada 100 daerah prioritas tanpa melihat kondisi pada masing-masing

kabupaten untuk indikator yang lain. Dengan demikian, diperlukan analisis

pengelompokan 100 kabupaten prioritas intervensi stunting pada tahun 2018 berdasarkan

pada indikator-indikator yang telah ditetapkan oleh Tim Nasional Percepatan

Penanggulangan Kemiskinan untuk melihat kondisi keparahan stunting. Analisis

pengelompokan ini diharapkan dapat dijadikan acuan bagi pemerintah dalam penentuan

kelompok kabupaten prioritas dan diharapkan pemerintah dapat mengambil kebijakan

yang tepat sesuai dengan kondisi masing-masing kelompok. Banyaknya observasi yang

digunakan adalah 100 kabupaten prioritas intervensi stunting tahun 2018 dengan terdapat

delapan variabel numerik dan enam variabel kategorik. Adapun metode yang digunakan

adalah metode Partitioning Around Medoids (PAM) dengan menggunakan Gower

distance yang mampu menangani pengelompokan pada tipe data campuran. Hasil dari

penelitian ini menunjukkan bahwa terbentuk lima kelompok kabupaten yang memiliki

karakteristik masing-masing. Diperoleh bahwa Cluster 5 memiliki kondisi yang relatif

paling buruk di antara cluster lainnya untuk setiap indikator, sehingga sebaiknya menjadi

kelompok kabupaten prioritas pertama dalam penanganan kasus stunting. Cluster yang

menjadi prioritas kedua adalah cluster 4, prioritas ketiga adalah cluster 2, dan prioritas

keempat adalah cluster 3. Cluster 1 memiliki kondisi yang relatif paling baik di antara

cluster lainnya, sehingga menjadi prioritas terakhir. Kabupaten-kabupaten yang berasal

dari Provinsi Papua dan Provinsi NTT secara garis besar merupakan kabupatenkabupaten

yang memiliki kondisi keparahan stunting yang buruk, dengan mayoritas

merupakan anggota cluster 2, cluster 4, dan cluster 5. Secara umum untuk lebih

meningkatkan upaya penurunan angka stunting pada 100 kabupaten prioritas, pemerintah

perlu mengoptimalkan upaya penurunan angka kemiskinan, meningkatkan proporsi

penduduk dengan perilaku BAB di jamban, meningkatkan akses masyarakat terhadap air

bersih dan akses masyarakat terhadap sanitasi yang baik, meningkatkan jumlah posyandu

per desa, dan meningkatkan ketersediaan jumlah dokter pada masing-masing kabupaten

Based on the stunting prevalence standard set by WHO, which is 20%, the stunting
prevalence rate in Indonesia is still quite high. Therefore, in 2018 the government set 100
priority districts to reduce stunting rates. The determination of the 100 regencies only
based on the criteria of the number and prevalence of stunted children weighted by the
provincial (rural-urban) poverty rate. As a result, it will be ineffective if the government
allocates the state budget, regional budget, and equal attention to 100 priority areas
without looking at each district’s conditions for other indicators. Therefore, an analysis
of the 100 priority districts for stunting intervention needed in 2018 based on indicators
established by the National Team for the Acceleration of Poverty Reduction to see the
condition of the severity of stunting. This grouping analysis expected to use as a reference
for the government in determining priority district groups and expected the government
to take appropriate policies by each group’s conditions. The number of observations used
was 100 priority districts for stunting intervention in 2018 with eight numerical variables
and six categorical variables. The method used is the Partitioning Around Medoids (PAM)
method using a Gower distance that believed to handle grouping on mixed data types.
The results of this study indicate that five district groups formed that have their respective
characteristics. It found that cluster 5 had the relatively worst condition among the other
clusters for each indicator, so it should be the priority group in handling stunting cases.
The second priority cluster is cluster 4, the third priority is cluster 2, and the fourth priority
is cluster 3. Cluster 1 has the relatively best condition among other clusters, so it becomes
the last priority. Districts originating from Papua Province and East Nusa Tenggara
Province are generally districts that have reduced stunting severity, with the majority
being members of cluster 2, cluster 4, and cluster 5. In general, to further increase efforts
to reduce stunting rates at 100 priority districts, the government needs to optimize efforts
to reduce poverty, increase the proportion of the population with defecation behavior in
latrines, increase community access to clean water and community access to proper
sanitation, increase the number of posyandu per village, and increase the availability of
doctors in each district"

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Fildzah Zhafarina

Klasifikasi data kanker hati menggunakan metode Twin Support Vector Machines = Liver cancer classification using Twin Support Vector Machines methods

Kanker hati merupakan penyebab utama kematian akibat kanker di seluruh dunia. Di Indonesia, kanker hati menempati angka kejadian tertinggi kedua untuk laki laki yaitu sebesar 12,4 per 100.000 penduduk dengan rata-rata kematian 7,6 per 100.000 penduduk. Pada tugas akhir ini, dibahas mengenai kanker hati primer dengan jenis hepatocellular carcinoma. Metode Twin Support Vector Machines (Twin SVM) diimplementasikan untuk mengklasifikasikan data kanker hati berdasarkan hasil CT scan. Data yang digunakan adalah data numerik hasil CT scan pasien yang menderita kanker hati dan diperoleh dari Laboratorium Radiologi RSUPN Cipto Mangunkusumo. Metode Twin SVM adalah pengembangan dari metode SVM yang menggunakan dua hyperplane dalam mengklasifikasikan sampel. Pada tugas akhir ini, kernel yang digunakan pada metode Twin SVM adalah polinomial dan radial basis function (RBF). Berdasarkan hasil perbandingan, klasifikasi data kanker hati menggunakan metode Twin SVM dengan kernel Polinomial menghasilkan akurasi tertinggi sebesar 77,30% pada penggunaan data testing sebesar 10% dan data training 90%. Selain itu, nilai akurasi terendah terdapat pada kernel RBF menghasilkan sebesar 60,10% pada penggunaan data testing sebesar 90% dan data training 10% dan nilai parameter ð¶ = 1. Jika dibandingkan, klasifikasi data kanker hati dengan menggunakan metode Twin SVM dengan kernel polinomial menghasilkan nilai akurasi yang lebih baik.

Liver cancer is the main cause of cancer death in the worldwide. In Indonesia, the incidence rate of liver cancer is the second highest for men, that is 12.4 per 100,000 population with the average death rate is 7.6 per 100,000 population. This final project discusses primary liver cancer with a type of hepatocellular carcinoma. The Twin Support Vector Machines (Twin SVM) method was implemented to classify liver cancer data based on CT scan results. The data used are numerical data from CT scan results of patients suffering from liver cancer and obtained from the Radiology Laboratory of Cipto Mangunkusumo Hospital. The Twin SVM method is the development of the SVM method that uses two hyperplane in classifying samples. In this final project, the kernel used in the Twin SVM method is polynomial and radial basis function (RBF). Based on the comparison results, the classification of liver cancer data using the Twin SVM method with a polynomial kernel produces the highest accuracy of 77.30% on the use of testing data of 10% and training data of 90%. In addition, the lowest accuracy value is found in the RBF kernel resulting in 60.10% on the use of testing data of 90% and training data of 10% and the parameter value of C=1. When compared, the classification of liver cancer data using the Twin SVM method with a polynomial kernel produces better accuracy values.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Luthfi Azra Aulia

Analisis Pengelompokan Negara-Negara Berdasarkan Indikator Objektif Kualitas Hidup Menggunakan Algoritma K-prototypes dan Two Step Cluster (TSC) = K-prototypes and Two Step Cluster (TSC) Algorithm for Clustering Countries Based on The Objective Indicators of Quality of Life

"Kualitas hidup adalah suatu payung yang melingkupi variasi konsep fungsional, status kesehatan, persepsi, kondisi kehidupan, gaya hidup, dan kebahagiaan. Indikator dalam mengukur kualitas hidup terbagi menjadi dua, yakni indikator subjektif dan indikator objektif. Indikator subjektif berkaitan langsung dengan berbagai pengalaman yang seseorang alami dalam hidupnya. Di sisi lain, indikator objektif dikaitkan dengan wujud kepemilikan berbagai material atau faktor eksternal yang mempengaruhi berbagai pengalaman seseorang dalam menjalani kehidupannya. Pada penelitian ini, indikator objektif dipilih sebagai alat ukur kualitas hidup yang mencakup karakteristik sosial, ekonomi, kesehatan, dan lingkungan. Data yang digunakan dalam penelitian terdiri dari dua jenis data, yakni data numerik dan kategorik. Data yang digunakan merupakan data sekunder berisikan indikator objektif kualitas hidup di 82 negara pada tahun 2020. Adapun metode yang digunakan adalah algoritma K-prototypes dan Two Step Cluster (TSC) yang merupakan bagian dari metode pengelompokan nonhierarki dan hierarki serta dapat menangani data bertipe campuran (numerik dan kategorik). Hasil dari penelitian ini menunjukkan bahwa algoritma K-prototypes merupakan metode yang memberikan hasil lebih baik dalam mengelompokkan data penelitian dibandingkan algoritma TSC dengan nilai koefisien Silhouette sebesar 0,577, yang bermakna bahwa kelompok yang terbentuk telah memiliki struktur yang baik. Kelompok optimal yang terbentuk adalah sebanyak 2 kelompok yang disusun oleh 40 negara pada Kelompok 1 dan 42 negara pada Kelompok 2. Kelompok 2 cenderung memiliki profil kualitas hidup yang lebih baik dibandingkan Kelompok 1.

Quality of life is a phrase that covers a variety of functional concepts, health status, perception, living conditions, lifestyle, and happiness. Indicators in measuring quality of life are divided into two, namely subjective indicators and objective indicators. Subjective indicators are measured based on various experiences that people went through in life. On the other hand, objective indicators are measured based on various materials or external factors that affect a person's experiences in everyday life. In this study, objective indicators were chosen as quality measurement tools based on social, economic, health, and environmental characteristics. The data used in the study consisted of two types of data, namely numerical and categorical data. The data is secondary data containing objective indicators of quality of life in 82 countries in 2020. The method used in this research is the K-prototypes and Two Step Cluster (TSC) algorithm which is part of the non-hierarchical and hierarchical grouping method and can handle mixed-type data. The results of this study indicate that the K-prototypes algorithm is a method that gives better results than the TSC algorithm with a silhouette coefficient value of 0.577, which means that the formed group already has a good structure. The optimal groups formed are 2 groups composed of 40 countries in Group 1 and 42 countries in Group 2. Group 2 tends to have a better quality of life profile than Group 1."

Jakarta: Fakultas Kedokteran Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Gregorino Al Josan

Analisis Kinerja Model XGBoost dalam Mendeteksi Congestive Heart Failure pada Short-term Heart Rate Variability = Analyzing the Performance of XGBoost Model to Detect Congestive Heart Failure on Short-term Heart Rate Variability

"Cardiovascular diseases (CVD) merupakan salah satu penyebab utama kematian di dunia. WHO memperkirakan angka 17,9 juta kematian pada tahun 2021 disebabkan oleh CVD. Di Indonesia sendiri, prevalensi penyakit jantung mencapai angka 1,5% atau sekitar 2,7 juta orang pada tahun 2018. CVD mencakup berbagai macam jenis penyakit jantung. Salah satu tipe penyakit jantung tersebut adalah congestive heart failure. Congestive heart failure (CHF) adalah kondisi dimana jantung tidak dapat memompa darah yang cukup ke seluruh bagian tubuh. CHF dapat terjadi dikarenakan melemahnya kemampuan otot jantung untuk memompa darah sehingga mempengaruhi heart rate atau detak jantung manusia. Heart rate dapat direpresentasikan menggunakan sinyal yang dapat diukur menggunakan alat rekaman electrocardiogram (ECG/EKG). EKG adalah rekaman aktivitas elektrik jantung yang ditangkap melalui bagian permukaan tubuh. Heart rate variability (HRV) diketahui berkorelasi dengan berbagai penyakit jantung dan salah satunya adalah CHF. Dengan berkembangnya teknologi, terdapat beberapa penelitian mengenai implementasi artificial intelligence (AI) untuk mendeteksi keberadaan CHF menggunakan model machine learning dan HRV sebagai fitur bagi model. Pada penelitian ini, akan dibangun dan dievaluasi kinerja model XGBoost untuk mendeteksi eksistensi penyakit CHF pada short-term HRV dari rekaman EKG 5 menit. Dataset yang digunakan berasal dari empat database yang berbeda yang diambil dari situs PhysioNet, yaitu NSRDB dan NSR2DB sebagai kelas sehat dan CHFDB dan CHF2DB sebagai kelas CHF. Masing-masing database memiliki rekaman long-term EKG. Seluruh rekaman tersebut dilakukan segmentasi selama 5 menit pada 2 jam pertama rekaman. Dari hasil segmentasi rekaman 5 menit tersebut akan dihitung nilai HRV yang akan menjadi fitur bagi model XGBoost. XGBoost dilatih menggunakan kombinasi teknik Grid Search dan K-Fold Cross Validation dengan nilai ð¾ = 10. Terdapat 4 metrik yang dijadikan objektif optimisasi Grid Search, yaitu akurasi, sensitivitas, spesifisitas, dan skor AUC. XGBoost yang dilatih dengan mengoptimasi akurasi berhasil mencapai nilai akurasi sebesar 0,954, sensitivitas sebesar 0,935, spesifisitas sebesar 0,96, dan skor AUC sebesar 0,947. XGBoost yang dilatih dengan mengoptimasi sensitivitas berhasil mencapai nilai akurasi sebesar 0,966, sensitivitas sebesar 0,977, spesifisitas sebesar 0,963, dan skor AUC sebesar 0,97. XGBoost yang dilatih dengan mengoptimasi spesifisitas berhasil mencapai nilai akurasi sebesar 0,962, sensitivitas sebesar 0,931, spesifisitas sebesar 0,971, dan skor AUC sebesar 0,951. Kemudian XGBoost yang dilatih dengan mengoptimasi skor AUC berhasil mencapai nilai akurasi sebesar 0,955, sensitivitas sebesar 0,935, spesifisitas sebesar 0,962, dan skor AUC sebesar 0,948.

Cardiovascular diseases (CVD) is one of the major causes of death in the world. WHO estimated that 17.9 million of deaths during 2021 are caused by CVD. In Indonesia alone, the prevalence of heart diseases reached 1.5% or around 2,7 million people in 2018. CVD consists of various types of heart disease. Congestive heart failure is one of them. Congestive heart failure (CHF) is a condition where the heart cannot pump enough blood for the entire body. CHF can occur due to a weakening of the heart muscle's ability to pump blood, thereby affecting the human heart rate. Heart rate can be represented using signal that can be measured using electrocardiogram (ECG/EKG) recording. EKG is a recording of the heart's electrical activity captured through the surface of the body. Heart rate variability (HRV) have been known to be correlated with various heart diseases with CHF is one of it. With the advance of technology, there have been various research regarding the implementation of artificial intelligence (AI) to detect the presence of CHF using machine learning model and HRV as features for the model. In this research, we built and evaluated the performance of XGBoost model to detect the existence of CHF on short-term HRV from 5 minutes EKG recording. The dataset came from four different databases that can be accessed from PhysioNet website. Those are NSRDB and NSR2DB datasets to represent healthy class and CHFDB and CHF2DB to represent CHF class. Each database contains long-term EKG. All records are segmented by 5 minutes on the first 2 hours of the recording. HRV metrics are calculated from those 5 minutes segments to become features for the XGBoost model. XGBoost was trained using a combination of Grid Search and K-Fold Cross Validation techniques with ð¾ = 10. There are 4 metrics that become the objective scoring function for the Grid Search. Those are accuracy, sensitivity, specificity, and AUC score. XGBoost trained to optimize accuracy managed to achieve 0.954 accuracy, 0.935 sensitivity, 0.96 specificity, and 0.947 AUC score. XGBoost trained to optimize sensitivity managed to achieve 0.966 accuracy, 0.977 sensitivity, 0.963 specificity, and 0.97 AUC score. XGBoost trained to optimize specificity managed to achieve 0.962 accuracy, 0.931 sensitivity, 0.971 specificity, and 0.951 AUC score. Lastly, XGBoost trained to optimize AUC score managed to achieve 0.955 accuracy, 0.935 sensitivity, 0.962 specificity, and 0.948 AUC score."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Valery Ongso Putri

Analisis Perbandingan Metode SMOTE, SMOTE-ENN, dan SMOTE-Tomek Link Dalam Menangani Imbalanced Data pada Klasifikasi = Comparative Analysis of SMOTE, SMOTE-ENN, and SMOTE-Tomek Link Methods in Handling Imbalanced Data in Classification

"Ketidakseimbangan data merupakan masalah umum yang terjadi dalam bidang analisis data. Data menjadi tidak seimbang karena terdapat perbedaan antara jumlah sampel pada setiap kelasnya. Masalah ketidakseimbangan ini menyebabkan model klasifikasi menjadi bias, dimana model akan cenderung memprediksi kelas mayoritas secara efektif dibandingkan dengan kelas minoritas dan dapat menyebabkan kesalahan interpretasi dalam pengambilan suatu keputusan. Terdapat beberapa cara dalam menangani data yang tidak seimbang, yaitu random undersampling dan random oversampling. Salah satu metode dari random oversampling yang populer adalah Synthetic Minority Oversampling Technique (SMOTE). SMOTE dapat digabungkan dengan metode random undersampling, yaitu Edited Nearest Neighbors (ENN) dan Tomek link. Pada metode gabungan SMOTE-ENN dan SMOTE-Tomek link, SMOTE bekerja terlebih dahulu dengan membuat sampel sintetis pada kelas minoritas. ENN dan Tomek link berperan sebagai cleaning untuk menghapus data yang tidak relevan dan dianggap sebagai noise. Untuk melihat pengaruh ketiga metode resampling tersebut, yaitu SMOTE, SMOTEENN, dan SMOTE-Tomek Link, dilakukan simulasi data. Simulasi data dapat melihat pengaruh ukuran sampel, ukuran proporsi kelas, dan metode resampling terhadap model klasifikasi decision tree, random forest, dan XGBoost pada data yang tidak seimbang. Simulasi data juga dijalankan sebanyak 100 iterasi yang menunjukkan bahwa iterasi pertama cukup untuk mewakili hasil dari 100 iterasi. Hasil menunjukkan bahwa ketiga metode cenderung mampu memberikan hasil yang baik dengan adanya peningkatan nilai metrik precision, recall, ROC-AUC, dan G-Mean. Metode SMOTE dengan XGBoost bekerja dengan baik pada ukuran sampel kecil dengan adanya peningkatan nilai metrik yang cukup signifikan. Pada SMOTE-ENN, nilai recall cenderung meningkat yang diikuti oleh menurunnya nilai precision pada proporsi 1:9, 2:8, dan 3:7 dengan sampel yang relatif kecil. SMOTE-Tomek Link juga meningkatkan nilai metrik pada sampel yang relatif kecil dengan proporsi memberikan nilai metrik tertinggi.

Data imbalance is a common problem that occurs in the field of data analysis. The data becomes unbalanced because there is a difference between the number of samples in each class. This imbalance problem causes the classification model to be biased, where the model will tend to predict the majority class effectively compared to the minority class and can cause misinterpretation in making a decision. There are several ways to handle imbalanced data, namely random undersampling and random oversampling. One of the popular random oversampling methods is Synthetic Minority Over-sampling Technique (SMOTE). SMOTE can be combined with random undersampling methods, namely Edited Nearest Neighbors (ENN) and Tomek link. In the combined SMOTE-ENN and SMOTE-Tomek link method, SMOTE works first by creating a synthetic sample in the minority class. ENN and Tomek link act as cleaning to remove irrelevant data and are considered as noise. To see the effect of the three resampling methods, namely SMOTE, SMOTE-ENN, and SMOTE-Tomek Link, data simulation was conducted. Data simulation can see the effect of sample size, class proportion size, and resampling method on decision tree, random forest, and XGBoost classification models on imbalanced data. The data simulation was also run for 100 iterations which shows that the first iteration is sufficient to represent the results of 100 iterations. The results show that the three methods tend to be able to provide good results with an increase in the precision, recall, ROC-AUC, and G-Mean metric values. The SMOTE method with XGBoost works well on small sample sizes with a significant increase in metric values. In SMOTE-ENN, the recall value tends to increase followed by a decrease in precision value at proportions 1:9, 2:8, and 3:7 with relatively small samples. SMOTE-Tomek Link also increases the metric value on relatively small samples with proportions of 1:9 and 2:8. In addition, the resampling method was also used on data available on Kaggle.com, namely Pima Indian Diabetes and Give Me Some Credit:: 2011 Competition. In the Pima Indian Diabetes data, it can be seen that the recall, ROC-AUC, and G-Mean values are the highest using SMOTE-ENN with the XGBoost model. On the Give Me Some Credit:: 2011 Competition also shows that the SMOTE-ENN method with the XGBoost model provides the highest metric value."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ajeng Leudityara Fijri

Klasifikasi kanker payudara menggunakan kernel spherical K-means = Breast cancer clustering using kernel spherical K-means

"Kanker payudara adalah pertumbuhan sel-sel abnormal di jaringan pada payudara yang berkembang secara tidak terkendali. Perkembangan sel-sel abnormal secara tidak terkendali ini menyebabkan kanker menjadi salah satu penyakit paling mamatikan yang umumnya dialami oleh wanita di seluruh dunia. Salah satu cara untuk mengurangi berkembangnya sel kanker ini adalah dengan melakukan pendeteksian dini menggunakan machine learning. Beberapa metode machine learning berhasil melakukan klasifikasi kanker. Clustering merupakan salah satu metode dari machine learning yang bertujuan untuk mengelompokkan suatu dataset ke dalam subset berdasarkan ukuran jarak. Kernel Spherical K-Means (KSPKM) adalah salah satu metode clustering dengan mengganti hasil kali dalam yang ada pada Spherical K-Means (SPKM) dengan fungsi Kernel. Data kanker payudara yang digunakan pada penelitian ini adalah data kanker payudara Coimbra.

Data kanker payudara Coimbra ini merupakan hasil dari pengambilan tes laboratorium yang dapat mendeteksi kanker payudara pada tubuh. Hasil klasifikasi data kanker payudara Coimbra dengan menggunakan metode SPKM memiliki hasil akurasi sebesar 81,82% dengan running time selama 0,16 detik, sensivicity sebesar 100%, dan specificity sebesar 65,62% sedangkan hasil akurasi dengan menggunakan KSPKM dengan Radial Basis Function (RBF) adalah 72,41% dengan running time 0,98 detik, sensivicity sebesar 61,54%, dan specificity sebesar 81,25% . Berdasarkan hasil akurasi pada 10% sampai 90% data yang digunakan, metode KSPKM menghasilkan akurasi yang lebih stabil dibandingkan hasil akurasi pada metode SPKM.

Breast cancer is the growth uncontrollably of abnormal cells in the tissue in the breast. The development of abnormal cells uncontrollably causes cancer to become one of the most deadly diseases commonly among women the worldwide. One way to reduce the development of cancer cells is by early detection using machine learning. Some machine learning methods successfully classify cancer. Clustering is one of the methods of machine learning that aims to grouping of a dataset into subsets based on distance measurement. Kernel Spherical K-Means (KSPKM) is one of the clustering methods by replacing the inner products in the Spherical K-Means (SPKM) by Kernel functions.
The breast cancer data used in this study were Coimbra breast cancer data. The Coimbra breast cancer data is the result of taking laboratory tests that can detect breast cancer in the body. The classification results for Coimbra breast cancer data using the SPKM method has highest accuracy 81,82% with running time for 0,16 seconds, sensivicity 100%, and specificity 65,62% while the highest accuracy results using KSPKM with Kernel radial basis function (RBF) are 72,41% with running time 0,98 seconds, sensivicity 61,54%, and specificity 81,25%. Based on the results of the accuracy of 10% to 90% of the training data used, the KSPKM method produces more stable accuracy than the accuracy results of SPKM method."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Imannuel Marchel Sandy Niman

Analisis Kinerja Elman Neural Network Dan Piecewise Weighted-Gradient Regularized Elman Neural Network Pada Permasalahan Prediksi Insiden Demam Berdarah Dengue Di DKI Jakarta = Performance Analysis of Elman Neural Network and Piecewise Weighted-Gradient Regularized Elman Neural Network on Prediction Problems of Dengue Hemorrhagic Fever in DKI Jakarta

Insiden Demam Berdarah Dengue (DBD) terjadi pertama kali di Indonesia pada tahun 1968. DBD adalah penyakit yang disebabkan oleh infeksi virus dengue dan disebarkan oleh nyamuk Aedes aegypti. World Health Organization (WHO) menyatakan bahwa Indonesia adalah negara dengan kasus DBD tertinggi di Asia Tenggara. Pada awal tahun 2019 tercatat jumlah penderita DBD sebesar 13.683 penderita, dilaporkan dari 34 Provinsi, termasuk Provinsi DKI Jakarta. Pada Skripsi ini, jumlah insiden DBD di DKI Jakarta diprediksi menggunakan Elman Neural Network (ENN) dan modifikasi dari ENN, yaitu Piecewise Weighted-Gradient Regularized Elman Neural Network (PWRENN). ENN dan PWRENN dipilih karena memiliki koneksi bolak-balik dan memori untuk menyimpan hasil perhitungan sebelumnya. Memori ini meningkatkan hasil prediksi menjadi lebih akurat dibandingkan model Neural Network yang tidak memiliki koneksi bolak-balik. Prediksi dihasilkan berdasarkan jumlah insiden dan faktor cuaca sebelumnya yang terdiri atas rata-rata temperatur udara, rata-rata kelembapan relatif, dan curah hujan. Model yang dibentuk dievaluasi dengan Root Mean Squared Error (RMSE). Pada Skripsi ini, prediksi insiden DBD terbaik di wilayah Jakarta Barat, Jakarta Pusat, Jakarta Selatan, Jakarta Timur, dan Jakarta Utara dihasilkan oleh model PWRENN dengan RMSE pada data testing berturut-turut sebesar 1,02370, 0,94291, 2,15366, 2,79465, dan 2,25341.

The incidence of Dengue Hemorrhagic Fever (DHF) first occurred in Indonesia in 1968. DHF is a disease caused by dengue virus infection and spread by the Aedes aegypti mosquito. World Health Organization (WHO) states that Indonesia is a country with the highest DHF cases in Southeast Asia. In early 2019 the number of DHF patients was recorded at 13,683, reported from 34 provinces, including DKI Jakarta. In this research, the number of DHF incidents in DKI Jakarta is predicted using Elman Neural Network (ENN) and modification of ENN, namely Piecewise Weighted-Gradient Regularized Elman Neural Network (PWRENN). ENN and PWRENN were chosen because they have recurrent connections and memory to store the results of previous calculations. This memory improves the prediction results to be more accurate than Neural Network models without recurrent connections. Prediction is generated based on the number of previous incidents and previous weather factors consisting of average air temperature, average relative humidity, and rainfall. The model formed was evaluated by Root Mean Squared Error (RMSE). In this research, the best prediction of the DHF incidents in the West Jakarta, Central Jakarta, South Jakarta, East Jakarta, and North Jakarta regions is generated by the PWRENN model with RMSE on testing data respectively 1,02370, 0,94291, 2,15366, 2,79465, dan 2,25341.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Chelvian Aroef

Klasifikasi Infark Serebri dengan Metode Convolutional Neural Network = Convolutional Neural Network for Cerebral Infarction Classification

"ABSTRAK

Pada era modern ini, semakin banyak jenis penyakit yang baru dengan gejala yang berbeda beda juga. Teknologi dituntut bisa memainkan peran untuk membantu penelitian pada bidang kesehatan. Stroke merupakan salah satu penyakit yang memiliki angka kematian tertinggi di dunia. Stroke terjadi karena terganggunya pasokan darah menuju otak sehingga otak mengalami kekurangan oksigen dan nutrisi. Stroke bisa dibagi menjadi berdasarkan bagaimana stroke terjadi, stroke hemoragik dan stroke iskemik. Stroke hemoragik terjadi karena pecahnya pembuluh darah yang menuju otak, sedangkan stroke iskemik terjadi karena terjadinya penyumbatan yang mengganggu pasokan darah ke otak. Jika penyumbatan terjadi pada daerah otak, maka disebut infark serebri. Dalam studi ini digunakan metode Convolutional Neural Network untuk mengklasifikasikan data gambar infark serebri yang nantinya akan dibandingkan dengan metode Neural Network. Didapatkan dari hasil performa metode Convolutional Neural Network lebih baik jika dibandingkan dengan metode Neural Network untuk pengklasifikasian data gambar infark serebri."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian