Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 2 dokumen yang sesuai dengan query
cover
Gregorius Vidy Prasetyo
Abstrak :
ABSTRAK
Pada permasalahan seperti kesehatan atau dunia retail banyak dijumpai data-data yang memiliki kategori yang tidak seimbang. Sebagai contoh jumlah penderita penyakit tertentu relatif langka pada suatu studi atau jumlah transaksi yang terkadang merupakan transaksi palsu (fraud) jumlahnya secara signifikan lebih sedikit ketimbang transaksi normal. Kondisi ini biasa disebut sebagai kondisi data tidak seimbang dan menyebabkan permasalahan pada performa model, terutama pada kelas minoritas. Beberapa metode telah dikembangkan untuk mengatasi permasalahan data tidak seimbang, salah satu metode terkini untuk menanganinya adalah Easy Ensemble. Easy Ensemble diklaim dapat mengatasi efek negatif dari pendekatan konvensional seperti random-under sampling dan mampu meningkatkan performa model dalam memprediksi kelas minoritas. Skripsi ini membahas metode Easy Ensemble dan penerapannya dengan model Random Forest dalam mengatasi masalah data tidak seimbang. Dua buah studi empiris dilakukan berdasarkan kasus nyata dari situs kompetisi hacks.id dan kaggle.com. Proporsi kategori antara kelas mayoritas dan minoritas pada dua data di kasus ini adalah 70:30 dan 94:6. Hasil penelitian menunjukkan bahwa metode Easy Ensemble, dapat meningkatkan performa model klasifikasi Random Forest terhadap kelas minoritas dengan signifikan. Sebelum dilakukan resampling pada data (nhacks.id), nilairecall minority hanya sebesar 0.47, sedangkan setelah dilakukan resampling, nilainya naik menjadi 0.82. Begitu pula pada data kedua (kaggle.com), sebelum resampling nilai recall minority hanya sebesar 0.14, sedangkan setelah dilakukan resampling, nilai naik secara signifikan menjadi 0.71.
ABSTRACT
In the real world problem, there is a lot case of imbalanced data. As an example in medical case, total patients who suffering from cancer is much less than healthy patients. These condition might cause some issues in problem definition level, algorithm level, and data level. Some of the methods have been developed to overcome this issues, one of state-of-the-art method is Easy Ensemble. Easy Ensemble was claimed can improve model performance to classify minority class moreover can overcome the deï¬?ciency of random under-sampling. In this thesis discussed the implementation of Easy Ensemble with Random Forest Classifers to handle imbalance problem in a credit scoring case. This combination method is implemented in two datasets which taken from data science competition website, nhacks.id and kaggle.com with class proportion within majority and minority is 70:30 and 94:6. The results show that resampling with Easy Ensemble can improve Random Forest classifier performance upon minority class. This been shown by value of recall on minority before and after resampling which increasing significantly. Before resampling on the first dataset (nhacks.id), value of recall on minority is just 0.49, but then after resampling, the value of recall on minority is increasing to 0.82. Same with the second dataset (kaggle.com), before the resampling, value of recall on minority is just 0.14, but then after resampling, the value of recall on minority is increasing significantly to 0.71.
2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dea Aulia Utami
Abstrak :
ABSTRAK
Infark serebral merupakan salah satu penyebab terjadinya stroke iskemik di otak. Dalam mendiagnosis adanya infark serebral di otak, digunakan pembelajaran mesin karena tidak cukup hanya menggunakan CT scan untuk mendiagnosisnya. Support vector machine (SVM) merupakan salah satu metode pembelajaran mesin yang dikenal dengan nilai akurasinya yang tinggi. Namun SVM dapat memberikan hasil yang kurang optimal jika data yang digunakan tidak seimbang. Jika data yang digunakan tidak seimbang, model yang dihasilkan akan bias. Oleh karena itu, penelitian ini menggunakan metode Synthetic Minority Oversampling Technique (SMOTE) dalam menangani data infark serebral yang tidak seimbang sehingga menjadi data yang seimbang. SMOTE mensintesis sampel data baru dari kelas minoritas untuk menyeimbangkan kumpulan data. Metode ini bekerja dengan mencari nilai tetangga terdekat untuk setiap data di kelas minoritas. Data yang telah diimbangi dengan metode SMOTE akan diklasifikasikan menggunakan SVM. Hasil klasifikasi SVM pada data infark serebral imbalanced dan data infark serebral berimbang akan dibandingkan berdasarkan nilai akurasi, recall, spesifisitas, presisi dan f1-score. Data infark serebral diperoleh dari Bagian Radiologi RSUD Dr. Cipto Mangunkusumo.
ABSTRACT
Cerebral infarction is one of the causes of ischemic stroke in the brain. In diagnosing cerebral infarction in the brain, machine learning is used because it is not enough to just use a CT scan to diagnose it. Support vector machine (SVM) is a machine learning method known for its high accuracy value. However, SVM can give less than optimal results if the data used is not balanced. If the data used is not balanced, the resulting model will be biased. Therefore, this study uses the Synthetic Minority Oversampling Technique (SMOTE) method in handling unbalanced cerebral infarction data so that it becomes a balanced data. SMOTE synthesizes a new data sample from a minority class to balance the data set. This method works by finding the value of the nearest neighbor for each data in the minority class. Data that has been balanced with the SMOTE method will be classified using SVM. The SVM classification results on imbalanced cerebral infarction data and balanced cerebral infarction data will be compared based on the accuracy, recall, specificity, precision and f1-score values. Cerebral infarction data were obtained from the Radiology Department of RSUD Dr. Cipto Mangunkusumo.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library