Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 4 dokumen yang sesuai dengan query
cover
Widya Fajar Mustika
Abstrak :
Penilaian tingkat klaim risiko pemohon asuransi merupakan bagian penting dalam asuransi jiwa, sehingga perlu untuk diklasifikasikan. Penentuan tingkat klaim risiko pada asuransi jiwa didasarkan pada data historis pemohon. Pengajuan untuk menjadi anggota suatu asuransi jiwa membutuhkan waktu yang tidak singkat. Namun pengaplikasian suatu model machine learning dapat membantu mengklasifikasikan calon pemohon asuransi berdasarkan tingkat risiko dengan cepat. Salah satu model machine learning yaitu Extreme Gradient Boosting (XGBoost) yang merupakan suatu model berbasis decision tree. Model ini digunakan untuk memprediksi risiko pada asuransi jiwa. Adanya missing values pada data yang digunakan diatasi dengan beberapa strategi pada proses prapengolahan data untuk meningkatkan nilai akurasi model XGBoost. Hasil penelitian ini diperoleh bahwa akurasi model XGBoost sebesar 0,60730 dengan satuan kappa yang menunjukkan bahwa model XGBoost sangat baik dan dapat diterapkan pada masalah prediksi tingkat klaim risiko pemohon asuransi jiwa. Jika dibandingkan dengan model decision tree, random forest dan Bayesian ridge, kinerja model XGoost masih tetap unggul dalam memproses missing values pada data yang digunakan.
Risk level assessment for insurance applicants is an important part of life insurance, so it needs to be classified. Determination of the level of risk claims on life insurance is based on the applicants historical data. Submission to become a member of a life insurance requires a short time. But the application of a machine learning model can help classify prospective insurance applicants based on the level of risk quickly. One machine learning model is Extreme Gradient Boosting (XGBoost) which is a decision tree based model. This model is used to predict risk in life insurance. The missing values in the data used are overcome by several strategies in the data processing process to increase the accuracy value of the XGBoost model. The results of this study show that the accuracy of the XGBoost model is 0.60730 with kappa units which indicates that the XGBoost model is very good and can be applied to the problem of predicting the level of risk claims for life insurance applicants. When compared to the decision tree, random forest and Bayesian ridge models, the performance of the XGoost model still excels in processing missing values in the data used.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
T54273
UI - Tesis Membership  Universitas Indonesia Library
cover
Fatma Irmadani
Abstrak :

Credit Scoring adalah metode yang digunakan untuk memprediksi kemungkinan adanya risiko calon peminjam akan gagal bayar atau menunggak. Credit scoring digunakan oleh penyedia jasa pinjaman ketika calon peminjam dana mengajukan pinjaman. Salah satu perusahaan yang menggunakan credit scoring terhadap peminjamnya adalah Lending Club. Lending Club adalah salah satu penyedia jasa pinjam meminjam online Peer-to-Peer (P2P) di Amerika Serikat. Pada penelitian ini, dilakukan klasifikasi multikelas credit scoring berdasarkan status pinjaman (Loan Status) dari dataset Lending Club. Status pinjaman memiliki 3 kelas, yaitu default, fully paid, dan late. Dengan menggunakan pendekatan machine learning, yaitu supervised learning, klasifikasi multikelas credit scoring dapat dilakukan dengan menggunakan Multinomial Logistic Regression (MLR). MLR merupakan pengembangan dari Logistic Regression yang mampu menangani klasifikasi multikelas. Pada implementasi model MLR, digunakan 3 skenario sampling strategy pada SMOTE yang berbeda dalam mengklasifikasikan multikelas. Hasil klasifikasi multikelas dievaluasi dengan menggunakan metrik accuracy, precision, recall, F1-Score dan AUC (Area Under the Curve) One versus All. Hasil implementasi dengan evaluasi terbaik adalah model MLR dengan nilai accuracy sebesar 0,67 dan nilai rata-rata AUC One versus All sebesar 0,724932. Sedangkan evaluasi pada setiap kelas, kelas default memiliki nilai precision sebesar 0,47,recall sebesar 0,02 dan F1-Score sebesar 0,04; kelas fully paid memiliki nilai precision sebesar 0,85, recall sebesar 0,83 dan F1-Score sebesar 0,84; dan kelas late memiliki nilai precision sebesar 0,02, recall sebesar 0,84 dan F1-Score sebesar 0,04. Hasil tersebut menunjukkan bahwa kelas default memiliki hasil evaluasi yang kurang baik untuk setiap metrik evaluasi, kelas fully paid memiliki hasil evaluasi yang baik untuk setiap metrik evaluasi, sedangkan kelas late memiliki nilai yang cukup baik hanya pada nilai recall (0,84). Hasil yang kurang baik diduga dipengaruhi oleh adanya data yang tidak seimbang dan kelas yang saling tumpang tindih. ......Credit Scoring is a method used to predict the possible risk that a prospective borrower will default or delinquency. Credit scoring is used by loan service providers when prospective borrowers apply for loans. One company that uses credit scoring for its borrowers is the Lending Club. Lending Club is a Peer-to-Peer (P2P) online lending and borrowing service provider in the United States. In this study, a multiclass credit scoring classification was carried out based on loan status from the Lending Club dataset. Loan status has 3 classes, namely default, fully paid, and late. By using a machine learning approach, namely supervised learning, multiclass classification of credit scoring can be done using Multinomial Logistic Regression (MLR). MLR is a development of Logistic Regression which is able to handle multiclass classification. In the implementation of the MLR model, 3 different sampling strategy scenarios are used in SMOTE in classifying multiclasses. The multiclass classification results are evaluated using accuracy, precision, recall, F1-Score and AUC (Area Under the Curve) One versus All metrics. The result of the implementation with the best evaluation is the MLR model with an accuracy value of 0.67 and an average value of AUC One versus All of 0.724932. While the evaluation for each class, the default class has a precision value of 0.47, a recall of 0.02 and an F1-Score of 0.04; the fully paid class has a precision value of 0.85, a recall of 0.83 and an F1-Score of 0.84; and the late class has a precision value of 0.02, a recall of 0.84 and an F1-Score of 0.04. These results show that the default class has poor evaluation results for each evaluation metric, the fully paid class has good evaluation results for each evaluation metric, while the late class has a fairly good value only on the recall value (0.84). Unfavorable results are thought to be influenced by the presence of unbalanced data and overlapping classes.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Frischi Dwi Nabilah
Abstrak :
Credit scoring merupakan bentuk penilaian untuk menentukan kelayakan peminjam. Tidak ada kesepakatan kapan metode ini mulai berkembang. Namun, kesubjektivitasan dan ketidakmampuan manusia untuk memproses permohonan pinjaman dalam jumlah besar setiap harinya adalah alasan penggunaan credit scoring dengan machine learning menjadi sangat dibutuhkan. Untuk mendeteksi dini potensi peminjam yang bermasalah, credit scoring pada tugas akhir ini diprediksi status pinjaman menjadi tiga kelas: default, fully paid, dan late. Berdasarkan permasalahan tersebut, pada tugas akhir ini digunakan model untuk memprediksi status pinjaman pada kasus klasifikasi multikelas credit scoring dengan machine learning menggunakan metode CatBoost. Penggunaan metode CatBoost dimaksudkan untuk mengatasi kasus klasifikasi multikelas pada data yang heterogen dan tidak seimbang (imbalanced data). Data yang digunakan adalah data pinjaman online peer-to-peer (P2P) LendingClub yang memuat tiga jenis informasi yaitu informasi pinjaman, informasi peminjam, dan informasi riwayat pinjaman peminjam. Data pinjaman P2P LendingClub memiliki imbalanced data dan overlapping class. Terdapat tiga skenario sampling strategy SMOTE-NC dilakukan untuk melihat efek imbalanced data dan overlapping class pada permasalahan klasifikasi multikelas tersebut sehingga didapatkan tiga model. Kinerja model CatBoost dievaluasi berdasarkan precision, recall, f1-score serta accuracy dan AUC one-vs-all. Hasil implementasi CatBoost sudah baik pada kelas 1 (fully paid) dikarenakan f1-score ketiga skenario lebih dari 0,75. Namun, pada kelas 0 (default) dan kelas 2 (late) hasil implementasinya masih tidak baik mengingat f1-score pada kelas 0 (default) tertinggi hanyalah 0,15 sementara f1-score kelas 2 (late) bernilai sama yaitu 0,04 pada ketiga skenario model yang dibuat. Efek dari imbalanced data dan overlapping class pada metrik evaluasi model precision, recall, f1-score serta accuracy dan AUC one-vs-all beragam bergantung dengan kelasnya. ......Credit scoring is a form of assessment used to determine the creditworthiness of borrowers. There is no agreement on when this method started to develop. However, subjectivity and the inability of humans to process large volumes of loan applications every day are the reasons why credit scoring with machine learning is highly needed. In order to detect potential problem borrowers early on, this final project predicts the loan status into three classes: default, fully paid, and late. Based on this problem, a model is employed in this final project to predict the loan status in a multi-class classification of credit scoring by using machine learning, specifically using the CatBoost method. The use of CatBoost is intended to address multi-class classification cases with heterogeneous and imbalanced data. The data used in this research is online peer-to-peer (P2P) lending data from LendingClub, which includes three types of information: loan information, borrower information, and borrower's loan history information. The P2P LendingClub loan data has imbalanced data and overlapping classes. Three sampling strategy scenarios of SMOTE-NC are performed to observe the effects of imbalanced data and overlapping classes on this multi-class classification problem, resulting in having three models. The performance of the CatBoost model is evaluated based on precision, recall, f1-score, as well as accuracy and AUC one-vs-all. The implementation of CatBoost yields good results for class 1 (fully paid) as the f1-scores in all three scenarios are above 0.75. However, the implementation results for class 0 (default) and class 2 (late) are still unsatisfactory, considering that the highest f1-score for class 0 (default) is only 0.15, while the f1-score for class 2 (late) has the same value, i.e., 0.04, in all three model scenarios. The effects of imbalanced data and overlapping classes on the evaluation metrics of precision, recall, f1-score, as well as accuracy and AUC one-vs-all vary depending on the class.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Vinezha Panca
Abstrak :
ABSTRAK
Kanker merupakan salah satu penyebab kematian terbesar di seluruh dunia. Secara khusus, kanker otak adalah kanker yang terjadi pada sistem saraf pusat. Salah satu hal yang dapat dilakukan untuk penelitian kanker otak menggunakan machine learning adalah melakukan pendeteksian jenis kanker otak dengan memanfaatkan microarray data. Permasalahan tersebut merupakan masalah klasifikasi multikelas. Dengan menggunakan pendekatan one versus one, akan terbentuk sebanyak k k-1 /2 masalah dua kelas, di mana k menunjukkan jumlah kelas. Karena data kanker otak memiliki fitur yang sangat banyak, perlu dilakukan seleksi fitur. Pada penelitian ini, akan diimplementasikan metode Multiple Multiclass Support Vector Machine Recursive Feature Elimination MMSVM-RFE sebagai metode seleksi fitur, dan Twin Support Vector Machine TWSVM sebagai metode klasifikasi. Pada metode MMSVM-RFE dilakukan pelatihan SVM-RFE pada setiap masalah dua kelas, sehingga setiap masalah dua kelas memiliki pengurutan fitur masing-masing. Sebagai metode klasifikasi, TWSVM memiliki tujuan untuk mencari hyperplane masing ndash; masing kelas sedemikian sehingga data kelas satu sedekat mungkin terhadap suatu hyperplane namun sejauh mungkin dengan hyperplane lainnya. Rata-rata akurasi tertinggi pada simulasi menggunakan kernel linear pada MMSVM-RFE dan kernel linear pada TWSVM adalah 95,33 dengan menggunakan 200 fitur. Rata-rata akurasi tertinggi pada simulasi menggunakan kernel linear pada MMSVM-RFE dan kernel RBF pada TWSVM adalah 87 dengan 70 fitur. Sedangkan apabila proses validasi juga dilakukan pada seleksi fitur, rata-rata akurasi tertinggi yang diperoleh adalah 90,67 dengan menggunakan 90 fitur.
ABSTRACT
Cancer is one of main causes of death worldwide. Brain cancer is a type of cancer which occurs at central nervous system. Taking advantage from microarray data, machine learning methods can be applied to help brain cancer prediction according to its types. This problem can be referred as a multiclass classification problem. Using one versus one approach, the multiclass problem with k classes can be transformed into k k 1 2 binary class problems. The huge amount of features makes it necessary to use feature selection. In this research, Multiple Multiclass Support Vector Machine Recursive Feature Elimination MMSVM RFE method is implemented as the feature selection method, and Twin Support Vector Machine TWSVM method is implemented as the classification method. The main concept of MMSVM RFE is to train SVM RFE at each binary problem so that each binary problem will have their own arrangements of feature. As a classification method, TWSVM is trained to find two hyperplanes, each representative of its own class. The data of one class must be as near as possible from its representative hyperplane while also must be as far as possible from the other hyperplane. In the simulation which uses linear kernel on MMSVM RFE and linear kernel on TWSVM, the highest average accuracy is 95,33 , using 200 features. In the simulation which uses linear kernel on MMSVM RFE and RBF kernel on TWSVM, the highest average accuracy is 87 , using 70 features. In the case where the feature selection process is included in doing validation, the highest average accuracy is 90,67 , using 90 features.
2016
S66302
UI - Skripsi Membership  Universitas Indonesia Library