Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 29 dokumen yang sesuai dengan query
cover
Muhammad Remzy Syah Ramazhan
"Coronavirus disease 19 (COVID-19) adalah penyakit pernapasan menular yang pertama kali terdeteksi di Kota Wuhan, Provinsi Hubei, China. Penyakit ini memiliki gejala umum yang mirip dengan gejala penyakit pernapasan lain seperti alergi, flu, dan pilek. Tetapi setiap penyakit membutuhkan obat dan perawatan yang berbeda-beda. Sehingga, penting bagi penderita untuk mendapatkan diagnosis yang tepat atas penyakit yang diderita. Diagnosis biasanya dilakukan dengan pertemuan langsung antara dokter dan pasien. Akan tetapi, cara ini memiliki banyak hambatan, seperti: membutuhkan banyak waktu dan biaya. Selain itu, cara ini juga berpotensi menularkan penyakit kepada orang lain. Oleh karena itu, diajukan implementasi chatbot untuk mengatasi hambatan dalam melakukan diagnosis COVID-19. Chatbot menerima input data berupa gejala yang dialami pasien. Data tersebut terlebih dahulu diubah menjadi data tabular untuk kemudian dilakukan klasifikasi jenis penyakit dengan bantuan algoritma machine learning. Pada Penelitian ini, akan dilakXGBoost pada data gejala yang dipublikasikan oleh Walter Conway di situs Kaggle. Hasil penelitian menunjukkan bahwa model Random Forest memiliki kinerja terbaik pada data testing dengan skor rata-rata accuracy sebesar 93.38%, precision sebesar 96.58%, recall sebesar 93.38%,F1-Score sebesar 94.32%, specificity sebesar 99.73%, Geometric Mean sebesar 95.94%, dan waktu training selama 0.33 detik.

Coronavirus disease 19 (COVID-19) is an infectious respiratory disease that was first detected in Wuhan City, Hubei Province, China. This disease has general symptoms that are similar to the symptoms of other respiratory diseases such as allergies, flu, and colds. But each disease requires different medications and treatments. Thus, it is important for patients to get a proper diagnosis of the disease they are suffering from. Diagnosis is usually made by direct meeting between doctor and patient. However, this method has many obstacles, such as: it takes a lot of time and money. In addition, this method also has the potential to transmit the disease to others. Therefore, it is proposed to implement a chatbot to overcome obstacles in diagnosing COVID-19. The chatbot receives input data in the form of symptoms experienced by the patient. The data is first converted into tabular data and then the classification of the type of disease is carried out with the help of machine learning algorithms. In this study, a diagnosis of COVID-19 will be carried out using the Random Forest and XGBoost models on symptom data published by Walter Conway on the Kaggle website. The results showed that the Random Forest model had the best performance on data testing with an average score of 93.38% accuracy, 96.58% precision, 93.38% recall, 94.32% F1-Score, 99.73% specificity, and 95.94% Geometric Mean, and the training time is 0.33 seconds."
Depok: Fakultas Matematika dan Ilmu Penngetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Cornelius
"AIS sebagai alat yang diwajibkan digunakan kapal menurut SOLAS sebagai pencegah tabrakan antar kapal memiliki potensi yang lebih besar dalam penerapan ruang lingkup data analytics. Data posisi kapal dapat membantu menggambarkan perilaku kapal di lautan. Aplikasi data AIS bisa membantu mengoptimalkan operasional kapal. Penelitian ini akan menjelaskan tentang sebuah metode penerapan data AIS untuk menghasilkan prediksi waktu tunggu kapal. Algoritma Extreme Gradient Boosting (Xgboost) akan digunakan sebagai pendekatan melakukan prediksi dari data historis. Dengan xgboost, prediksi yang dihasilkan mendapatkan nilai RMSE sebesar 268.47 dan R2 sekitar 0.3 setelah dioptimalkan dengan hyperparameter tuning. Hasil prediksi ini dapat digunakan sebagai pertimbangan penerapan green steaming ataupun bahan evaluasi pelabuhan untuk mengembangkan pelayanannya.

AIS as a tool, according to SOLAS, used as a prevention of collisions between ships has more significant potential in the application of the scope of data analytics. Ship position data can help describe ship behavior at sea. AIS data applications can help optimize ship operations. This research will describe a method of applying AIS data to generate predictions of ship waiting times. The Extreme Gradient Boosting (Xgboost) algorithm will be used to make predictions from historical data. With xgboost, the resulting prediction gets an RMSE value of 268.47 and an R2 of about 0.3 after being optimized with hyperparameter tuning. The results of this prediction can be used as consideration for implementing green steaming or evaluating port evaluation materials to develop their services."
Depok: Fakultas Teknik, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Auriwan Yasper
"Klasifikasi curah hujan sangat membantu masyarakat dan instansi terkait dalam mengambil kebijakan seperti pengelolaan sumber daya air, transportasi, pertanian dan pencegahan bencana. Model yang sudah pernah digunakan dalam melakukan klasifikasi curah hujan yaitu XGBoost, telah terbukti mampu melakukan klasifikasi dengan efektif, namun masih memerlukan tuning pada hyperparameter-nya untuk meningkatkan performa model. Penelitian ini bertujuan untuk merancang metode klasifikasi curah hujan dengan model XGBoost dan menemukan nilai learning rate terbaik untuk klasifikasi curah hujan. Parameter max depth, dan n estimator ditetapkan berdasarkan penelitian yang sudah pernah dilakukan. Model ini dibangun berdasarkan data historis curah hujan selama 3 bulan setiap jam, yang telah dikumpulkan oleh peralatan Automated Weather Observed System (AWOS) di Stasiun Meteorologi Kota Pontianak. Pencarian hyperparameter menggunakan metode coarse to fine, yaitu pencarian kasar ke pencarian halus. Pencarian kasar menggunakan RandomizedSearchCV, sedangkan pencarian halus dengan GridSearchCV. Model dievaluasi dengan metrik Accuracy, precision, recall, dan F1-score. Evaluasi menunjukkan bahwa model memilki metrik evaluasi yang baik dengan persentase diatas 80% untuk setiap kasus pembagian data. Nilai learning rate terbaik dengan akurasi tertinggi yang didapatkan pada model dengan 2040 data set adalah pada kasus klasifikasi biner, yaitu sebesar 0.043 dengan akurasi pada data latih 90.19%.

The classification of rainfall is very helpful for the community and related agencies in making policies such as managing water resources, transportation, agriculture, and disaster prevention. The model that has been used to classify rainfall, namely XGBoost, has proven to be able to classify effectively but still requires tuning its hyperparameters to improve model performance. This study aims to design a rainfall classification method using the XGBoost model and find the best learning rate for rainfall classification. The max depth and n estimator parameters are determined based on research that has been done. This model was built based on historical rainfall data for 3 months every hour, which has been collected by the Automated Weather Observed System (AWOS) equipment at the Pontianak City Meteorological Station. The hyperparameter search uses the coarse-to-fine method, which is a coarse-to-fine search. The coarse search uses RandomizedSearchCV, while the fine search uses GridSearchCV. The model is evaluated with Accuracy, precision, recall, and F1-score metrics. The evaluation shows that the model has good evaluation metrics with percentages above 80% for each case of data sharing. The best learning rate value with the highest accuracy obtained in the model with the 2040 dataset is in the binary classification case, which is equal to 0.043 with an accuracy of 90.19% of the training data."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Teresa Yubilea Koswari
"Asuransi merupakan bentuk pengalihan risiko dengan cara mendistribusikan risiko individu menjadi risiko kolektif. Pemasukan utama perusahaan asuransi adalah dari penjualan polis asuransi. Metode penjualan yang lazim digunakan pada asuransi maupun industri finansial lainnya adalah cross-selling. Cross-selling adalah proses menawarkan produk tambahan kepada orang yang sudah menjadi pelanggan perusahaan yang bersangkutan. Sangat penting bagi perusahaan asuransi untuk memiliki kemampuan memprediksi secara akurat karakteristik calon pelanggan yang sekiranya akan tertarik membeli suatu produk yang sedang ingin dipasarkan. Untuk dapat mengetahui karakteristik pelanggan potensial berdasarkan data perusahaan yang pada umumnya berskala besar, diusulkan untuk menggunakan machine learning. Hingga saat ini, metode machine learning yang  populer digunakan untuk mengolah data tabular adalah XGBoost. Pada penelitian ini, digunakan metode XGBoost untuk memprediksi hasil cross-selling produk asuransi dan kemudian dibandingkan dengan metode berbasis pohon lainnya, yaitu Decision Tree dan Random Forest, dari segi sensitivity, specificity, dan AUC-ROC. Diperoleh bahwa XGBoost unggul pada metrik specificity dan AUC-ROC. Selanjutnya, hasil simulasi terbaik dari setiap model diinterpretasikan menggunakan feature importance berdasarkan gain agar diperoleh fitur yang menjadi faktor penting dalam memprediksi cross-selling asuransi. Dengan adanya tahap interpretasi ini, diharapkan metode yang digunakan pada penelitian ini dapat diterima dan berguna bagi industri asuransi.

Insurance is a form of risk transfer by distributing individual risks into collective risks. The main income of insurance companies is from the sale of insurance policies. The sales method commonly used in the insurance and other financial industries is cross-selling. Cross-selling is the process of offering additional products to existing customers of the company. It is very important for insurance companies to have the ability to accurately predict the characteristics of potential customers who will be interested in buying a product that is being marketed. To find out the characteristics of potential customers based on company’s data, which are generally in large scale, it is proposed to use machine learning method. Until now, the most popular machine learning method used to process tabular data is XGBoost. In this study, the XGBoost method was used to predict cross-selling results of insurance products and then compared with other tree-based models, the Decision Tree and Random Forest, in terms of sensitivity, specificity, and AUC-ROC. It was found that XGBoost excels in specificity and AUC-ROC metrics. Furthermore, the best simulation results from each model are interpreted using feature importance based on gain to obtain features that are important factors in predicting insurance cross-selling. So, with this interpretation step done, it is hoped that the method used in this study can be accepted and useful for the insurance industry.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Farah Hana Kusumaputri
"Seiring dengan perkembangan teknologi komunikasi data yang tinggi, permasalahan yang dihadapi pun semakin bervariasi. Salah satu permasalahan yang sering dialami adalah cyber attack, permasalahan ini dapat mengakibatkan kerugian tidak hanya informasi yang bocor, namun juga kerugian secara finansial yang diakibatkan dari transaksi illegal yang memanfaatkan informasi pribadi pengguna yang bocor, serta kerugian lainnya. Dengan adanya permasalahan ini, penulis berinisiatif dalam mengusung model deteksi anomali berdasarkan dataset NSL-KDD menggunakan machine learning model XGBoost dengan Optuna Tuning. XGBoost merupakan machine learning model yang mampu mengatasi overfitting pada simulasi yang diusulkan, dengan kombinasi Optuna Tuning, model machine learning yang diusung mampu bekerja efisien akibat dari adanya optimasi hyperparameter secara otomatis. Kinerja model yang diusulkan penulis berhasil mendapatkan akurasi 99,56%, dengan nilai precision 98,16%, nilai recall 99,82%, dan untuk nilai f-1 score 99,61%. Berdasarkan hasil simulasi tersebut menunjukkan bahwa model yang diusulkan penulis berhasil mendeteksi adanya anomali pada trafik serta memiliki sensitivitas yang tinggi.

Along with the development of high data communication technology, the problems faced are increasingly varied. One of the problems that is often experienced is in form of cyber attacks, this problem affected to losses, not only leaked information which occred, but also financial losses caused by illegal transactions that utilized by using user personal information, as well as other losses. In concern of facing this problem, the author takes an initiative in carrying out an anomaly detection model based on the NSL-KDD dataset using XGBoost, machine learning model with Optuna Tuning. XGBoost is a machine learning model that is able to overcome overfitting in the proposed simulation, with a combination of Optuna Tuning, this machine learning model is able to work efficiently due to automatic hyperparameter optimization. That statement is proven by the performance of the model succesfully manage to get an accuracy of 99.56%, with a precision value of 98.16%, a recall value of 99.82%, and for an f-1 value of 99.61%. Based on the results of the simulation, it shows that the model proposed by the author has successfully detected anomalies in traffic and has a high sensitivity"
Depok: Fakultas Teknik Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Ali Muhammad Ali
"Citra hiperspektral memiliki informasi dalam rentang spektrum yang luas melebihi rentang spektrum yang ada pada citra RGB sebagai citra yang umum digunakan sehari-hari saat ini. Informasi tersebut dapat dimanfaatkan dalam berbagai macam bidang; salah satunya adalah pengukuran kadar tertentu dalam suatu objek. Namun, kamera hiperspektral sebagai alat akuisisi citra memiliki kekurangan yaitu harganya yang mahal, tidak mudah dioperasikan, ukuran hasil citra yang besar, serta memerlukan teknik dan perangkat khusus saat mengakuisisi citra. Hal tersebut berbeda dengan kamera RGB yang memiliki harga yang jauh lebih murah, hasil citra berukuran kecil, serta mudah dioperasikan. Penelitian ini melakukan implementasi sistem rekonstruksi citra hiperspektral dari citra RGB berbasis convolutional neural network ResNet pada sistem prediksi kadar fenolik daun bisbul. Terdapat proses rekonstruksi citra hiperspektral dengan target jumlah bands sebanyak 224 pada rentang panjang gelombang 400 sampai 1000 nm. Penelitian ini menggunakan algoritma model ResNet untuk model rekonstruksi citra, serta algoritma model XGBoost untuk model prediksi kadar. Performa model yang dihasilkan dalam penelitian ini adalah RMSE sebesar 0,1129 dan MRAE sebesar 0,3187 untuk model rekonstruksi citra, serta RMSE sebesar 0,5798 dan MRAE sebesar 0,1431 untuk model prediksi kadar. Citra hiperspektral hasil rekonstruksi mampu menghasilkan pola spectral signature yang serupa dengan citra hiperspektral asli.

Hyperspectral images have much information within their large spectrum area; larger than RGB images which are used daily nowadays. The information can be used in many applications; one of them is content measurement of an object. However, hyperspectral cameras as an image acquisition instrument have disadvantages, such as high cost, not easy to operate, large image results, and require additional equipment in its image acquisition. This is different from RGB cameras which have cheaper price, smaller in image size, and easier to operate. This study implemented a hyperspectral image reconstruction system from RGB images based on the ResNet convolutional neural network on the velvet apple leaf’s phenolic content prediction system. This study reconstructs hyperspectral images with a total target of 224 bands in the wavelength range of 400 to 1000 nm. This study uses the ResNet model algorithm for the image reconstruction model, and the XGBoost model algorithm for the content prediction. The performance of the model produced in this study is RMSE of 0.1129 and MRAE of 0.3187 for the image reconstruction model, as well as RMSE of 0.5798 and MRAE of 0.1431 for the content prediction model. The reconstructed hyperspectral image can produce the same spectral signature pattern as the original hyperspectral image."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Feriansyah Raihan Taufiq
"Citra hiperspektral memiliki jumlah spektral dari suatu objek dengan rentang spektrum yang lebih luas dibandingkan dengan citra RGB. Suatu citra hiperspektral memberikan informasi yang jauh lebih banyak kegunaannya sebagai analisa suatu kasus dibandingkan dengan citra RGB. Salah satu pengaplikasian dengan menggunakan citra hiperspektral yaitu pengukuran suatu kadar tertentu dalam suatu objek. Namun, citra hiperspektral sulit diperoleh dikarenakan memiliki sistem akuisisi yang tidak sederhana. Faktor tersebut dikarenakan pencitraan berbasis citra hiperspektral menggunakan kamera yang mahal, perangkat keras pendukung sistem akuisisi yang kompleks, beserta ukuran citra yang lebih besar dibandingkan dengan citra RGB. Oleh karena itu, penelitian ini melakukan rekonstruksi citra hiperspektral dari citra RGB menggunakan algoritma convolutional neural network dengan arsitektur dense block untuk studi kasus sistem prediksi kadar karotenoid pada daun bisbul. Penelitian ini menghasilkan citra hiperspektral rekonstruksi dari citra RGB yang diperoleh dari proses konversi, beserta citra RGB yang diperoleh dari kamera RGB. Citra hiperspektral yang direkonstruksi pada penelitian ini yaitu berada pada rentang target panjang gelombang 400 nm hingga 1000 nm dengan target jumlah bands sebanyak 112. Algoritma rekonstruksi yang digunakan pada penelitian ini yaitu convolutional neural network dengan arsitektur dense blocks. Pembangunan model rekonstruksi citra pada penelitian ini, yaitu dengan memvariasikan jumlah dense block beserta target rentang dan jumlah panjang gelombang yang akan direkonstruksi. Variasi ini bertujuan untuk mencari model rekonstruksi citra yang optimal untuk merekonstruksi citra hiperspektral dari citra RGB. Lalu, citra hiperspektral rekonstruksi akan digunakan untuk membangun model prediksi kadar karotenoid pada daun bisbul berbasis algoritma machine learning XGBoost, kemudian model prediksi kadar karotenoid berbasis citra hiperspektral rekonstruksi akan dibandingkan dengan model prediksi kadar karotenoid berbasis citra hiperspektral asli. Hasil eksperimen memaparkan bahwa model rekonstruksi citra dengan jumlah dense block sebanyak 30 memiliki performa terbaik, dengan target rentang panjang gelombang 400 nm hingga 1000 nm dan target jumlah bands sebanyak 112. Performa model rekonstruksi citra dengan variasi tersebut memiliki RMSE sebesar 0,0743 dan MRAE sebesar 0,0910. Lalu, performa model prediksi kadar berbasis citra hiperspektral rekonstruksi memiliki RMSE sebesar 0,0565 dan MRAE sebesar 0,0963. Evaluasi kualitatif citra hiperspektral rekonstruksi memiliki pola signatur spektral yang sama dengan citra hiperspektral asli.

Hyperspectral image has the spectral number of an object with a wider spectrum range than RGB image. As a some case analysis, a hyperspectral image is far more useful than RGB image. The measurement of contents in an object is one of the applications of the hyperspectral imagery. However, hyperspectral image is difficult to obtain due to a complicated acquisition system. This is down to the fact that hyperspectral imaging requires more expensive cameras, complex system support devices and have a larger size than RGB images. Therefore, this study reconstruct hyperspectral image using RGB images using a convolutional neural network with dense blocks architecture for a case study of a carotenoid content prediction in (Diospyros discolor Willd.) leaves. This research produces a reconstructed hyperspectral image from the RGB image obtained from the conversion process, and an RGB image obtained from the RGB camera. This study’s reconstructed hyperspectral image has a wavelength target from 400 nm to 1000 nm and a number of bands up to 112. This study’s reconstruction algorithm is a convolutional neural network with dense blocks architecture. In this study, an image reconstruction model is built by varying the number of dense block, target range and number of wavelengths to be reconstructed. The purpose of this variation is to find the best image reconstruction model for constructing hyperspectral images from RGB images. The reconstructed hyperspectral images will then be used to build a prediction model of carotenoid levels in (Diospyros discolor Willd.) leaves using the XGBoost machine learning algorithm, and this model will be compared to the original hyperspectral image based on carotenoid content prediction model. The experimental results indicate that the image reconstruction model with a dense block of 30 and a target wavelength range from 400 nm to 1000 nm with band number consist of 112 performs the best. The image reconstruction model performs well with these variations, with an RMSE of 0,0743 and an MRAE of 0,0910. The RMSE and MRAE of the reconstructed hyperspectral image for carotenoid content prediction model are 0,0565 and 0,0963, respectively. The qualitative evaluation of the reconstructed hyperspectral image has the same spectral signatur pattern as the original hyperspectral image."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ahmad Rafianto
"Pada tahun 2018, kanker prostat merupakan penyakit ganas kedua terbanyak pada pria secara global setelah kanker paru-paru. IDC-P merupakan varian agresif dari kanker prostat yang sering sering disalahinterpretasikan dengan proliferasi intraduktal seperti HGPIN yang dapat mempengaruhi perawatan pasien laki-laki pengidap kanker prostat. Teknik analisis spektroskopi Raman merupakan teknik molekuler berprospek untuk menganalisa jaringan biologis yang telah banyak digunakan dalam mencoba untuk mengidentifikasi berbagai macam jenis kanker. Sayangnya, spektroskopi Raman menghasilkan sinyal yang lemah dan mudah dipengaruhi oleh noise dan latar belakang floresens. Penelitian ini bertujuan untuk mengembangkan pipeline yang mencakup tahapan prapengolahan dan klasifikasi terhadap spektra Raman dari spesies IDC-P dan HGPIN untuk mendapatkan hasil metrik evaluasi yang optimal. Tujuan ini dicapai dengan menemukan nilai parameter optimal pada tahapan prapengolahan (smoothing, baseline correction, normalisasi), dan klasifikasi untuk menghasilkan hasil klasifikasi yang terbaik. Dihasilkan sebuah pipeline yang mencakup tahapan prapengolahan dan klasifikasi dengan kemampuan untuk meng- hasilkan hasil evaluasi metrik yang tinggi untuk metrik evaluasi F1 Test, accuracy, dan AUC-ROC masing-masing bernilai : 98.8%, 97.9%, dan 98.8%. Berdasarkan hasil anali- sis ANOVA, ditemukan bahwa perbedaan pada parameter window length dan polynomial order pada tahapan Savitzky-Golay smoothing tidak memiliki signifikansi terhadap hasil evaluasi metrik (p > 0.05). Sebaliknya, metode baseline correction beserta nilai polynomial degree yang berbeda cenderung memberikan signifikansi ke hasil evaluasi metrik (p < 0.05).

In 2018, prostate cancer was the second most common malignant disease in men globally, following lung cancer. IDC-P is an aggressive variant of prostate cancer often misinterpreted as intraductal proliferation like HGPIN, which can impact the treatment of male patients with prostate cancer. Raman spectroscopy analysis is a promising molecular technique for analyzing biological tissues and has been extensively used in attempts to identify various types of cancer. Unfortunately, Raman spectroscopy produces weak signals that are easily influenced by noise and fluorescent backgrounds. This research aims to develop a pipeline that includes preprocessing and classification stages for Raman spectra of IDC-P and HGPIN species to achieve optimal evaluation metric results. This goal is achieved by finding the optimal parameter values in preprocessing stages (smoothing, baseline correction, normalization) and classification to produce the best classification results. A pipeline was created that includes preprocessing and classification stages capable of producing high evaluation metric results for the F1 Test, accuracy, and AUC-ROC metrics, respectively valued at 98.8%, 97.9%, and 98.8%. Based on ANOVA analysis, it was found that differences in the ’window length’ and ’polynomial order’ parameters in the Savitzky-Golay smoothing stage do not significantly affect the evaluation metric results (p > 0.05). Conversely, the baseline correction method and different ’polynomial degree’ values tend to significantly impact the evaluation metric results (p < 0.05)."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Siregar, Ahmad Yusran
"Telemedicine adalah praktek kesehatan melalui aplikasi dengan memakai komunikasi audio, visual dan data, termasuk perawatan, diagnosis, konsultasi dan pengobatan serta pertukaran data medis jarak jauh. Berdasarkan hasil analisis sentimen pada aplikasi telemedicine, sering ditemukan adanya ketidakseimbangan data/imbalance data. Oleh karena itu perlu dilakukan pengembangan dengan memasukan teknik Imbalance Data dalam melakukan analisis sentimen agar mendapatkan hasil akurasi lebih baik dari penelitian sebelumnya. Tujuan penelitian ini adalah untuk mengidentifikasi penggunaan SVM-SMOTE dan EasyEnsemble dalam meningkatkan kinerja klasifikasi XGBoost pada imbalance data sentimen pada Telemedicine. Identifikasi dilakukan dengan memasukkan metode SVM-SMOTE dan EasyEnsemble Dalam Meningkatkan Kinerja Klasifikasi XGBoost menggunakan data yang diperoleh dari aplikasi Halodoc. Hasil penelitian menunjukkan bahwa penggunaan SVM SMOTE dan EasyEnsamble untuk dataset yang tidak seimbang dengan pembagian skema data 75% data training dan 25% data testing dapat meningkatkan kinerja klasifikasi XGBoost.  Hasil uji menggunakan data yang telah dilakukan balancing dengan SVM-SMOTE, EasyEnsamble dan kombinasi keduanya didapat model terbaik yang layak digunakan dalam melakukan peningkatan pada kinerja klasifikasi imbalance data sentimen pada aplikasi kesehatan. Setelah dilakukan balancing pada dataset, diperoleh nilai tertinggi AUC 0.9254 dan GMeans 0.9249, sedangkan hasil yang diperoleh dengan data set yang tidak seimbang, diperoleh nilai AUC 0.8577 dan GMeans 0.8480. Maka dapat disimpulkan bawah penggunaan SVM-SMOTE, EasyEnsemble atau kombinasi keduanya dapat meningkatkan kinerja klasifikasi pada XGBoost.

Telemedicine is the practice of healthcare through applications using audio, visual, and data communication, including remote care, diagnosis, consultation, treatment, and the exchange of medical data. Sentiment analysis on telemedicine applications often experiences data imbalance issues. Therefore, it is necessary to implement Imbalance Data techniques into sentiment analysis to achieve better accuracy than previous studies. This research aims to identify the use of SVM-SMOTE and EasyEnsemble to enhance the performance of XGBoost classification on imbalanced sentiment data in telemedicine. The identification is carried out by applying SVM-SMOTE and EasyEnsemble methods to improve XGBoost classification performance using data obtained from the Halodoc application. The research results show that using SVM-SMOTE and EasyEnsemble for imbalanced datasets, with a data split of 75% for training and 25% for testing, can enhance XGBoost classification performance. Tests conducted with balanced data using SVM-SMOTE, EasyEnsemble, and the combination resulted in the best model suitable for improving classification performance on imbalanced sentiment data in health applications. After balancing the dataset, the highest AUC value achieved was 0.9254 and GMeans was 0.9249, whereas, with the imbalanced dataset, the AUC was 0.8577 and GMeans was 0.8480. Thus, it can be concluded that the use of SVM-SMOTE, EasyEnsemble, or the combination can improve classification performance in XGBoost."
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Deandra Aulia Rusdah
"Prediksi klaim dan prediksi risiko asuransi dilakukan untuk mengklasifikasikan klaim dan tingkat risiko dalam industri asuransi. Dari sudut pandang pembelajaran mesin, masalah prediksi klaim merupakan klasifikasi dua kelas dan masalah prediksi risiko adalah klasifikasi multi-kelas. Untuk mengklasifikasikan klaim dan risiko, model pembelajaran mesin akan memprediksi berdasarkan data historis. Dalam data historis pemohon asuransi, akan ada kemungkinan nilai yang hilang (missing values) sehingga perlu untuk mengatasi masalah tersebut agar memberikan kinerja yang lebih baik. XGBoost adalah metode pembelajaran mesin yang banyak digunakan untuk masalah klasifikasi dan dapat menangani nilai yang hilang (missing values) tanpa dilakukan proses imputasi terlebih dahulu. Penelitian ini menganalisis kinerja metode XGBoost dalam menangani nilai-nilai yang hilang (missing values) untuk prediksi klaim dan prediksi risiko dalam asuransi dan kinerja tersebut juga dibandingkan dengan metode imputasi standard lainnya, yaitu metode mean dan k-nearest neighbors (KNN). Simulasi menunjukkan bahwa model XGBoost tanpa dilakukan proses imputasi memberikan hasil yang sebanding dengan model XGBoost dengan imputasi

Claim prediction and risk prediction of insurance is carried out to classify claims and the levels of risk in insurance industries. From the machine learning point of view, the problem of claim prediction is a two-class classification, and the problem of risk level prediction is a multi-class classification. To classify the claims and risk, a machine learning model will predict based on historical data. In the insurance applicant's historical data, there will be the possibility of missing values so that it is necessary to deal with these problems to provide better performance. XGBoost is a machine learning method that is widely used for classification problems and can handle missing values without an imputation preprocessing. This study analyzed the performance of the XGBoost model in handling missing values for claim prediction and risk prediction in insurance and the performance is also compared with other standard imputation methods, i.e the mean and k-nearest neighbors (KNN) method. The simulations show that the XGBoost model without any imputation preprocessing gives a comparable result to one of the XGBoost models with an imputation preprocessing."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3   >>