Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 194217 dokumen yang sesuai dengan query
cover
Astria Kurniawan Sumantri
"Resolusi koreferensi merupakan suatu proses yang dilakukan untuk mengetahui hubungan antara suatu entitas bernama atau kata ganti dengan entitas bernama lainnya dalam suatu teks. Hubungan tersebut dapat diketahui berdasarkan informasi kelas kata, kelas nama, kesamaan karakter penyusun kata, dan letak entitas bernama atau kata ganti tersebut dalam suatu teks. Penelitian ini membandingkan penerapan resolusi koreferensi menggunakan pendekatan machine learning dengan metode decision tree, maximum entropy, dan association rules. Penelitian dilakukan untuk mengetahui metode mana yang lebih baik untuk diaplikasikan pada tugas resolusi koreferensi untuk Bahasa Indonesia. Selain itu penelitian ini dilaksanakan untuk mengetahui efektifitas penggunaan fitur pada resolusi koreferensi untuk Bahasa Indonesia. Tujuan lainnya adalah mengetahui berapakah jumlah dokumen pelatihan yang diperlukan untuk masing-masing metode sehingga sistem memberikan hasil yang optimal. Uji coba dilakukan menggunakan 500 dokumen yang dikumpulkan dari Kompas Online (www.kompas.com). Secara umum, nilai recall metode decision tree lebih tinggi dari metode yang lain. Hasil uji coba memperlihatkan bahwa association rules menghasilkan kinerja yang paling baik dengan F-measure sebesar 81,36% yang diamati pada jumlah dokumen pelatihan 300 dan menggunakan semua fitur. Metode decision tree mencapai kestabilan pada jumlah dokumen 50. Metode maximum entropy mencapai kestabilan pada jumlah dokumen 70, sedangkan metode association rules mencapai kestabilan saat jumlah dokumen 90. Pada metode decision tree dan maximum entropy, kombinasi fitur minimum yang memberikan hasil terbaik adalah kombinasi fitur yang berhubungan dengan kesamaan karakter penyusun frase. Sedangkan untuk metode association rules, kombinasi fitur yang berhubungan dengan kesamaan karakter penyusun frase dan kombinasi fitur kelas nama merupakan kombinasi yang memberikan hasil terbaik."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Devina Christianti
"Klasifikasi adalah proses menugaskan satu set data ke dalam kelas yang ada berdasarkan nilai setiap atribut. Pengklasifikasi pohon keputusan diklaim lebih cepat dan berproduksi akurasi yang lebih baik. Namun, ia memiliki beberapa kelemahan di mana pengklasifikasi rentan untuk overfitting. Overfitting adalah suatu kondisi di mana model tidak mampu menarik kesimpulan data baru dengan cara yang benar. Overfitting di pohon keputusan dapat dihindari dengan memotong subtree pengaruh kecil dalam melakukan klasifikasi ketika pohon ditanam, disebut post-pruning, yang bertujuan untuk meningkatkan kinerja model dalam memprediksi data.
Tesis ini mengusulkan metode pasca pemangkasan dengan menerapkan Risiko Bayes, di mana estimasi risiko setiap simpul induk dibandingkan dengan simpul daunnya. Sebagai perbandingan, pemangkasan pasca lainnya Metode yang diterapkan, yaitu Reduced Error Pruning (REP). Kedua metode tersebut diterapkan untuk tiga dataset klasifikasi churn pelanggan dari situs Kaggle dan IBM Datasets. Untuk hasilnya, Bayes Risk Post-Pruning dapat meningkatkan kinerja Decision Tree lebih baik dari Reduced Error Pruning dengan meningkatkan nilai akurasi, presisi, dan daya ingat. Kedua metode juga diterapkan pada tiga proporsi berbeda untuk data pelatihan (60%, 70% dan 80%). Hasilnya menunjukkan bahwa semakin besar ukuran dataset pelatihan dikaitkan akurasi, presisi, dan daya ingat model yang lebih tinggi.

Classification is the process of assigning a set of data to an existing class based on the value of each attribute. Decision tree classifiers are claimed to be faster and produce better accuracy. However, it has several disadvantages where the classifier is prone to overfitting. Overfitting is a condition in which the model is unable to draw new data conclusions in the right way. Overfitting in the decision tree can be avoided by cutting the subtree of small influence in classifying when the tree is planted, called post-pruning, which aims to improve the performance of the model in predicting data.
This thesis propose a post-pruning method by applying Bayes Risk, where the estimated risk of each parent node is compared to the leaf node. As a comparison, other post pruning methods are applied, namely Reduced Error Pruning (REP). Both methods are applied for three customer churn classification datasets from the Kaggle site and IBM Datasets. For the results, Bayes Risk Post-Pruning can improve Decision Tree performance better than Reduced Error Pruning by increasing the value of accuracy, precision, and memory. Both methods are also applied to three different proportions for training data (60%, 70% and 80%). The results show that the greater the size of the training dataset is associated with higher model accuracy, precision, and recall.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Valery Ongso Putri
"Ketidakseimbangan data merupakan masalah umum yang terjadi dalam bidang analisis data. Data menjadi tidak seimbang karena terdapat perbedaan antara jumlah sampel pada setiap kelasnya. Masalah ketidakseimbangan ini menyebabkan model klasifikasi menjadi bias, dimana model akan cenderung memprediksi kelas mayoritas secara efektif dibandingkan dengan kelas minoritas dan dapat menyebabkan kesalahan interpretasi dalam pengambilan suatu keputusan. Terdapat beberapa cara dalam menangani data yang tidak seimbang, yaitu random undersampling dan random oversampling. Salah satu metode dari random oversampling yang populer adalah Synthetic Minority Oversampling Technique (SMOTE). SMOTE dapat digabungkan dengan metode random undersampling, yaitu Edited Nearest Neighbors (ENN) dan Tomek link. Pada metode gabungan SMOTE-ENN dan SMOTE-Tomek link, SMOTE bekerja terlebih dahulu dengan membuat sampel sintetis pada kelas minoritas. ENN dan Tomek link berperan sebagai cleaning untuk menghapus data yang tidak relevan dan dianggap sebagai noise. Untuk melihat pengaruh ketiga metode resampling tersebut, yaitu SMOTE, SMOTEENN, dan SMOTE-Tomek Link, dilakukan simulasi data. Simulasi data dapat melihat pengaruh ukuran sampel, ukuran proporsi kelas, dan metode resampling terhadap model klasifikasi decision tree, random forest, dan XGBoost pada data yang tidak seimbang. Simulasi data juga dijalankan sebanyak 100 iterasi yang menunjukkan bahwa iterasi pertama cukup untuk mewakili hasil dari 100 iterasi. Hasil menunjukkan bahwa ketiga metode cenderung mampu memberikan hasil yang baik dengan adanya peningkatan nilai metrik precision, recall, ROC-AUC, dan G-Mean. Metode SMOTE dengan XGBoost bekerja dengan baik pada ukuran sampel kecil dengan adanya peningkatan nilai metrik yang cukup signifikan. Pada SMOTE-ENN, nilai recall cenderung meningkat yang diikuti oleh menurunnya nilai precision pada proporsi 1:9, 2:8, dan 3:7 dengan sampel yang relatif kecil. SMOTE-Tomek Link juga meningkatkan nilai metrik pada sampel yang relatif kecil dengan proporsi memberikan nilai metrik tertinggi.

Data imbalance is a common problem that occurs in the field of data analysis. The data becomes unbalanced because there is a difference between the number of samples in each class. This imbalance problem causes the classification model to be biased, where the model will tend to predict the majority class effectively compared to the minority class and can cause misinterpretation in making a decision. There are several ways to handle imbalanced data, namely random undersampling and random oversampling. One of the popular random oversampling methods is Synthetic Minority Over-sampling Technique (SMOTE). SMOTE can be combined with random undersampling methods, namely Edited Nearest Neighbors (ENN) and Tomek link. In the combined SMOTE-ENN and SMOTE-Tomek link method, SMOTE works first by creating a synthetic sample in the minority class. ENN and Tomek link act as cleaning to remove irrelevant data and are considered as noise. To see the effect of the three resampling methods, namely SMOTE, SMOTE-ENN, and SMOTE-Tomek Link, data simulation was conducted. Data simulation can see the effect of sample size, class proportion size, and resampling method on decision tree, random forest, and XGBoost classification models on imbalanced data. The data simulation was also run for 100 iterations which shows that the first iteration is sufficient to represent the results of 100 iterations. The results show that the three methods tend to be able to provide good results with an increase in the precision, recall, ROC-AUC, and G-Mean metric values. The SMOTE method with XGBoost works well on small sample sizes with a significant increase in metric values. In SMOTE-ENN, the recall value tends to increase followed by a decrease in precision value at proportions 1:9, 2:8, and 3:7 with relatively small samples. SMOTE-Tomek Link also increases the metric value on relatively small samples with proportions of 1:9 and 2:8. In addition, the resampling method was also used on data available on Kaggle.com, namely Pima Indian Diabetes and Give Me Some Credit:: 2011 Competition. In the Pima Indian Diabetes data, it can be seen that the recall, ROC-AUC, and G-Mean values are the highest using SMOTE-ENN with the XGBoost model. On the Give Me Some Credit:: 2011 Competition also shows that the SMOTE-ENN method with the XGBoost model provides the highest metric value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Irfan Muhammad Al-Farisy
"Machine learning atau pembelajaran mesin merupakan sebuah metode yang sudah tidak asing lagi didengar. Akhir-akhir ini pembelajaran mesin sering digunakan untuk menyelesaikan masalah kebencanaan, khususnya pada pembuatan peta likuefaksi. Pembelajaran mesin akan memprediksi daerah-daerah yang memiliki potensi likuefaksi dari rendah hingga ke tinggi. Pada penelitian ini, metode pembelajaran mesin yang akan digunakan adalah Decision Tree dan Random Forest, dan beberapa algoritma lain sebagai pembanding dari 2 algoritma sebelumnya. Likuefaksi dipengaruhi oleh seismisitas atau magnitudo terjadinya gempa pada suatu wilayah. Pada penelitian ini digunakan 2 magnitudo sebagai pembanding yaitu magnitudo 6 dan magnitudo 7.5. Selain itu di penelitian ini digunakan 4 peta prediktor sebagai fitur-fitur input yaitu PGA (Peak Ground Acceleration), MAT (muka air tanah), Slope (kemiringan lereng) dan Vs30 (kecepatan gelombang geser). Penelitian ini mengambil 33 titik pengambilan sampel untuk melatih model pembelajaran mesin ini. Untuk nilai akurasi dari masing-masing algoritma yaitu menggunakan confusion matrix untuk membandingkan performa dari model DT dan RF.

Machine learning is a method that is already familiar to hear. Lately, machine learning is often used to solve disaster problems, especially in making liquefaction maps. Machine learning will predict areas that have the potential for liquefaction from low to high. In this study, the machine learning methods that will be used are Decision Tree and Random Forest, and several other algorithms as a comparison of the previous 2 algorithms. Liquefaction is influenced by the seismicity or magnitude of the earthquake in an area. In this study, 2 magnitudes were used as comparison, namely magnitude 6 and magnitude 7.5. In addition, this study uses 4 predictor maps as input features, namely PGA (Peak Ground Acceleration), MAT (ground water level), Slope (slope) and Vs30 (shear wave velocity). This study took 33 sampling points to train this machine learning model. For the accuracy value of each algorithm, it uses a confusion matrix to compare the performance of the DT and RF models.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Indah Nursanti
"Karya ilmiah ini membahas perhitungan kelayakan dalam menjalani suatu proyek, pemilihan proyek serta pengaruh perubahan nilai komponen-komponen dalam perhitungan kelayakan dari sepuluh proyek yang dimiliki oleh PT Infomedia Nusantara pada bulan Maret 2014.Sebagai pedoman untuk PT Infomedia Nusantara dalam menjalankan usahanya pada tahun-tahun mendatang, sehingga perusahaan dapat memaksimalkan nilai perusahaan. Metode yang digunakan untuk perhitungan kelayakan proyek dan pemilihan proyek adalah dengan menggunakan discounted cash flow yang menghasilkan perhitungan NPV, IRR, PI serta PP. Sedangkanmetode yang digunakan untuk perubahan nilai komponen- komponen dalam perhitungan kelayakan menggunakan scenario analisis. Dan penggunaan optimasi portofolio untuk melihat proyek-proyek yang optimum. Hasil perhitungan penelitian ini menyimpulkan bahwa hany aterdapat tujuh projek yang sesuai dengan klasifikasi perusahaan.Sedangkan untuk perubahan nilai komponen, sebaiknya perusahaan memperhatikan komponen biaya sumber daya manusia.

This thesis explores the feasibility in carrying a project, the selection of projects and the effects of changes in the components of the calculation for the feasibility from ten projects are owned by PT Infomedia Nusantara on March 2014, as a guideline for PT Infomedia Nusantara business in the coming years, so that the company can maximize its value. The method use for the calculation of project feasibility and project selection is to use a discounted cash flow calculation that generates NPV, IRR, PI and PP.The calculation for feasibility uses scenario analysis. Portfolio Optimization uses for analyzing the optimum projects. The results of this study conclude that there are only seven projects in accordance with the classification of the company. While the change in the feasibility studies component, companies should pay attention to human resource cost components.
"
Depok: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2014
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Aryo Hastungkoro Harimurti Mukarta
"Dalam melakukan klaim subrogasi, perusahaan penjaminan kredit sering mengalami kendala di mana pihak yang dijamin tidak melunasi pinjamannya sesuai kesepakatan. Hal ini membuat perusahaan penjaminan kredit mengklasifikasikan pihak terjamin yang berpotensi untuk melunasi pinjaman kreditnya, dan pihak terjamin yang tidak berpotensi untuk melunasi pinjaman kreditnya. Penelitian ini mengevaluasi prediksi potensi klaim subrogasi pada penjaminan kredit menggunakan berbagai model pembelajaran mesin berdasarkan data dunia nyata dari perusahaan penjaminan kredit besar di Indonesia. Eksperimen menggunakan Logistic Regression, sebuah metode prediksi berbasis persamaan linier, Penalized Logistic Regression, bentuk dari Logistic Regression yang koefisien-koefisiennya diberikan penalti, dan Random Forest Classifier, sebuah metode berbasis ensemble learning. Model diuji menggunakan Hold-out Validation dan data prediksi dibandingkan dengan data uji untuk false positive dan false negative. Hasil penelitian menunjukkan bahwa Random Forest Classifier memberikan hasil yang lebih baik, menunjukkan kinerja rata-rata yang lebih baik dibandingkan dengan Logistic Regression dan Penalized Logistic Regression . Temuan studi ini dapat digunakan oleh analis klaim dan subrogasi baik dari perusahaan penjaminan kredit maupun peneliti independen dalam menilai kekuatan dan kelemahan masing-masing model dan untuk menyusun aturan keputusan yang efektif secara empiris untuk mengevaluasi kebijakan subrogasi.

In making subrogation claims, credit guarantee companies often encounter problems where the guaranteed party does not pay off their loan according to the agreement. This makes credit guarantee companies classify those who have the potential to pay off their credit loans, or those that are not potential to pay off their credit loans. This study evaluates the prediction of potential subrogation claims in credit guarantees using various machine learning models based on real-world data from a large credit guarantee company in Indonesia. The experiment used Logistic Regression, a linear equation-based prediction method, Penalized Logistic Regression, a form of Logistic Regression whose coefficients are penalized, and the Random Forest Classifier, an ensemble learning-based method. The model was tested using Hold-out Validation and prediction dataset were compared to test dataset for false positives and false negatives. The results showed that the Random Forest Classifier gave better results, indicating a better average performance compared to Logistic Regression and Penalized Logistic Regression. The findings of this study can be used by claims and subrogation analysts from both credit guarantee companies and independent researchers in assessing the strengths and weaknesses of each model and to construct empirically effective decision rules for evaluating subrogation policies."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Martha Christina
"Bank yang menyelenggarakan program keuangan inklusif cenderung tidak melakukan diferensiasi pelayanan bagi para pelanggannya yang berasal dari populasi masyarakat unbanked. Banyak organisasi mengganggap segmen keuangan inklusif sebagai ladang yang kurang populer dalam mendapatkan keuntungan, karena kecilnya pemasukan dan besarnya biaya operasional yang dibutuhkan. Namun, beberapa studi sebelumnya tentang keuangan inklusif dan segmentasi pelanggan telah menentang gagasan ini dan menyatakan bahwa klasifikasi lebih lanjut terhadap kategori pelanggan khusus ini dapat membawa keuntungan bagi pihak bank. Segmentasi pelanggan sering dilakukan menggunakan model Recency, Frequency, dan Monetary (RFM) untuk mendapatkan nilai pelanggan bagi perusahaan.
Penelitian ini bertujuan untuk membuat model prediksi segmen pelanggan dalam konteks keuangan inklusif, dengan menerapkan penggunaan dua teknik data mining Self-Organizing Map (SOM) dan C5.0 decision tree (DT) secara hybrid. Analisa sosioekonomi, regional, dan pengeluaran digunakan untuk menilai pelanggan, alih-alih menggunakan RFM. Penelitian ini juga mempelajari pengaruh SOM terhadap kinerja klasifikasi keseluruhan, yang dievaluasi menggunakan confusion matrix. Dataset yang digunakan memiliki struktur generik sehingga model ini diharapkan dapat membantu pengembangan program keuangan inklusif pada institusi keuangan penyelenggara keuangan inklusif lainnya.

Banks adopting financial inclusion program often exclude differentiation in their services towards the target customers. Many organizations consider financial inclusion inflicts huge operational costs hence it is deemed infamous for profit gain. Previous studies in financial inclusion and customer segmentation have challenged this notion, concluding that further classification of this particular customer class could indeed bring profit for the bank and such that maintaining existing profiting customers induce less cost than the effort of acquiring new customers. Customer segmentation is often done using the Recency, Frequency and Monetary (RFM) model to assess a customer's value for the company.
This study aims to model customer segment predictions in the context of financial inclusion, using socioeconomic, regional, and expenditure analyses to assess customer values. Two data mining techniques Self-Organizing Map (SOM) and C5.0 decision tree (DT) are used in a hybrid setting. This study also observes the effect of SOM on overall classification performance, which is evaluated using confusion matrix. Due to the generality of the input dataset, the prediction model is expected to be usable, with minimal adjustments, by other financial inclusion institutions in need of customer segmentation.
"
Depok: Fakultas Teknik Universitas Indonesia, 2019
T54216
UI - Tesis Membership  Universitas Indonesia Library
cover
Gregorius Vidy Prasetyo
"ABSTRAK
Pada permasalahan seperti kesehatan atau dunia retail banyak dijumpai data-data yang memiliki kategori yang tidak seimbang. Sebagai contoh jumlah penderita penyakit tertentu relatif langka pada suatu studi atau jumlah transaksi yang terkadang merupakan transaksi palsu (fraud) jumlahnya secara signifikan lebih sedikit ketimbang transaksi normal. Kondisi ini biasa disebut sebagai kondisi data tidak seimbang dan menyebabkan permasalahan pada performa model, terutama pada kelas minoritas. Beberapa metode telah dikembangkan untuk mengatasi permasalahan data tidak seimbang, salah satu metode terkini untuk menanganinya adalah Easy Ensemble. Easy Ensemble diklaim dapat mengatasi efek negatif dari pendekatan konvensional seperti random-under sampling dan mampu meningkatkan performa model dalam memprediksi kelas minoritas. Skripsi ini membahas metode Easy Ensemble dan penerapannya dengan model Random Forest dalam mengatasi masalah data tidak seimbang. Dua buah studi empiris dilakukan berdasarkan kasus nyata dari situs kompetisi hacks.id dan kaggle.com. Proporsi kategori antara kelas mayoritas dan minoritas pada dua data di kasus ini adalah 70:30 dan 94:6. Hasil penelitian menunjukkan bahwa metode Easy Ensemble, dapat meningkatkan performa model klasifikasi Random Forest terhadap kelas minoritas dengan signifikan. Sebelum dilakukan resampling pada data (nhacks.id), nilairecall minority hanya sebesar 0.47, sedangkan setelah dilakukan resampling, nilainya naik menjadi 0.82. Begitu pula pada data kedua (kaggle.com), sebelum resampling nilai recall minority hanya sebesar 0.14, sedangkan setelah dilakukan resampling, nilai naik secara signifikan menjadi 0.71.

ABSTRACT
In the real world problem, there is a lot case of imbalanced data. As an example in medical case, total patients who suffering from cancer is much less than healthy patients. These condition might cause some issues in problem definition level, algorithm level, and data level. Some of the methods have been developed to overcome this issues, one of state-of-the-art method is Easy Ensemble. Easy Ensemble was claimed can improve model performance to classify minority class moreover can overcome the deï¬?ciency of random under-sampling. In this thesis discussed the implementation of Easy Ensemble with Random Forest Classifers to handle imbalance problem in a credit scoring case. This combination method is implemented in two datasets which taken from data science competition website, nhacks.id and kaggle.com with class proportion within majority and minority is 70:30 and 94:6. The results show that resampling with Easy Ensemble can improve Random Forest classifier performance upon minority class. This been shown by value of recall on minority before and after resampling which increasing significantly. Before resampling on the first dataset (nhacks.id), value of recall on minority is just 0.49, but then after resampling, the value of recall on minority is increasing to 0.82. Same with the second dataset (kaggle.com), before the resampling, value of recall on minority is just 0.14, but then after resampling, the value of recall on minority is increasing significantly to 0.71."
2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Esti Latifah
"ABSTRAK
Klasifikasi merupakan proses pengelompokan suatu himpunan data ke kelas-kelas yang sudah ada sebelumnya. Pada umumnya, himpunan data dibagi menjadi dua bagian, yaitu training data dan testing data. Dibutuhkan suatu metode klasifikasi yang dapat mengelompokkan training data dan testing data ke dalam suatu kelas dengan tepat. Sering kali metode klasifikasi hanya dapat mengelompokkan training data dengan tepat saja, namun tidak demikian untuk testing data. Artinya, model yang terbentuk tidak cukup stabil atau model tersebut mengalami overfitting. Secara umum, overfitting merupakan kondisi saat akurasi yang dihasilkan pada training data cukup tinggi, namun cenderung tidak mampu memprediksi testing data. Penentuan metode klasifikasi yang rentan terhadap overfitting perlu dipertimbangkan. Random forest merupakan salah satu metode klasifikasi yang rentan terhadap masalah overfitting. Hal tersebut sekaligus menjadi salah satu kelebihan dari metode random forest. Oleh karena itu, pada tugas akhir ini akan dibahas metode random forest serta mengaplikasikannya pada data penderita penyakit Parkinson yang dibagi berdasarkan 2 sub-tipe, yaitu tremor dominant TD dan postural instability gait difficulty PIGD dominant. Selanjutnya, dari data tersebut diperoleh hasil akurasi model yang dihasilkan dalam mengklasifikasi training data, yaitu sekitar 94,25 . Sementara itu, akurasi metode ini dalam melakukan klasifikasi pada data yang tidak terkandung dalam membentuk model sebesar 94,26.

ABSTRACT
Classification is the process of grouping a set of data into pre existing classes. In general, the data set is divided into two parts. There are training data and testing data. It takes a classification method that can classify both training data and testing data of its class appropriately. However, some of the classification methods only fit in training data, but it can not apply in testing data. It means that the model is unstable or the model occurs overfitting. In general, overfitting is a condition when the model too fit in training, but unable to predict testing data. In other words, the accuracy of predicting the testing data is decreasing. Therefore, the determination of classification methods that are vulnerable to overfitting need to be considered. Random forest is one of the classification methods that is vulnerable to overfitting. It is also one of the advantages of the random forest method. Therefore, in this final project will be discussed random forest method and applying it to the data of Parkinson 39 s disease patients that is divided by 2 sub types. There are dominant tremor TD and postural instability gait difficulty PIGD dominant. Furthermore, from the data obtained the results of model accuracy in classifying the training data is about 94.25 . Meanwhile, the accuracy of this method in classifying the data not contained in forming a model is about 94.26."
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nada Firdaus
"Kanker adalah penyebab kematian nomor dua di dunia dan diperkirakan mencapai 9,6 juta kematian pada tahun 2018, dengan kanker payudara menjadi kanker kedua yang sering terjadi setelahnya kanker paru-paru. Kanker payudara terjadi karena pertumbuhan sel abnormal yang tidak terkendali, yang dimulai di saluran yang membawa susu ke puting susu atau kelenjar pembuat susu. Pengobatan kanker payudara tergantung pada subtipe tumor, stadium, penanda genetik, usia pasien, kesehatan pasien umum, status menopause, dan mutasi pada gen kanker payudara yang diwariskan. Di akhir pengobatan pasien diberikan terapi tambahan yang bertujuan meminimalkan risiko kekambuhan. Meskipun terapi ini telah dilakukan, risiko kekambuhan tetap ada. Penanda pengganti adalah penanda yang digunakan untuk menggantikan titik akhir dari uji klinis yang biasanya digunakan mempercepat penanganan pasien.
Tujuan dari penelitian ini adalah untuk mengetahui rasio hematologi pengukuran yang dapat digunakan sebagai penanda pengganti dalam kekambuhan kanker payudara sepanjang dengan titik cut-off. Pohon keputusan digunakan untuk menemukan titik batas rasio hematologi pengukuran yang mempengaruhi kekambuhan kanker payudara, dan kemudian hutan acak itu digunakan untuk mengetahui urutan variabel penting dalam klasifikasi. Hasil keduanya metode dikuantifikasi menggunakan regresi logistik. Berdasarkan analisis, ditemukan bahwa rasio jumlah trombosit ke darah putih (titik potong 47.560) dan neutrofil terhadap rasio limfosit (titik potong 1,953) mempengaruhi kekambuhan kanker payudara.

Cancer is the number two cause of death in the world and is estimated to reach 9.6 million deaths in 2018, with breast cancer becoming the second most common cancer that follows lung cancer. Breast cancer occurs because of uncontrolled abnormal cell growth, which starts in the ducts that carry milk to the nipples or milk glands. Treatment of breast cancer depends on the tumor subtype, stage, genetic markers, patient age, general patient health, menopausal status, and mutations in inherited breast cancer genes. At the end of treatment the patient is given additional therapy aimed at minimizing the risk of recurrence. Despite this therapy, the risk of recurrence remains. A surrogate marker is a marker used to replace the endpoints of clinical trials that are usually used to speed up patient management.
The aim of this study is to determine the hematological ratio measurements that can be used as surrogate markers in breast cancer recurrence along with the cut-off point. The decision tree is used to find the hematological ratio boundary point measurements that affect breast cancer recurrence, and then the random forest is used to determine the order of important variables in the classification. Both results the method is quantified using logistic regression. Based on the analysis, it was found that the ratio of platelet count to white blood (cut point 47,560) and neutrophils against lymphocyte ratio (cut point 1.953) influences breast cancer recurrence.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>