Ditemukan 6 dokumen yang sesuai dengan query
Owen Susanto
"Dalam beberapa dekade terakhir, teknologi informasi berkembang dengan sangat pesat, hal ini juga diikuti dengan meningkatnya ancaman keamanan teknologi tersebut. Serangan siber seperti hacking, malware, dan pencurian data menjadi masalah yang serius dan merugikan bagi individu ataupun organisasi. Salah satu kelemahan yang sering digunakan untuk menyerang komputer adalah melalui jaringan. Maka, dibuat metode IDS (Intrusion Detection System) yang dapat membantu menjaga keamanan jaringan. Namun, IDS yang umum digunakan memiliki kelemahan dalam melihat pola dari kemiripan. Dari koneksi tersebut dapat dibangun pola antar koneksi sebagai tanda pengenal dini jenis koneksi. Koneksi-koneksi yang dilakukan ini secara natural akan membentuk pola yang saling berhubungan dimana ada sumber dan target koneksi. Maka, dapat digunakan bentuk Graph data, yang memiliki node (simpul) dan edges (sisi) sebagai penanda sumber (host) dan koneksi yang dilakukan. Untuk membantu melihat pola dari Graph data ini, diperlukan bantuan kemampuan machine learning yang dapat membangun model untuk melihat pola tersebut. Akan digunakan arsitektur GNN dan dataset AWID-2 untuk membangun model yang mampu mengelompokkan koneksi secara efisien. Setelah proses pembelajaran selesai, ditemukan bahwa model yang sudah dibangun tersebut memiliki akurasi 0,97, presisi 0,97 serta recall bernilai 0,97, dengan nilai F1 0,97.
In the last few decades, information technology has evolved very rapidly, which has also been accompanied by rising security threats. Cyber-attacks like hacking, malware, and data theft are serious problems and harmful to individuals or organizations. One of the weaknesses that is often used to attack computers is through a network. So, we created an IDS (Intrusion Detection System) method that can help keep the network safe. However, the commonly used IDS has weaknesses in seeing patterns of similarities. These connections will naturally form interrelated patterns where there is a source and a destination of the connection. So, you can use the data Graph form, which has nodes and edges as hosts and connections. To help see the pattern from this Graph data, you need the help of machine learning abilities that can build a model to see that pattern. It will use the GNN model architecture and the AWID-2 dataset to build a model that can efficiently group connections. After the learning process was completed, it was found that the built-in model had an accuracy of 0.97, a precision of 0.97 and a recall value of 0,97, with a value of F1 0.97."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Ruth Intan Davina
"Ketidakseimbangan data merupakan tantangan umum dalam klasifikasi, di mana salah satu kelas memiliki ukuran sampel yang jauh lebih sedikit dibandingkan kelas lainnya dalam suatu dataset. Kondisi ini dapat menghasilkan klasifikasi yang memiliki akurasi prediksi yang tinggi untuk kelas mayoritas, tetapi cenderung rendah untuk kelas minoritas yang memiliki kontribusi kecil terhadap kesalahan total. Dalam aplikasi dunia nyata, kesalahan klasifikasi pada kelas minoritas sering kali memiliki konsekuensi yang lebih serius, seperti pada kasus deteksi serangan siber pada sistem keamanan jaringan. Kegagalan dalam mendeteksi serangan siber (false negative) dapat membuka celah keamanan yang berakibat fatal. Untuk menangani masalah ketidakseimbangan data, berbagai metode telah dikembangkan, termasuk pendekatan ensemble seperti SMOTEBoost (Synthetic Minority Oversampling Technique and Boosting) dan RUSBoost (Random Undersampling and Boosting). Pada penelitian skripsi ini dilakukan studi empiris pada data serangan malware dari dataset AWID3 menggunakan metode SMOTEBoost dan RUSBoost dan dibandingkan performanya dengan algoritma dasarnya, AdaBoost. Simulasi dilakukan dengan berbagai kombinasi hyperparameter dan variasi proporsi data training dan testing untuk mengevaluasi kinerja model secara komprehensif. Hasil penelitian menunjukkan bahwa metode SMOTEBoost dan RUSBoost memiliki kinerja yang sebanding dalam mendeteksi kelas minoritas, di mana nilai recall mencapai 0,99, dan lebih unggul dari metode AdaBoost dengan nilai recall 0,87-0,88. Penelitian tambahan yang dilakukan untuk mengevaluasi kinerja masing-masing metode pada berbagai jenis ketidakseimbangan menunjukkan bahwa kinerja metode AdaBoost menurun seiring dengan meningkatnya ketidakseimbangan relatif, sedangkan metode SMOTEBoost dan RUSBoost tetap stabil dengan kinerja yang baik. Namun, ukuran sampel minoritas yang terbatas atau absolute rarity memiliki dampak pada penurunan kinerja metode SMOTEBoost dan RUSBoost.
Imbalanced data is a common challenge in classification tasks, where one class has significantly fewer instances compared to others within a dataset. This condition can result in classification models with high predictive accuracy for the majority class but tend to perform poorly on the minority class, which contributes little to the overall error rate. In real-world applications, misclassifications errors on the minority class often bear more severe consequences, such as in the case of detecting cyber attacks in network security systems. Failure to detect cyber attacks (false negatives) can lead to security breaches with fatal consequences. To address the imbalanced data problem, various methods have been developed, including ensemble approaches such as SMOTEBoost (Synthetic Minority Oversampling Technique and Boosting) and RUSBoost (Random Undersampling and Boosting). In this thesis research, an empirical study was conducted on malware attack data from the AWID3 dataset using the SMOTEBoost and RUSBoost, and their performance was compared with their base algorithm, AdaBoost. Simulations were carried out with various combinations of hyperparameter and different train-test split to comprehensively evaluate the model’s performance. The research results showed that SMOTEBoost and RUSBoost methods had comparable performance in detecting the minority class, achieving remarkable recall values of 0.99, outperformed the AdaBoost method, which had recall values ranging from 0.87 to 0.88. Additional research conducted to evaluate the performance of each method on various types of imbalance showed that the performance of the AdaBoost method decreased as the relative imbalance increased, while the SMOTEBoost and RUSBoost methods maintained a stable and robust performance. However, a limited number of minority instances or absolute rarity had a negative effect on the performance of the SMOTEBoost and RUSBoost methods."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Fajar Henri Erasmus Ndolu
"Dengan perkembangan teknologi informasi yang pesat saat ini, serangan siber terhadap jaringan semakin meningkat dan menyebabkan kerugian finansial yang signifikan. Oleh karena itu, sistem deteksi intrusi (IDS) berbasis anomali menggunakan pembelajaran mesin menjadi salah satu pendekatan untuk mendeteksi serangan siber. Tetapi, penggunaan algoritma tunggal dalam IDS memiliki kekurangan dalam mendeteksi jenis serangan yang memiliki kelas minoritas dalam dataset. Selain itu, penggunaan dataset yang tidak seimbang dan tidak mencerminkan kondisi saat ini juga mempengaruhi kinerja IDS. Untuk meningkatkan kinerja IDS, diusulkan metode hibrid dengan menggunakan Long Short Term Memory (LSTM) dan Random Forest (RF), dengan dataset terbaru CIC-CSE-IDS2018. Dalam pembentukan model hibrid, model lapisan satu menggunakan LSTM untuk klasifikasi biner, mengklasifikasikan aliran data sebagai data normal atau data serangan. Data normal diklasifikasikan kembali dengan model lapisan dua dan data serangan diklasifikasikan kembali dengan model lapisan tiga. Jika hasil model lapisan dua diklasifikasikan sebagai data normal, maka merupakan hasil akhir, dan jika diklasifikasikan sebagai data serangan maka diklasifikasikan kembali dengan model lapisan tiga secara multikelas menggunakan RF. Hasil klasifikasi multikelas lapisan tiga merupakan hasil akhir dari model hibrid ini. Berdasarkan pengujian dan analisis, model hibrid dengan evaluasi terbaik di peroleh menggunakan dataset dengan rasio 3 : 1. Model hibrid ini mencapai hasil klasifikasi multi kelas dengan accuracy 99,7618%, precision 99,1901%, recall 96,8809% dan f1-score 97,9508%.
With today's rapid development of information technology, cyber attacks against networks are increasing and causing significant financial losses. Therefore, an anomaly-based intrusion detection system (IDS) using machine learning is one approach to detecting cyber attacks. However, the use of a single algorithm in IDS has drawbacks in detecting types of attacks that have a minority class in the dataset. In addition, the use of unbalanced datasets that do not reflect current conditions also affects IDS performance. To improve IDS performance, a hybrid method is proposed using Long Short Term Memory (LSTM) and Random Forest (RF), with the latest CIC-CSE-IDS2018 dataset. In the hybrid model, the layer one model uses LSTM for binary classification, classifying the data stream as normal data or attack data. Normal data is reclassified by layer two model and attack data is reclassified by layer three model. If the result of the second layer model is classified as normal data, then it is the final result, and if it is classified as attack data then it is reclassified with the third layer model in a multiclass manner using RF. The results of the three layer multiclass classification are the final results of this hybrid model. Based on testing and analysis, the hybrid model with the best evaluation was obtained using a dataset with a ratio of 3:1. This hybrid model achieved multiclass classification results with 99.7618% accuracy, 99.1901% precision, 96.8809% recall and f1-score 97.9508%."
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership Universitas Indonesia Library
Valery Ongso Putri
"Ketidakseimbangan data merupakan masalah umum yang terjadi dalam bidang analisis data. Data menjadi tidak seimbang karena terdapat perbedaan antara jumlah sampel pada setiap kelasnya. Masalah ketidakseimbangan ini menyebabkan model klasifikasi menjadi bias, dimana model akan cenderung memprediksi kelas mayoritas secara efektif dibandingkan dengan kelas minoritas dan dapat menyebabkan kesalahan interpretasi dalam pengambilan suatu keputusan. Terdapat beberapa cara dalam menangani data yang tidak seimbang, yaitu random undersampling dan random oversampling. Salah satu metode dari random oversampling yang populer adalah Synthetic Minority Oversampling Technique (SMOTE). SMOTE dapat digabungkan dengan metode random undersampling, yaitu Edited Nearest Neighbors (ENN) dan Tomek link. Pada metode gabungan SMOTE-ENN dan SMOTE-Tomek link, SMOTE bekerja terlebih dahulu dengan membuat sampel sintetis pada kelas minoritas. ENN dan Tomek link berperan sebagai cleaning untuk menghapus data yang tidak relevan dan dianggap sebagai noise. Untuk melihat pengaruh ketiga metode resampling tersebut, yaitu SMOTE, SMOTEENN, dan SMOTE-Tomek Link, dilakukan simulasi data. Simulasi data dapat melihat pengaruh ukuran sampel, ukuran proporsi kelas, dan metode resampling terhadap model klasifikasi decision tree, random forest, dan XGBoost pada data yang tidak seimbang. Simulasi data juga dijalankan sebanyak 100 iterasi yang menunjukkan bahwa iterasi pertama cukup untuk mewakili hasil dari 100 iterasi. Hasil menunjukkan bahwa ketiga metode cenderung mampu memberikan hasil yang baik dengan adanya peningkatan nilai metrik precision, recall, ROC-AUC, dan G-Mean. Metode SMOTE dengan XGBoost bekerja dengan baik pada ukuran sampel kecil dengan adanya peningkatan nilai metrik yang cukup signifikan. Pada SMOTE-ENN, nilai recall cenderung meningkat yang diikuti oleh menurunnya nilai precision pada proporsi 1:9, 2:8, dan 3:7 dengan sampel yang relatif kecil. SMOTE-Tomek Link juga meningkatkan nilai metrik pada sampel yang relatif kecil dengan proporsi memberikan nilai metrik tertinggi.
Data imbalance is a common problem that occurs in the field of data analysis. The data becomes unbalanced because there is a difference between the number of samples in each class. This imbalance problem causes the classification model to be biased, where the model will tend to predict the majority class effectively compared to the minority class and can cause misinterpretation in making a decision. There are several ways to handle imbalanced data, namely random undersampling and random oversampling. One of the popular random oversampling methods is Synthetic Minority Over-sampling Technique (SMOTE). SMOTE can be combined with random undersampling methods, namely Edited Nearest Neighbors (ENN) and Tomek link. In the combined SMOTE-ENN and SMOTE-Tomek link method, SMOTE works first by creating a synthetic sample in the minority class. ENN and Tomek link act as cleaning to remove irrelevant data and are considered as noise. To see the effect of the three resampling methods, namely SMOTE, SMOTE-ENN, and SMOTE-Tomek Link, data simulation was conducted. Data simulation can see the effect of sample size, class proportion size, and resampling method on decision tree, random forest, and XGBoost classification models on imbalanced data. The data simulation was also run for 100 iterations which shows that the first iteration is sufficient to represent the results of 100 iterations. The results show that the three methods tend to be able to provide good results with an increase in the precision, recall, ROC-AUC, and G-Mean metric values. The SMOTE method with XGBoost works well on small sample sizes with a significant increase in metric values. In SMOTE-ENN, the recall value tends to increase followed by a decrease in precision value at proportions 1:9, 2:8, and 3:7 with relatively small samples. SMOTE-Tomek Link also increases the metric value on relatively small samples with proportions of 1:9 and 2:8. In addition, the resampling method was also used on data available on Kaggle.com, namely Pima Indian Diabetes and Give Me Some Credit:: 2011 Competition. In the Pima Indian Diabetes data, it can be seen that the recall, ROC-AUC, and G-Mean values are the highest using SMOTE-ENN with the XGBoost model. On the Give Me Some Credit:: 2011 Competition also shows that the SMOTE-ENN method with the XGBoost model provides the highest metric value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Deka, Bhabesh
"This book presents a comprehensive review of the recent developments in fast L1-norm regularization-based compressed sensing (CS) magnetic resonance image reconstruction algorithms. Compressed sensing magnetic resonance imaging (CS-MRI) is able to reduce the scan time of MRI considerably as it is possible to reconstruct MR images from only a few measurements in the k-space; far below the requirements of the Nyquist sampling rate. L1-norm-based regularization problems can be solved efficiently using the state-of-the-art convex optimization techniques, which in general outperform the greedy techniques in terms of quality of reconstructions. Recently, fast convex optimization based reconstruction algorithms have been developed which are also able to achieve the benchmarks for the use of CS-MRI in clinical practice. This book enables graduate students, researchers, and medical practitioners working in the field of medical image processing, particularly in MRI to understand the need for the CS in MRI, and thereby how it could revolutionize the soft tissue imaging to benefit healthcare technology without making major changes in the existing scanner hardware. It would be particularly useful for researchers who have just entered into the exciting field of CS-MRI and would like to quickly go through the developments to date without diving into the detailed mathematical analysis. Finally, it also discusses recent trends and future research directions for implementation of CS-MRI in clinical practice, particularly in Bio and Neuro-informatics applications."
Singapore: Springer Nature, 2019
e20507352
eBooks Universitas Indonesia Library
Muhammad Ilham Randi
"Dalam melakukan klasifikasi, tidak jarang terdapat data dengan jumlah anggota kategori yang tidak seimbang. Khususnya dalam dunia kesehatan dimana kategori yang diamati umumnya lebih jarang terjadi. Jika ketidakseimbangan ini tidak ditangani terlebih dahulu maka dapat memberikan hasil klasifikasi yang bias dan kurang akurat. Terdapat beberapa metode rebalancing konvensional untuk menanganinya seperti random oversampling dan random undersampling, namun keduanya diklaim memiliki beberapa kelemahan sehingga beberapa metode yang lebih kompleks dikembangkan. Namun jumlah metode yang dapat digunakan untuk menangani data kategorik selain metode konvensional tersebut masih minim. Salah satu metode yang dapat menangani data kategorik adalah synthetic minority over sampling-technique nominal continuous atau SMOTE-NC yang merupakan ekstensi dari SMOTE yang dikembangkan untuk menangani dataset dengan variabel campuran. Skripsi ini membahas perbandingan dari metode random oversampling dan SMOTE-NC juga metode gabungannya dengan undersampling yaitu random oversampling + undersampling dan SMOTE-NC + undersampling untuk menangani ketidakseimbangan data. Masing-masing metode tersebut akan diterapkan untuk klasifikasi tingkat keparahan COVID-19 berdasarkan urgensi perawatan rumah sakit dengan menggunakan metode random forest dimana selanjutnya dapat dilihat kombinasi metode yang menghasilkan performa terbaik. Penelitian ini juga bertujuan untuk melihat faktor-faktor manakah yang paling penting dalam memprediksi tingkat keparahan COVID-19 berdasarkan urgensi rumah sakit. Digunakan metode Leave-One-Out Cross-Validation untuk mengukur konsistensi model. Diperoleh hasil bahwa metode SMOTE-NC dengan undersampling memberikan performa terbaik dengan komorbid paru-paru, kadar c-reactive protein dan prokalsitonin merupakan variabel terpenting dalam model. Selain itu diperoleh kesimpulan bahwa pemilihan metode rebalancing yang tepat bergantung pada karakteristik data yang dimiliki.
In conducting classification, it is not uncommon for data with an unbalanced number of category members. Especially in the world of health where the categories we observe are generally less common. If this imbalance is not handled first, it can give biased and less accurate classification results. There are several conventional rebalancing methods to handle it, such as random oversampling and random undersampling, but both are claimed to have several weaknesses so that several more complex methods were developed. However, the number of methods that can be used to handle categorical data other than the conventional methods is still minimal. One method that can handle categorical data is synthetic minority over sampling-technique nominal continuous or SMOTE-NC which is an extension of SMOTE which was developed to handle datasets with mixed variables. This thesis discusses the comparison of random oversampling and SMOTE-NC methods as well as their combined methods with undersampling, namely random oversampling + undersampling and SMOTE-NC + undersampling to handle data imbalances. These methods will be applied to the classification of the severity of COVID-19 based on the urgency of hospital care using the random forest method, wherein the combination of methods that produces the best performance will be seen. This study also aims to see which factors are the most important in predicting the severity of COVID-19 based on hospital urgency. The Leave-One-Out Cross-Validation method is used to measure the consistency of the model. It was found that the SMOTE-NC method with undersampling gave the best performance with lung comorbidities, c-reactive protein and procalcitonin levels were the most important variables in the model. In addition, it can be concluded that the selection of the right rebalancing method depends on the characteristics of the data held."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership Universitas Indonesia Library