Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 6 dokumen yang sesuai dengan query
cover
Gabriela Patricia Winny Gracia
"Clustering merupakan metode untuk mengidentifikasi kelompok natural pada data berdasarkan ukuran kemiripan seperti jarak Eucledian. Clustering bertujuan untuk mengelompokkan data, dengan kriteria observasi yang berada dalam satu klaster memiliki tingkat kemiripan yang sangat signifikan, sedangkan observasi yang berada dalam cluster yang berbeda, memiliki perbedaan yang sangat signifikan. Pada tahun 2021, Chowdhury, Bhattacharyya, & Kalita mengembangkan metode User-Input-Free Density-Based Clustering (UIFDBC) berdasarkan dari metode density-based clustering yang telah ada sebelumnya. Seperti namanya, metode UIFDBC ini tidak memerlukan input dari pengguna untuk menemukan cluster. Maka dari itu, metode UIFDBC ini berhasil menjawab permasalahan metode clustering sebelumnya yang bergantung pada input dari pengguna. Tujuan dari penelitian ini adalah untuk membahas lebih dalam terkait metode User-Input-Free Density-Based Clustering (UIFDBC), menerapkan metode UIFDBC pada data real, yaitu data konsumen kartu kredit untuk melakukan segmentasi konsumen, serta mengkaji performa metode ini pada data yang mengandung missing values di dalamnya. Dari hasil penelitian, metode UIFDBC berhasil diterapkan pada data konsumen kartu kredit, dan diperoleh sebanyak delapan cluster pengguna, dimana setiap cluster memiliki karakteristik masing-masing. Selain itu, dari hasil pengkajian metode UIFDBC terhadap data dengan missing values diketahui bahwa performa metode UIFDBC dinilai cukup baik untuk proporsi missing values ≤ 5%. Namun perlu menjadi catatan bahwa data hasil dari setiap iterasi akan bersifat acak, dikarenakan metode UIFDBC sangat bergantung pada densitas data, sedangkan densitas data bergantung pada missing values yang mana dibangkitkan secara acak sepenuhnya.

Clustering is a method to identify natural groups in data based on similarity measures such as Eucledian distance. Clustering aims to group data, with the criteria for observations in one cluster having a very significant level of similarity, while observations in different clusters have very significant differences. In 2021, Chowdhury, Bhattacharyya, & Kalita developed the User-Input-Free Density-Based Clustering (UIFDBC) method based on the previous density-based clustering method. As the name suggests, this UIFDBC method does not require input from the user to find the cluster. Therefore, this UIFDBC method has succeeded in answering the problems of the previous clustering method which depended on input from the user. The purpose of this study is to discuss more deeply the User-Input-Free Density-Based Clustering (UIFDBC) method, to apply the UIFDBC method to real data, namely credit card consumer data to segment consumers, and to examine the performance of this method on data containing missing values in it. From the results of the study, the UIFDBC method was successfully applied to credit card consumer data, and obtained as many as eight user clusters, where each cluster has its own characteristics. In addition, from the results of the study of the UIFDBC method on data with missing values, it is known that the performance of the UIFDBC method is considered quite good for the proportion of missing values ≤ 5%. However, it should be noted that the resulting data from each iteration will be random, because the UIFDBC method is very dependent on data density, while data density depends on missing values which are generated completely randomly."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sri Krisna Karunia
"Bencana alam merupakan sesuatu hal yang wajar terjadi mengingat Bumi adalah planet yang aktif. Pengelolaan bencana diperlukan tidak hanya sebatas dalam proses pencegahan, pengurangan dampak bencana, persiapan datangnya bencana tetapi juga meliputi upaya tanggap darurat dan pemulihan setelah bencana.
Tanggap darurat merupakan tindakan yang harus segera dilakukan sebagai usaha untuk mengurangi dampak negatif yang disebabkan oleh bencana. Identifikasi wilayah bencana dan informasi besarnya kerusakan sangat diperlukan dalam proses ini. Pemanfaatan citra satelit sebelum dan sesudah bencana dapat memberikan identifikasi wilayah bencana dengan cepat.
Pada tugas akhir ini dikembangkan aplikasi identifikasi wilayah bencana dan informasi besarnya kerusakan yang meliputi dua bagian. Pertama, proses registrasi citra dengan menggunakan mutual information. Bagian kedua, proses deteksi perubahan wilayah dengan menggunakan sistem inferensi fuzzy.

Natural disasters have become usual things, as the Earth is an active planet. The idea of assessing the damages after disaster struck has been referred as a matter of importance for performing planned activity in the affected region. Disaster management is needed as an instrument to improve measures which relating to prevention, mitigation, preparedness, emergency response and recovery.
Emergency response measures are those which are taken immediately to reduce the negative impacts and damages caused by the disaster. Identification of hard-hit area and severity informations are needed in this process. Satellite imagery of pre and post-event is hired to provide fast and accurate information for identification and detection of damaged area.
This research mainly focuses on developing an application of identification of hard-hit area and severity information, which consist of two parts. First, pre and post satellite image registration using mutual information. Second, damaged area detection using fuzzy inference systems."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
"Datasets with heterogeneous features can affect feature selection results that are not appropriate because it is difficult to evaluate heterogeneous features concurrently. Feature transformation (FT) is another way to handle heterogeneous features subset selection. The results of transformation from non-numerical into numerical features may produce redundancy to the original numerical features. In this paper, we propose a method to select feature subset based on mutual information (MI) for classifying heterogeneous features. We use unsupervised feature transformation (UFT) methods and joint mutual information maximation (JMIM) methods. UFT methods is used to transform non-numerical features into numerical features. JMIM methods is used to select feature subset with a consideration of the class label. The transformed and the original features are combined entirely, then determine features subset by using JMIM methods, and classify them using support vector machine (SVM) algorithm. The classification accuracy are measured for any number of selected feature subset and compared between UFT-JMIM methods and Dummy-JMIM methods. The average classification accuracy for all experiments in this study that can be achieved by UFT-JMIM methods is about 84.47% and Dummy-JMIM methods is about 84.24%. This result shows that UFT-JMIM methods can minimize information loss between transformed and original features, and select feature subset to avoid redundant and irrelevant features.
Dataset dengan fitur heterogen dapat mempengaruhi hasil seleksi fitur yang tidak tepat karena sulit untuk mengevaluasi fitur heterogen secara bersamaan. Transformasi fitur adalah cara untuk mengatasi seleksi subset fitur yang heterogen. Hasil transformasi fitur non-numerik menjadi numerik mungkin menghasilkan redundansi terhadap fitur numerik original. Dalam tulisan ini, peneliti mengusulkan sebuah metode untuk seleksi subset fitur berdasarkan mutual information (MI) untuk klasifikasi fitur heterogen. Peneliti menggunakan metode unsupervised feature transformation (UFT) dan metode joint mutual information maximation (JMIM). Metode UFT digunakan untuk transformasi fitur non-numerik menjadi fitur numerik. Metode JMIM digunakan untuk seleksi subset fitur dengan pertimbangan label kelas. Fitur hasil transformasi dan fitur original disatukan seluruhnya, kemudian menentukan subset fitur menggunakan metode JMIM, dan melakukan klasifikasi terhadap subset fitur tersebut menggunakan algoritma support vector machine (SVM). Akurasi klasifikasi diukur untuk sejumlah subset fitur terpilih dan dibandingkan antara metode UFT-JMIM dan Dummy-JMIM. Akurasi klasifikasi rata-rata dari keseluruhan percobaan yang dapat dicapai oleh metode UFT-JMIM sekitar 84.47% dan metode Dummy-JMIM sekitar 84.24%. Hasil ini menunjukkan bahwa metode UFT-JMIM dapat meminimalkan informasi yang hilang diantara fitur hasil transformasi dan fitur original, dan menyeleksi subset fitur untuk menghindari fitur redundansi dan tidak relevan"
Paiton: STT Nurul Jadid Paiton, Department of Informatics, 2016
AJ-Pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Geraldine Immanuel Tangyong
"Clustering merupakan salah satu metode pengolahan data yang bekerja dengan mengelompokkan objek-objek yang memiliki kemiripan ke dalam beberapa kelompok. Salah satu metode dari clustering adalah metode Ordering Points to Identify the Clustering Structure (OPTICS) yang adalah metode turunan dari metode Density Based Spatial Clustering of Application with Noise (DBSCAN). DBSCAN memiliki dua parameter, yaitu epsilon dan MinPts. Parameter ini mengakibatkan DBSCAN kurang bisa beradaptasi terhadap variasi densitas data. Karena itu, OPTICS hadir untuk mengatasi masalah tersebut dengan parameter core distance dan reachability distance. Tujuan dari penelitian ini adalah mengkaji metode OPTICS dan menerapkannya pada data sintetis dengan missing value serta pada data real, dengan data yang digunakan adalah data Socio-Economic dengan 167 observasi. Dari hasil pengkajian diketahui bahwa jika suatu data memiliki proporsi missing value lebih dari 15%, maka nilai akurasi dianggap tidak baik. Selanjutnya, dilakukan penerapan terhadap data Socio-Economic dan diperoleh 3 cluster. Cluster 1 memiliki jumlah anggota terbanyak dan cenderung memiliki skor terendah pada banyak variabel dibanding cluster lainnya dan dapat dilihat bahwa anggota dari cluster 1 banyak terdiri dari negara-negara berkembang. Cluster 2 cenderung memiliki skor tertinggi dan negara-negara di cluster 2 merupakan negara-negara maju. Cluster 3 banyak berisi negara campuran, baik negara berkembang maupun negara maju.

Clustering is a data processing technique that works by grouping objects that have similarities into different groups. One method of clustering is the Ordering Points to Identify the Clustering Structure (OPTICS) method, a derivative method of the Density Based Spatial Clustering of Application with Noise (DBSCAN) method. DBSCAN has two kinds of parameters, epsilon and MinPts. These parameters cause DBSCAN to not be able to adapt fully to arbitrary data forms. Therefore, OPTICS is here to solve this problem with the parameters of core distance and reachability distance. The purpose of this study is to examine the OPTICS method and apply it to synthetic with missing value and real data, using the Socio-Economic data with 167 observations. We can conclude that if a data has a missing value proportion of more than 15%, then the accuracy value is considered not good. Furthermore, the Socio-Economic data was applied and obtained 3 clusters. Cluster 1 has the largest number of members and have the lowest scores on many variables, which consists mostly of developing countries. Cluster 2 tends to have the highest score whereas most coming from developed countries. Cluster 3 contains many mixed countries, both developing and developed countries."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dewita Oktavia Nuur Marwan
"Internet of Things (IoT) merupakan sebuah konsep di mana berbagai perangkat komputasi saling terhubung melalui internet dan memiliki kemampuan untuk mengumpulkan atau mengirimkan data. Perluasan dan kecepatan perangkat komputasi menggunakan jaringan Wi-Fi dapat menghasilkan data yang kompleks dan berdimensi tinggi pada sistem IoT. Data yang berdimensi tinggi dapat menimbulkan beberapa kendala dan perangkat IoT akan menghindari untuk melakukan tugas yang komputasinya berat. Semakin kompleksnya sistem IoT, semakin sulit bagi sistem untuk mengidentifikasi dan menemukan serangan siber. Salah satu upaya yang paling umum digunakan untuk melindungi sistem IoT adalah Intrusion detection system (IDS). Pada penelitian ini dilakukan model berbasis machine learning untuk mengembangkan IDS menggunakan dataset AWID2 dengan tipe “CLS” yang berisikan 2 juta lalu lintas trafik pada jaringan WI-Fi yang dikelompokkan ke dalam empat kelas yaitu, normal, impersonation, injection, dan flooding. Random forest merupakan salah satu teknik ensemble atau gabungan dari sejumlah model decision tree yang memiliki keunggulan-keunggulan dibandingkan dengan metode machine learning lainnya, yaitu dapat mencegah terjadinya overfitting, memiliki waktu komputasi yang rendah, dan memiliki kemampuan lebih baik dalam mengelola dataset yang tidak seimbang. Untuk mengatasi data berdimensi tinggi, dilakukan seleksi fitur mutual information pada algoritma random forest untuk mendapatkan hasil model klasifikasi yang optimal. Hasil dari penelitian menunjukkan bahwa metode seleksi fitur mutual information dengan menggunakan 30 fitur terbaik pada algoritma random forest dengan hyperparameter-tuning random search terbukti dapat meningkatkan performa model klasifikasi dan efisiensi waktu jika dibandingkan menggunakan algoritma random forest tanpa seleksi fitur. Nilai metrik yang diperoleh oleh kombinasi tersebut adalah dengan nilai accuracy = 99,95276%, macro average F1-score = 99,76335%, macro average recall = 99,97962%, dan macro average presicion = 99,54935% dengan waktu prediksi 6,112 detik.

The Internet of Things (IoT) is a concept where various computing devices are interconnected via the internet and have the capability to collect or transmit data. The expansion and speed of computing devices using Wi-Fi networks generate complex and high-dimensional data in IoT systems. High-dimensional data in datasets pose several challenges, as IoT devices tend to avoid tasks that are computationally intensive. As IoT systems become more complex, it becomes increasingly difficult for the system to identify and detect cyber attacks. One of the most common efforts to protect IoT systems is the Intrusion Detection System (IDS). In this study, a machine learning-based model is developed to create an IDS using the AWID dataset with the “CLS” type, which contains 2 million network traffic records on Wi-Fi networks categorized into four classes: normal, impersonation, injection, and flooding. Random forest is an ensemble technique or a combination of multiple decision tree models that has advantages over other machine learning methods, such as preventing overfitting, having low computational time, and having better capabilities in handling imbalanced datasets. To address high-dimensional data, mutual information feature selection is applied to the random forest algorithm to achieve optimal classification model results. The results of the study indicate that the mutual information feature selection method using the top 30 features in the random forest algorithm with random search hyperparameter tuning can improve the performance of the classification model and time efficiency compared to using the random forest algorithm without feature selection. The metrics obtained by this combination are accuracy = 99.95276%, macro average F1-score = 99.76335%, macro average recall = 99.97962%, and macro average precision = 99.54935% with a prediction time of 6.112 seconds."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Monika Adhi Permata
"E-Learning Management Systems (EMAS) adalah sebuah platform belajar daring yang digunakan oleh Universitas Indonesia (UI). Dengan menggunakan platform EMAS, aktivitas akademik mahasiswa dapat dipantau. Berdasarkan aktivitas akademik mahasiswa, dimungkinkan untuk menentukan klasifikasi performa akademik mahasiswa. Aktivitas akademik yang dimaksud diantaranya adalah mahasiswa mengakses EMAS, mahasiswa mengerjakan quiz di EMAS, dan mahasiswa berpartisipasi forum di EMAS. Pada tugas akhir ini digunakan model klasifikasi Naïve Bayes, yaitu klasifikasi dengan asumsi kondisi antar fitur adalah saling bebas. Hasil performa model dilihat dari nilai Matthew’s Correlation Coefficient (MCC) terbesar. Sebelum implementasi, ditentukan proporsi data training dan data testing terbaik. Proporsi 80%:20% dengan periode data 4 minggu adalah proporsi dengan nilai MCC terbesar, yaitu 0,4745. Metode Mutual Information menghasilkan tujuh fitur terpilih, yaitu banyaknya tugas yang diunggah, banyaknya materi yang dikunjungi, banyaknya kunjungan ke start quiz, banyaknya quiz yang diunggah, banyaknya materi dokumen yang dikunjungi, banyaknya forum yang dikunjungi, dan lamanya durasi mengerjakan quiz. Dengan 7 fitur terpilih, performa model naik sebesar 15,15%, dan performa model meningkat lagi sebesar 26,5% jika dilakukan oversampling dengan metode Synthetic Minority Oversampling Technique. Hasil prediksi dari 47 mahasiswa adalah 43 mahasiswa diprediksi benar lulus, 2 mahasiswa diprediksi benar tidak lulus, dan 2 mahasiswa yang diprediksi salah yaitu mahasiwa diprediksi tidak lulus namun sebenarnya lulus.

E-Learning Management Systems (EMAS) is an online learning platform that used by the University of Indonesia (UI). By using the EMAS platform, student academic activities can be monitored. Based on the student's academic activities, it is possible to determine the classification of student academic performance. The academic activities in question include students accessing EMAS, students taking quizzes at EMAS, and students participating in forums at EMAS. In this final project, the Naïve Bayes classification model is used, namely classification with the assumption that the conditions between features are independent of each other. The results of the model's performance are seen from the largest Matthew's Correlation Coefficient (MCC). Prior to implementation, the proportion of the best training and testing data is determined. The proportion of 80%:20% with a data period of 4 weeks is the proportion with the largest MCC value, which is 0.4745. The Mutual Information method resulted in seven selected features, namely the number of tasks uploaded, the number of materials visited, the number of visits to the quiz start, the number of quizzes uploaded, the number of document materials visited, the number of forums visited, and the length of duration of taking the quiz. With 7 selected features, the performance of the model increases by 15.15%, and the performance of the model increases again by 26.5% if oversampling is carried out using the Synthetic Minority Oversampling Technique method. The prediction results from 47 students were 43 students were predicted to pass correctly, 2 students were predicted to fail correctly, and 2 students were predicted to be wrong, namely students predicted not to pass but actually passed."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library