Hasil Pencarian

Ditemukan 173937 dokumen yang sesuai dengan query

Andina Budiarti

Aplikasi dan analisis clustering pada data akademik

"Seiring dengan berkembangnya teknologi basis data dan volume data yang terkumpul di dalamnya, muncul kebutuhan untuk mendapatkan informasi yang lebih dalam, yaitu dengan data mining. Penelitian ini bertujuan untuk menemukan informasi baru yang belum diketahui sebelumnya dari domain data yang tersedia (data MTI) dan mempelajari berbagai algoritma clustering yang telah ada serta menemukan algoritma yang paling cocok digunakan untuk domain tersebut. Penelitian tugas akhir ini terbatas pada analisis data dan algoritma yang sudah tersedia serta analisis hasil yang didapatkan pada masing-masing percobaan. Metode penelitian mencakup studi literatur, analisis data dan algoritma, percobaan, serta analisis hasil percobaan. Dalam melakukan data mining, digunakan panduan (CRISP-DM) [OY+07] yang terdiri dari tahapan Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation dan Deployment. Namun, tahap deployment tidak dilakukan karena berada di luar lingkup penelitian. Penyiapan dan pemurnian data dilakukan dengan standarisasi penamaan, pengubahan bentuk dan diskretisasi. Untuk memproses data dengan nilai atribut yang tidak lengkap diserahkan kepada mekanisme masing-masing algoritma. Untuk keperluan penelitian ini, 3 implementasi clustering pada WEKA akan dimanfaatkan, yaitu K-Means, EM dan COBWEB. Implementasi Apriori juga dimanfaatkan untuk menemukan association rules. Untuk mengatasi permasalahan yang mungkin timbul akibat high dimensionality dari domain data, dilakukan dekomposisi secara iteratif (5 iterasi) dengan mengambil subset dari seluruh atribut. Pada setiap percobaan, hasil clustering akan divisualisasikan dalam gambar 2-dimensi dengan bantuan program Applet Java yang dibuat oleh penulis. Visualisasi ini terbatas untuk kebutuhan pengamatan saja karena tidak menggambarkan kemampatan yang sebenarnya dari masingmasing cluster yang berdimensi tinggi. Informasi hasil dari percobaan data mining yang paling menonjol adalah mengenai kaitan antara 'Jalur lulus' dan 'Lama studi' di mana 'Proyek akhir' memungkinkan mahasiswa untuk dapat lulus lebih cepat. Tidak ada hubungan yang cukup berarti antara data latar belakang dengan IPK, menandakan siapa saja dapat berprestasi di program studi ini. Sementara itu, 'Sektor kerja' juga menjadi faktor yang cukup mempengaruhi pengelompokkan data. Algoritma yang menentukan sendiri banyak clusters yang dihasilkan lebih cocok untuk dipakai. Perubahan volume data sangat berpengaruh pada hasil clustering. Oleh sebab itu pula, algoritma tanpa input banyak cluster seperti K-Means kurang cocok dipakai sampai volume data mencapai suatu titik yang stabil. Partitioning algorithm cocok digunakan jika sudah ada dugaan atau perkiraan yang didukung hasil data mining sebelumnya mengenai banyak cluster yang dihasilkan dan seperti apa struktur clusters tersebut. Untuk kasus yang sudah diketahui sebelumnya mengenai struktur kelompok dalam data, kemungkinan clustering dengan algoritma yang memerlukan input banyak cluster lebih 'baik' daripada algoritma yang menentukan sendiri banyak cluster yang dihasilkan sehingga perlu diinterpretasi lebih jauh lagi hasilnya. COBWEB yang mewakili hierarchical algorithm menunjukkan hasil clustering yang lebih alamiah dan mudah untuk diinterpretasikan jika dibandingkan hasil dari algoritma EM maupun K-Means. Akan tetapi, tidak seperti partitional algorithm yang dari cluster yang dihasilkan dapat ditarik kesimpulan yang baru, hierarchical algorithm dalam kasus ini hanya mengelompokkan data yang 'mirip' tanpa bisa digali informasi dari masing-masing cluster yang dihasilkan. Untuk jumlah data yang digunakan dalam percobaan kali ini, algoritma EM, K-Means yang diimplementasi WEKA dapat mengeluarkan hasil dalam waktu yang relatif cepat (di bawah 30 detik). Lain halnya dengan COBWEB yang lebih memakan waktu, misalnya pada iterasi kedua algoritma ini memerlukan 12 menit."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Cynthia

Analisis Klaster pada Data Insiden Dengue dan Cuaca di Provinsi DKI Jakarta menggunakan Algoritma K-Medoids dan Fuzzy C-Means Clustering = Cluster Analysis on Dengue Incidence and Weather Data in DKI Jakarta Province using K-Medoids and Fuzzy C-Means Clustering Algorithms

"Dengue adalah salah satu penyakit endemik yang terjadi pada banyak daerah sub tropis dan tropis. Nyamuk Aedes aegypti merupakan vektor utama penyakit dengue. Jumlah insiden dengue telah meningkat secara drastis di seluruh dunia dalam beberapa dekade terakhir. Perubahan iklim dapat menyebabkan perubahan curah hujan, suhu, kelembapan, dan arah udara, sehingga dapat berpengaruh pada perkembangbiakan hidup nyamuk Aedes. Pada skripsi ini, penulis mengimplementasikan algoritma K-Medoids dan Fuzzy C-Means Clustering menggunakan jarak Euclidean pada data insiden dengue dan cuaca yang diambil dari kelima wilayah di DKI Jakarta pada tahun 2009 hingga 2016. Variabel yang digunakan terdiri atas rata-rata temperatur, rata-rata kelembapan udara relatif, curah hujan, dan insiden dengue. Proses implementasi dalam skripsi ini dibedakan atas 2 skenario penelitian, yaitu menggunakan 4 variabel yang telah disebutkan di atas dan 3 variabel (variabel yang sama seperti sebelumnya, namun tanpa variabel insiden dengue). Tujuan penelitian dalam skripsi ini adalah menganalisis keterkaitan antara variabel cuaca tersebut dan insiden dengue dari kelima wilayah di DKI Jakarta. Untuk menentukan jumlah klaster yang digunakan, pada metode K-Medoids Clustering dilakukan perhitungan Silhouette Coefficient dan pada metode Fuzzy C-Means Clustering dilakukan perhitungan Modified Partition Coefficient. Hasil menunjukkan bahwa terdapat korelasi yang cenderung positif antara insiden dengue dengan rata-rata kelembapan udara relatif dan jumlah curah hujan di DKI Jakarta. Sementara itu, terdapat korelasi yang cenderung negatif antara jumlah insiden dengue dengan rata-rata temperatur di DKI Jakarta. Hasil dari kedua skenario menunjukkan bahwa terdapat kemiripan nilai rata-rata temperatur yang terjadi antara Jakarta Pusat dan Jakarta Utara, serta antara Jakarta Timur, Jakarta Selatan, dan Jakarta Barat. Kemiripan nilai rata-rata kelembapan udara relatif juga terjadi pada wilayah-wilayah seperti yang telah disebutkan sebelumnya. Hasil dari kedua skenario juga menunjukkan bahwa insiden dengue yang terjadi di Jakarta Pusat dan Jakarta Utara cenderung lebih rendah dari Jakarta Timur, Jakarta Barat, dan Jakarta Selatan. Berdasarkan hasil yang diperoleh, pembentukan klaster pada skenario pertama cenderung dipengaruhi oleh jumlah insiden dengue. Sementara itu, pembentukan klaster pada skenario kedua cenderung dipengaruhi oleh jumlah curah hujan.

Dengue is an endemic disease prevalent in sub-tropical and tropical regions. The Aedes aegypti mosquito is the main vector of dengue. Dengue incidence has been rising dramatically throughout the last few decades. Climate change may lead to changes in rainfall, temperature, humidity, and wind direction, so that it can affect the breeding of Aedes mosquitoes. In this study, we employ K-Medoids Clustering and Fuzzy C-Means (FCM) Clustering algorithms using Euclidean distance on five regions in DKI Jakarta every year from 2009 to 2016. The variables used consist of average temperature, average relative humidity, rainfall, and dengue incidence. The implementation process in this study is divided into 2 research scenarios. Firstly using the 4 variables that was mentioned above, and secondly using 3 variables (the same variables as before, but without the dengue incidence variable). The purpose of this study is to analyze the relationships between these weather variables and dengue incidence in the five regions in DKI Jakarta. In order to determine the number of clusters used, for K-Medoids Clustering we determine the Silhouette Coefficient, and for Fuzzy C-Means Clustering we determine the Modified Partition Coefficient. The results show that there tends to be a positive correlation between the number of dengue incidence with average relative humidity and the amount of rainfall. On the other hand, there tends to be a negative correlation between the number of dengue incidence with the average temperature. The results of the two scenarios show that there are similarities in the average temperature between Central Jakarta and North Jakarta, as well as between the East Jakarta, South Jakarta, and West Jakarta. Similarities in the average relative humidity also occur in the areas mentioned before. The results of both scenarios also show that the dengue incidence in Central Jakarta and North Jakarta tend to be lower than in East Jakarta, West Jakarta, and South Jakarta. Based on the results, cluster formation in the first scenario tends to be influenced by the number of dengue incidence. Meanwhile, cluster formation in the second scenario tends to be influenced by the amount of rainfall."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Harliyus Agustian

Two level clustering untuk analisis kuesioner akademik di STTA Yogyakarta

"ABSTRAK

Untuk menjaga kualitas dosen, institusi melakukan evaluasi kinerja dosen yang dapat berupa kuesioner akademik dimana kadang hasilnya bersifat subyektif. Untuk itu perlu dilakukan pengecekan konsistensi tingkat kepuasan proses pengajaran dari hasil pengisian kuesioner dengan data akademik lainnya dengan pendekatan clustering. Untuk mengatasi hal tersebut dilakukan penelitian yang bertujuan untuk membangun sebuah aplikasi yang menerapkan pendekatan two level clustering dengan k-means dan average linkage clustering untuk mengetahui tingkat perbedaan kualitas proses belajar mengajar dosen menurut mahasiswa yang telah dikelompokkan berdasarkan data akademis. Model yang digunakan dalam penelitian ini adalah model two level clustering dengan dua tahapan cluster yaitu metode k-means dan average linkage clustering. Model ini digunakan untuk mengelompokkan data mahasiswa menjadi beberapa cluster berdasarkan data akademis mahasiswa dalam satu matakuliah sehingga data hasil cluster akademis dapat diklaster kembali berdasarkan jawaban kuesioner mahasiswa untuk setiap anggota cluster akademis. Hasil clustering level pertama menunjukkan jumlah cluster yang optimal adalah 2 dengan cluster yang terbentuk adalah mahasiswa dengan kemampuan akademis yang baik dan cukup, sedangkan jumlah cluster yang optimal untuk clustering level kedua adalah 2, dengan cluster yang terbentuk adalah mahasiswa merasa puas, cukup puas atau tidak puas terhadap proses pengajaran di kelas. Hasil interprestasi clustering akademik terhadap tingkat kepuasan mengajar dosen menunjukkan hasil yang sama diantara 2 cluster akademik."

Yogyakarta: Pusat Penelitian dan Pengabdian Pada Masyarakat (P3M) STTA, 2018

600 JIA X:1 (2018)

Artikel Jurnal Universitas Indonesia Library

Maria Angelica Christabel

Clustering Analysis Using Link-Based Cluster Ensemble Method on Poverty Data in Indonesia = Analisis Clustering dengan Metode Link-Based Cluster Ensemble pada Data Kemiskinan di Indonesia

"Poverty is still a serious challenge for all countries in the world, including Indonesia. The Central Statistics Agency (BPS) noted that 25.9 million people were still living in poverty as of March 2023. The challenge of inefficient and poorly targeted budget distribution in some programs hampers poverty alleviation efforts. In line with that, the objective of this study is to categorize provinces based on poverty indicators to provide an understanding of the characteristics and patterns of poverty in various Indonesian provinces. This research uses the Link-based Cluster Ensemble method, which combines various solutions from different clustering methods, namely K-medoids and Agglomerative Hierarchical Clustering to obtain more optimal results. The final result of ensemble clustering is obtained through a similarity matrix by applying the Connected-Triple-based Similarity (CTS) algorithm, which utilizes pairwise similarity relationships between all data points. The data for this study comes from BPS regarding Poverty Data in Indonesia in 2023, with the selection of variables that can reveal the characteristics of poverty in Indonesia, such as aspects of education, employment, expenditure, and household facilities. The results showed that the Link-based Cluster Ensemble method, which was formed through a three-member ensemble from the results of K-Medoids and Agglomerative Hierarchical Clustering, successfully outperformed the single clustering method based on cluster evaluation values using Silhouette, Davies-Bouldin, and Dunn Index. The results grouped the provinces into four clusters: Cluster 1 reveals poverty conditions with low education participation and sanitation facilities, Cluster 2 with low education and high expenditure, Cluster 3 with high unemployment, and Cluster 4 with low clean water facilities.

Kemiskinan masih menjadi tantangan serius bagi seluruh negara di dunia, termasuk Indonesia. Badan Pusat Statistik(BPS) mencatat sebanyak 25,9 juta masyarakat masih hidup dalam kemiskinan per Maret 2023. Tantangan dalam penyaluran anggaran yang tidak efisien dan tepat sasaran pada beberapa program menghambat upaya pengentasan kemiskinan. Sejalan dengan hal itu, tujuan dari penelitian ini adalah mengelompokkan provinsi berdasarkan indikator kemiskinan untuk memberikan pemahaman tentang karakteristik dan pola kemiskinan di berbagai provinsi Indonesia. Penelitian ini menggunakan metode Link-based Cluster Ensemble, yang menggabungkan berbagai solusi dari metode pengelompokan berbeda, yaitu K-medoids dan Agglomerative Hierarchical Clustering untuk mendapatkan hasil yang lebih optimal. Hasil akhir pengelompokan ensemble diperoleh melalui similarity matrix dengan menerapkan algoritma Connected-Triple-based Similarity (CTS), yang memanfaatkan hubungan kesamaan berpasangan antara seluruh titik data. Data penelitian ini berasal dari BPS mengenai Data Kemiskinan di Indonesia tahun 2023, dengan pemilihan variabel yang dapat mengungkapkan karakteristik kemiskinan di Indonesia, seperti aspek pendidikan, ketenagakerjaan, pengeluaran konsumsi, dan fasilitas rumah tangga. Hasil penelitian menunjukkan bahwa metode Link-based Cluster Ensemble, yang dibentuk melalui tiga anggota ensemble dari hasil pengelompokan K-Medoids dan Agglomerative Hierarchical Clustering, berhasil mengungguli metode pengelompokan tunggal berdasarkan nilai evaluasi cluster menggunakan Silhouette, Davies-Bouldin, dan Dunn Index. Hasil penelitian mengelompokkan provinsi ke dalam empat cluster: Cluster 1 mengungkapkan kondisi kemiskinan dengan aspek partisipasi pendidikan dan fasilitas sanitasi yang rendah, Cluster 2 dengan kondisi aspek pendidikan yang rendah dan pengeluaran konsumsi yang tinggi, Cluster 3 dengan kondisi pengangguran yang tinggi, dan Cluster 4 dengan kondisi fasilitas air bersih yang rendah."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Geraldine Immanuel Tangyong

Pengkajian Metode Ordering Points to Identify the Clustering Structure (OPTICS) pada Data dengan Permasalahan Missing Value dan Penerapan pada Data Real (Data Socio-Economic) = Assessment of the Ordering Points to Identify the Clustering Structure (OPTICS) Method on Data with Missing Value Problems and Applications to Real Data (Socio-Economic Data)

"Clustering merupakan salah satu metode pengolahan data yang bekerja dengan mengelompokkan objek-objek yang memiliki kemiripan ke dalam beberapa kelompok. Salah satu metode dari clustering adalah metode Ordering Points to Identify the Clustering Structure (OPTICS) yang adalah metode turunan dari metode Density Based Spatial Clustering of Application with Noise (DBSCAN). DBSCAN memiliki dua parameter, yaitu epsilon dan MinPts. Parameter ini mengakibatkan DBSCAN kurang bisa beradaptasi terhadap variasi densitas data. Karena itu, OPTICS hadir untuk mengatasi masalah tersebut dengan parameter core distance dan reachability distance. Tujuan dari penelitian ini adalah mengkaji metode OPTICS dan menerapkannya pada data sintetis dengan missing value serta pada data real, dengan data yang digunakan adalah data Socio-Economic dengan 167 observasi. Dari hasil pengkajian diketahui bahwa jika suatu data memiliki proporsi missing value lebih dari 15%, maka nilai akurasi dianggap tidak baik. Selanjutnya, dilakukan penerapan terhadap data Socio-Economic dan diperoleh 3 cluster. Cluster 1 memiliki jumlah anggota terbanyak dan cenderung memiliki skor terendah pada banyak variabel dibanding cluster lainnya dan dapat dilihat bahwa anggota dari cluster 1 banyak terdiri dari negara-negara berkembang. Cluster 2 cenderung memiliki skor tertinggi dan negara-negara di cluster 2 merupakan negara-negara maju. Cluster 3 banyak berisi negara campuran, baik negara berkembang maupun negara maju.

Clustering is a data processing technique that works by grouping objects that have similarities into different groups. One method of clustering is the Ordering Points to Identify the Clustering Structure (OPTICS) method, a derivative method of the Density Based Spatial Clustering of Application with Noise (DBSCAN) method. DBSCAN has two kinds of parameters, epsilon and MinPts. These parameters cause DBSCAN to not be able to adapt fully to arbitrary data forms. Therefore, OPTICS is here to solve this problem with the parameters of core distance and reachability distance. The purpose of this study is to examine the OPTICS method and apply it to synthetic with missing value and real data, using the Socio-Economic data with 167 observations. We can conclude that if a data has a missing value proportion of more than 15%, then the accuracy value is considered not good. Furthermore, the Socio-Economic data was applied and obtained 3 clusters. Cluster 1 has the largest number of members and have the lowest scores on many variables, which consists mostly of developing countries. Cluster 2 tends to have the highest score whereas most coming from developed countries. Cluster 3 contains many mixed countries, both developing and developed countries."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ahmad Syukron Alimudin

Analisis data indeks standar pencemaran udara di Jakarta tahun 2019 menggunakan imputasi dan clustering = Analysis of air pollution index in Jakarta in 2019 using imputation and clustering

"Data Indeks Standar Pencemaran Udara di Jakarta tahun 2019 menunjukkan seberapa jauh kualitas udara yang dihasilkan tiap pengamatan harian. Variabel Indeks Standar Pencemaran Udara berdasarkan KEP-45/MENLH/10/1997 adalah partikulat berukuran 10 µm (PM10), Sulfur Dioksida (SO2), Karbon Monoksida (CO), Oksidan dalam bentuk Ozon (O3), dan Nitrogen Dioksida (NO2). Unit observasi berdasarkan SPKU yang terdiri dari SPKU DKI1 Bundaran HI, SPKU DKI2 Kelapa Gading, SPKU DKI3 Jaga Karsa, SPKU DKI4 Lubang Buaya, dan SPKU DKI5 Kebon Jeruk. Adanya missing value pada data ISPU, maka dilakukan imputasi nol dan mean untuk mengganti missing value. Observasi harian ISPU tiap SPKU memiliki tiga tipe data, kemudian dikelompokkan menggunakan K-Means Clustering. Tiga tipe data tiap SPKU tersebut, meliputi data tanpa imputasi, data dengan imputasi nol, dan data dengan imputasi mean, kemudian diperoleh 5 cluster tiap masing-masing tipe data. Pada akhirnya, metode imputasi mean dapat diimplementasikan sebagai metode imputasi missing values pada data ISPU dengan proporsi missing values 3,83%, 4,10%, 10,68 %, 11,78 %, dan 15,06 %, sedangkan penerapan imputasi nol kurang cocok pada data ISPU, karena jaraknya terlalu jauh dari nilai ISPU terhitung serta dipengaruhi oleh missing value. Di sisi lain, hasil penelitian juga menunjukan bahwa metode K-Means Clustering ini optimal dalam pengelompokkan data berdasarkan Between SS/Total SS berkisar antara 67,5 %-85,2 %.

Air Pollution Standard Index data in Jakarta in 2019 shows how far each daily observation produces the air quality. Air Pollution Standard Index Variables based on KEP-45/MENLH/10/1997 are particulates measuring 10 m (PM10), Sulfur Dioxide (SO2), Carbon Monoxide (CO), Oxidants in the form of Ozone (O3), and Nitrogen Dioxide (NO2). The observation unit based on the SPKU consists of SPKU DKI1 Bundaran HI, SPKU DKI2 Kelapa Gading, SPKU DKI3 Jaga Karsa, SPKU DKI4 Lubang Buaya, and SPKU DKI5 Kebon Jeruk. If there is a missing value in ISPU data, zero and mean imputation is carried out to replace the missing value. ISPU daily observations of each SPKU have three data types, then grouped using K-Means Clustering. The three data types for each SPKU, including data without imputation, data with zero imputation, and data with mean imputation, then obtained 5 clusters for each data type. In the end, the mean imputation method can be implemented as a method for imputing missing values on ISPU data with the proportion of missing values being 3.83%, 4.10%, 10.68%, 11.78%, and 15.06%, while the implementation of imputation is zero does not match the ISPU data, because the distance is too far from the calculated ISPU value and is influenced by the missing value. On the other hand, the results also show that the K-Means Clustering method is optimal in grouping data based on Between SS/Total SS ranging from 67.5%-85.2%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Gabriela Patricia Winny Gracia

Pengkajian metode User-Input-Free Density-Based Clustering (UIFDBC) pada data dengan missing values dan penerapannya pada data real = Assessment of the User-Input-Free Density-Based Clustering (UIFDBC) method on data with missing values and its application to real data

"Clustering merupakan metode untuk mengidentifikasi kelompok natural pada data berdasarkan ukuran kemiripan seperti jarak Eucledian. Clustering bertujuan untuk mengelompokkan data, dengan kriteria observasi yang berada dalam satu klaster memiliki tingkat kemiripan yang sangat signifikan, sedangkan observasi yang berada dalam cluster yang berbeda, memiliki perbedaan yang sangat signifikan. Pada tahun 2021, Chowdhury, Bhattacharyya, & Kalita mengembangkan metode User-Input-Free Density-Based Clustering (UIFDBC) berdasarkan dari metode density-based clustering yang telah ada sebelumnya. Seperti namanya, metode UIFDBC ini tidak memerlukan input dari pengguna untuk menemukan cluster. Maka dari itu, metode UIFDBC ini berhasil menjawab permasalahan metode clustering sebelumnya yang bergantung pada input dari pengguna. Tujuan dari penelitian ini adalah untuk membahas lebih dalam terkait metode User-Input-Free Density-Based Clustering (UIFDBC), menerapkan metode UIFDBC pada data real, yaitu data konsumen kartu kredit untuk melakukan segmentasi konsumen, serta mengkaji performa metode ini pada data yang mengandung missing values di dalamnya. Dari hasil penelitian, metode UIFDBC berhasil diterapkan pada data konsumen kartu kredit, dan diperoleh sebanyak delapan cluster pengguna, dimana setiap cluster memiliki karakteristik masing-masing. Selain itu, dari hasil pengkajian metode UIFDBC terhadap data dengan missing values diketahui bahwa performa metode UIFDBC dinilai cukup baik untuk proporsi missing values ≤ 5%. Namun perlu menjadi catatan bahwa data hasil dari setiap iterasi akan bersifat acak, dikarenakan metode UIFDBC sangat bergantung pada densitas data, sedangkan densitas data bergantung pada missing values yang mana dibangkitkan secara acak sepenuhnya.

Clustering is a method to identify natural groups in data based on similarity measures such as Eucledian distance. Clustering aims to group data, with the criteria for observations in one cluster having a very significant level of similarity, while observations in different clusters have very significant differences. In 2021, Chowdhury, Bhattacharyya, & Kalita developed the User-Input-Free Density-Based Clustering (UIFDBC) method based on the previous density-based clustering method. As the name suggests, this UIFDBC method does not require input from the user to find the cluster. Therefore, this UIFDBC method has succeeded in answering the problems of the previous clustering method which depended on input from the user. The purpose of this study is to discuss more deeply the User-Input-Free Density-Based Clustering (UIFDBC) method, to apply the UIFDBC method to real data, namely credit card consumer data to segment consumers, and to examine the performance of this method on data containing missing values in it. From the results of the study, the UIFDBC method was successfully applied to credit card consumer data, and obtained as many as eight user clusters, where each cluster has its own characteristics. In addition, from the results of the study of the UIFDBC method on data with missing values, it is known that the performance of the UIFDBC method is considered quite good for the proportion of missing values ≤ 5%. However, it should be noted that the resulting data from each iteration will be random, because the UIFDBC method is very dependent on data density, while data density depends on missing values which are generated completely randomly."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Edo Krisna Dewandono

Clustering protein-protein interaction data dengan spectral clustering dan fuzzy random walk = Clustering protein-protein interaction data with spectral clustering and fuzzy random walk

"ABSTRACT

Sel tumor adalah sel yang terbentuk akibat kegagalan beberapa protein dalam mengatur siklus sel. Protein TP53 berperan penting dalam mengatur siklus sel, khususnya dalam menekan perkembangan sel tumor. Perubahan pada gen TP53 ditemukan dalam lebih dari setengah kasus tumor pada manusia. Protein lain yang berhubungan dengan protein TP53 juga ditemukan terlibat dalam proses pembentukan kanker. Analisis interaksi protein TP53 dengan melakukan clustering jaringan interaksi protein (PPI) TP53 adalah hal penting dalam membantu mengatasi sel tumor. Jaringan PPI dinyatakan sebagai graf dengan protein dan interaksinya masing-masing sebagai simpul dan busur pada graf. Spectral clustering adalah metode graph clustering yang menggunakan eigenvector dari matriks Laplacian.

ABSTRACT

Fuzzy random walk adalah metode fuzzy clustering yang menggunakan probabilitas transisi dari random walk pada data. Dua metode tersebut akan digabungkan dan diimplementasikan pada penelitian ini. Menggunakan data PPI protein TP53 dari STRING database, didapat gabungan kedua metode tersebut mampu menghasilkan cluster yang fuzzy dan robust di mana setiap cluster dapat menjelaskan bagian tertentu dari fungsi protein TP53. Tumor cell is formed as a result of malfunctioning of some proteins that regulates the cell cycle. TP53 protein plays an important role in managing cell cycle, especially in tumor cell suppression. An alteration of TP53 gene is found in more than half cases of human tumor. Moreover, TP53-related proteins are also found involved in the carcinogenesis process. Therefore, it is important to analyze the interactions of TP53 protein by clustering protein-protein interactions (PPI) network of TP53. PPI networks are usually represented as a graph network with proteins and interactions as vertices and edges respectively. Spectral Clustering is a graph clustering algorithm based on eigenvector of the graph Laplacian. Fuzzy Random Walk is a fuzzy clustering method based on transition probability from a random walk on a dataset. In this paper, we combine both Spectral Clustering and Fuzzy Random Walk. Using PPI datasets of TP53 obtained from the STRING database, we found the combined algorithm is proven to produce both robust and fuzzy clusters with each cluster explains one of TP53 proteins functionality."

2019

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Rizka Nadia Fatma

Perancangan aplikasi data mining untuk kegiatan akademik di Universitas Indonesia

"Dalam melaksanakan tugasnya sebagai penyelenggara pendidikan akademik, profesi, spesialis dan vokasi dalam sejumlah disiplin ilmu pengetahuan, teknologi, budaya, dan seni, Universitas Indonesia melakukan berbagai proses dan kegiatan akademik yang membutuhkan pengambilan keputusan. Saat ini proses analisa hanya dapat dilakukan berdasarkan data yang telah ada pada kurun waktu tertentu. Hal ini akan membatasi proses analisa tersebut. Dalam pengembangannya proses pengambilan keputusan akan lebih optimal jika didukung oleh sistem yang mampu menemukan pola atau hubungan dari kumpulan data yang ada. Kemudian dari pola atau hubungan yang didapatkan tersebut dilakukan prediksi untuk masa yang akan datang. Disinilah peran data mining diperlukan sebagai salah satu metode Knowledge Discovery in Databases (KDD), sehingga proses analisa untuk kegiatan akademik dapat lebih dioptimalkan. Permasalahan yang ada saat ini adalah tidak adanya data mining database dan aplikasi data mining yang mampu melakukan proses pencarian knowledge dalam basis data yang kemudian mampu mendukung proses analisa dan pengambilan keputusan untuk kegiatan akademik.

Tugas akhir dengan topik 'Perancangan Aplikasi Data Mining Untuk Kegiatan Akademik Di Universitas Indonesia' untuk ruang lingkup fakultas adalah salah satu solusi untuk mengatasi permasalahan di atas. Tugas akhir ini bertujuan untuk melakukan kajian analisa perancangan data mining database dan aplikasi data mining untuk kegiatan akademik di Universitas Indonesia.

Metodologi yang digunakan dalam tugas akhir ini dimulai dari pembelajaran terhadap teori-teori yang relevan dengan basis data, data warehouse, data mining, dan Knowledge Discovery in Databases (KDD). Kemudian dilanjutkan dengan melakukan kajian analisa terhadap permasalahan, analisa basis data untuk data mining, analisa data mining berupa kajian tahapan dan persiapan yang harus dilakukan, serta pemilihan studi kasus evaluasi keberhasilan studi mahasiswa. Setelah itu baru diambil kesimpulan yang sesuai dengan hasil analisa. Hasil yang diperoleh dari tugas akhir ini adalah bahwa penerapan konsep data mining pada ruang lingkup fakultas di Universitas Indonesia dapat membantu mengoptimalkan proses pengambilan keputusan untuk kegiatan akademik.

Hasil analisa yang dilakukan meliputi analisa permasalahan, analisa basis data untuk kebutuhan data mining, dan analisa data mining. Untuk mengembangkan aplikasi data mining dibutuhkan data warehouse atau basis data tersendiri yang memenuhi syarat dan mampu menyediakan data yang relevan dengan kebutuhan data mining. Hasil lain yang ditemukan adalah bahwa penggunaan aplikasi data mining untuk ruang lingkup akademik memerlukan aplikasi yang harus di-customized terlebih dahulu. Sedangkan hasil uji coba dengan menggunakan aplikasi statistik, yaitu SPSS menunjukkan bahwa algoritma regresi dapat digunakan untuk memprediksi IPK mahasiswa pada semester yang akan datang. Saran yang dapat diberikan untuk pengembangan selanjutnya adalah pengembangan analisa yang lebih spesifik yang diikuti dengan uji coba dengan menggunakan aplikasi data mining dan implementasi. Selain itu memperluas ruang lingkup proses analisa dan pengambilan keputusan yang tidak terbatas hanya pada evaluasi keberhasilan studi, namun dikaitkan dengan hal lain yang masih relevan seperti kaitan evaluasi keberhasilan studi dengan alokasi jadwal kuliah, dan sebagainya. Saran yang terakhir adalah mengembangkan data warehouse untuk ruang lingkup universitas, sehingga penerapan data mining tidak hanya terbatas pada kegiatan akademik."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2005

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Iswan

Optimalisasi Data pada Peramalan Beban Listrik Menggunakan Principal Component Analysis dan Analisis Klastering Serta Berbasis Spasial = Data Optimization in Electrical Load Forecasting Using Principal Component Analysis and Clustering Analysis and Spatial Based

"Kebutuhan listrik yang senantiasa meningkat setiap tahunnya, wilayah yang sangat luas dan jumlah penduduk yang besar, maka harus mampu membangun dan melayani seluruh kebutuhan listrik masyarakat. Sebagai rangkaian menyeluruh terhadap seluruh kebutuhan energi dan daya listrik tersebut, maka perlu adanya perencanaan yang saling berkait dan terus-menerus. Dengan demikian perlu adanya peramalan terhadap perkembangan dan kebutuhan dimasa depan.

Terbatasanya data yang tersedia juga menjadi kendala dalam membuat peramalan yang akurat. Oleh karena itu penelitian memiliki tujuan untuk memperbaiki metode peramalan beban listrik sehingga menjadi sederhana dan akurat dengan optimalisasi data, kemudian memodifikasi peramalan beban listrik berbasis spasial yang sesuai ciri wilayah dengan jumlah data dan variabel yang terbatas. Penelitian ini berbasis spasial dengan mengembangkan metode Analisis Klastering untuk memperoleh beberapa sel kecil yang disebut klaster. Klaster ini terbentuk berdasarkan kemiripan data yang dimiliki sesuai dengan variabel yang telah ditentukan. Kemudian untuk memperoleh hasil yang akurat, maka dilakukan peramalan menggunakan metode regresi linear dan menggabungkannya dengan metode Principal Component Analysis (PCA). PCA ini mampu memberikan hasil galat yang kecil pada tiap perhitungannnya.

Struktur penyelesaian masalah dalam penelitian ini dengan membuat peramalan berdasarkan jumlah variabel dengan tetap mengacu pada jumlah klaster yang terbentuk. Setiap jumlah variabel juga akan dibedakan jenis variabelnya agar terlihat ciri yang dimiliki oleh tiap klaster tersebut.

Berdasarkan hasil yang diperoleh, nilai MAPE pada setiap perhitungan umumnya bernilai sangat baik. Nilai MAPE terendah untuk daya terpasang berada pada nilai 0,397% dan hampir seluruh klaster nilai MAPE berada dibawah 1%. Sedangkan pada peramalan energi terjual, nilai MAPE masih berada di atas 1%. Jumlah variabel yang banyak umumnya memiliki nilai MAPE yang kecil, walaupun dibeberapa kejadian variabel yang sedikit nilai MAPE juga rendah.

The need for electricity that continues to increase every year, a very large area, and a large population make a government must be able to build and serve all the electricity needs of the community. As a comprehensive series of all these energy and electrical power needs, interrelated and continuous planning is needed. Thus, it is necessary to forecast the development and demand for electricity in the future.
However, the limited data available is an obstacle in making accurate forecasts. Therefore, this study aims to improve the electrical load forecasting method so that it becomes simpler and its accuracy increases with data optimization. Then, modification of the electrical load forecasting method using a spatial basis is carried out according to the characteristics of the area with a limited amount of data and variables. This research is spatially based by developing a clustering analysis method to obtain several small cells called clusters. This cluster is formed based on the similarity of the data held in accordance with the predetermined variables. Then to obtain more accurate results, forecasting is done using the linear regression method and combining it with the Principal Component Analysis (PCA) method. This PCA is able to provide results with small errors in each calculation.
The structure of problem solving in this study is to make forecasts based on the number of variables while still referring to the number of clusters formed. Each number of variables is distinguished by the type of variable so that the characteristics possessed by each cluster can be seen.
Based on the results obtained, the MAPE value in each calculation is generally very good. The lowest MAPE value for installed power is 0.397% and almost all clusters the MAPE value is below 1%. Then, in the forecast of energy sold, the MAPE value is still above 1%. A large number of variables, in general, has a small MAPE value, although in some cases, a small number of variables has a low MAPE value."

Depok: Fakultas Teknik Universitas Indonesia, 2021

D-pdf

UI - Disertasi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian