Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query
cover
Deo Lahara
Abstrak :
ABSTRAK
Pendeteksian topik topic detection adalah suatu proses yang digunakan untuk menganalisis kata-kata pada suatu koleksi data tekstual untuk menentukan topik-topik yang ada pada koleksi tersebut. Pendeteksian topik pada dokumen yang sangat besar sulit dilakukan secara manual sehingga dibutuhkan metode otomatis. Masalah pendeteksian topik secara otomatis dikenal dengan istilah topic detection and tracking TDT . Suatu metode alternatif TDT untuk masalah pendeteksian topik adalah fuzzy C-means FCM. Pada metode fuzzy C-means, umumnya pusat cluster ditentukan secara acak atau inisialisasi random. Namun, terkait dengan masalah dimensi yang tinggi pada inisialisasi random akan menyebabkan algoritma konvergen ke satu pusat. Sehingga, topik-topik yang dihasilkan antara satu dengan yang lainnya sama. Untuk itu, diperlukan metode untuk membuat inisialisasi yang dapat mengatasi masalah tersebut. Salah satu metode inisialisasi yang akan dikembangkan pada penelitian ini adalah metode Singular Value Decomposition SVD . Hasil simulasi menunjukan bahwa metode inisialisasi dapat mengatasi permasalahan fuzzy C-means pada data dimensi yang tinggi sehingga topik-topik yang dihasilkan tidak sama terhadap satu sama lain.
ABSTRAK
Topic detection is a process used to analyze words in a collection of textual data to determine the topics of the collection. Detecting topics on a very large document is hardly done manually so that automatic methods are needed. Automatic method to detect topics in textual documents is known as Topic Detection and Tracking TDT . An alternative method of TDT for topic detection problems is fuzzy C means FCM . In the FCM method, generally the cluster center is random initialization. However, related to the problem of high dimensional random initialization causes the algorithm to converge to one center, it means that all generated topics are similar. For that, a method is needed to create an initialization that resolves the problem. One of the initialization methods that will be developed in this research is Singular Value Decomposition SVD method. The simulation results show that the SVD initialization method can overcome the fuzzy C means problem in the high dimension data so that the resulting topics are not equal to each other.
2017
S69378
UI - Skripsi Membership  Universitas Indonesia Library
cover
Cynthia
Abstrak :
Dengue adalah salah satu penyakit endemik yang terjadi pada banyak daerah sub tropis dan tropis. Nyamuk Aedes aegypti merupakan vektor utama penyakit dengue. Jumlah insiden dengue telah meningkat secara drastis di seluruh dunia dalam beberapa dekade terakhir. Perubahan iklim dapat menyebabkan perubahan curah hujan, suhu, kelembapan, dan arah udara, sehingga dapat berpengaruh pada perkembangbiakan hidup nyamuk Aedes. Pada skripsi ini, penulis mengimplementasikan algoritma ­K-Medoids dan Fuzzy C-Means Clustering menggunakan jarak Euclidean pada data insiden dengue dan cuaca yang diambil dari kelima wilayah di DKI Jakarta pada tahun 2009 hingga 2016. Variabel yang digunakan terdiri atas rata-rata temperatur, rata-rata kelembapan udara relatif, curah hujan, dan insiden dengue. Proses implementasi dalam skripsi ini dibedakan atas 2 skenario penelitian, yaitu menggunakan 4 variabel yang telah disebutkan di atas dan 3 variabel (variabel yang sama seperti sebelumnya, namun tanpa variabel insiden dengue). Tujuan penelitian dalam skripsi ini adalah menganalisis keterkaitan antara variabel cuaca tersebut dan insiden dengue dari kelima wilayah di DKI Jakarta. Untuk menentukan jumlah klaster yang digunakan, pada metode K-Medoids Clustering dilakukan perhitungan Silhouette Coefficient dan pada metode Fuzzy C-Means Clustering dilakukan perhitungan Modified Partition Coefficient. Hasil menunjukkan bahwa terdapat korelasi yang cenderung positif antara insiden dengue dengan rata-rata kelembapan udara relatif dan jumlah curah hujan di DKI Jakarta. Sementara itu, terdapat korelasi yang cenderung negatif antara jumlah insiden dengue dengan rata-rata temperatur di DKI Jakarta. Hasil dari kedua skenario menunjukkan bahwa terdapat kemiripan nilai rata-rata temperatur yang terjadi antara Jakarta Pusat dan Jakarta Utara, serta antara Jakarta Timur, Jakarta Selatan, dan Jakarta Barat. Kemiripan nilai rata-rata kelembapan udara relatif juga terjadi pada wilayah-wilayah seperti yang telah disebutkan sebelumnya. Hasil dari kedua skenario juga menunjukkan bahwa insiden dengue yang terjadi di Jakarta Pusat dan Jakarta Utara cenderung lebih rendah dari Jakarta Timur, Jakarta Barat, dan Jakarta Selatan. Berdasarkan hasil yang diperoleh, pembentukan klaster pada skenario pertama cenderung dipengaruhi oleh jumlah insiden dengue. Sementara itu, pembentukan klaster pada skenario kedua cenderung dipengaruhi oleh jumlah curah hujan.
Dengue is an endemic disease prevalent in sub-tropical and tropical regions. The Aedes aegypti mosquito is the main vector of dengue. Dengue incidence has been rising dramatically throughout the last few decades. Climate change may lead to changes in rainfall, temperature, humidity, and wind direction, so that it can affect the breeding of Aedes mosquitoes. In this study, we employ K-Medoids Clustering and Fuzzy C-Means (FCM) Clustering algorithms using Euclidean distance on five regions in DKI Jakarta every year from 2009 to 2016. The variables used consist of average temperature, average relative humidity, rainfall, and dengue incidence. The implementation process in this study is divided into 2 research scenarios. Firstly using the 4 variables that was mentioned above, and secondly using 3 variables (the same variables as before, but without the dengue incidence variable). The purpose of this study is to analyze the relationships between these weather variables and dengue incidence in the five regions in DKI Jakarta. In order to determine the number of clusters used, for K-Medoids Clustering we determine the Silhouette Coefficient, and for Fuzzy C-Means Clustering we determine the Modified Partition Coefficient. The results show that there tends to be a positive correlation between the number of dengue incidence with average relative humidity and the amount of rainfall. On the other hand, there tends to be a negative correlation between the number of dengue incidence with the average temperature. The results of the two scenarios show that there are similarities in the average temperature between Central Jakarta and North Jakarta, as well as between the East Jakarta, South Jakarta, and West Jakarta. Similarities in the average relative humidity also occur in the areas mentioned before. The results of both scenarios also show that the dengue incidence in Central Jakarta and North Jakarta tend to be lower than in East Jakarta, West Jakarta, and South Jakarta. Based on the results, cluster formation in the first scenario tends to be influenced by the number of dengue incidence. Meanwhile, cluster formation in the second scenario tends to be influenced by the amount of rainfall.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Cindy
Abstrak :
Dengue adalah penyakit infeksi yang menjadi masalah kesehatan serius di dunia. Jumlah insiden dengue di Indonesia terus meningkat sejak tahun 1968, namun pada beberapa tahun belakangan, jumlah penderita dengue cenderung fluktuatif. Faktor-faktor cuaca cenderung memiliki hubungan dengan insiden dengue di Indonesia. Pada skripsi ini, dilakukan analisis pada data time-series cuaca dan insiden dengue pada wilayah DKI Jakarta dari Januari 2008 sampai September 2017. Clustering dapat digunakan untuk menemukan pola pada dataset time-series yang besar dan berisi informasi berharga. Pada skripsi ini, digunakan pendekatan K-Medoids dan Fuzzy C-Means Clustering menggunakan jarak Dynamic Time Warping (DTW). Skripsi ini bertujuan untuk menganalisis pola faktor-faktor cuaca dan insiden dengue di lima wilayah DKI Jakarta (Jakarta Utara, Jakarta Timur, Jakarta Barat, Jakarta Selatan, dan Jakarta Pusat). Faktor-faktor cuaca yang digunakan terdiri dari rata-rata temperatur, curah hujan, rata-rata kelembapan relatif, sinar matahari, dan rata-rata kecepatan angin. Sebelum clustering dilakukan, nilai Silhouette Coefficient digunakan untuk menentukan jumlah cluster yang optimal pada K-Medoids Clustering. Sedangkan, nilai Modified Partition Coefficient digunakan untuk menentukan jumlah cluster yang optimal pada Fuzzy C-Means Clustering. Hasil implementasi menunjukkan bahwa curah hujan merupakan faktor cuaca yang memiliki pola yang paling serupa dengan insiden dengue di kelima wilayah DKI Jakarta. Selain itu, sinar matahari, rata-rata temperatur, dan rata-rata kelembapan relatif juga cenderung memiliki pola yang serupa. Rata-rata kecepatan angin juga cenderung memiliki pola yang serupa dengan curah hujan dan insiden dengue, atau dengan sinar matahari, rata-rata temperatur, dan rata-rata kelembapan relatif.
Dengue is an infectious disease which has become a serious issue throughout the world. Since 1968, the incidence of dengue in Indonesia has continued to increase every year, but in recent years it tended to fluctuate. Weather factors are associated with the incidence of dengue in Indonesia. In this thesis, an analysis of weather time-series data and dengue incidence is done in the DKI Jakarta area from January 2008 to September 2017. Clustering can be used to discover patterns in large time-series datasets which contain valuable information. In this thesis, the K-Medoids and Fuzzy C-Means Clustering approaches using Dynamic Time Warping (DTW) distance are employed. This thesis aims to analyze patterns of weather factors and dengue incidence in the five regions of DKI Jakarta (North Jakarta, East Jakarta, West Jakarta, South Jakarta and Central Jakarta). The weather variables consist of average temperature, rainfall, average relative humidity, sunshine, and average wind speed. Before the clustering process, the Silhouette Coefficient value is used to determine the optimal number of clusters in K-Medoids Clustering. Meanwhile, the Modified Partition Coefficient value is used to determine the optimal number of clusters in Fuzzy C-Means Clustering. The implementation results show that rainfall is the weather factor which has the most similar pattern to the dengue incidence in the five regions of DKI Jakarta. In addition, sunshine, average temperature, and average relative humidity also tend to have a similar pattern with each other. Average wind speed also tends to have a pattern similar to rainfall and dengue incidence, or with sunshine, average temperature, and average relative humidity.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rany Dwi Cahyaningtyas
Abstrak :
Produk susu bubuk balita yang beragam membuat konsumen memiliki banyak pilihan sehingga penting bagi produsen menjaga loyalitas pelanggan yang telah ada dengan memahami perilaku churn pelanggan. Churn pelanggan didefinisikan sebagai kecenderungan pelanggan untuk berhenti melakukan bisnis dengan sebuah perusahaan. Penelitian ini berfokus memprediksi pola churn pelanggan sehingga perusahaan dapat menentukan strategi untuk mengurangi churn. Penelitian ini membahas mengenai prediksi churn pelanggan berdasarkan segmen produk susu bubuk balita menggunakan model Length, Recency, Frequency, Monetary (LRFM). Responden penelitian ini adalah pelanggan PT. XYZ yang pernah bertransaksi untuk produk susu bubuk balita kelas premium (susu A) dan segmen biasa (susu B) selama periode tahun 2021. Variabel pada penelitian ini meliputi variabel LRFM dan CLV yang dibentuk dengan pembobotan variabel LRFM. Pertama metode Fuzzy C-Means Clustering digunakan untuk melakukan pelabelan target pelanggan selanjutnya metode klasifikasi K-Nearest Neighbor (KNN) digunakan untuk memprediksi churn. Hasilnya terdapat tiga kelompok pelanggan untuk masing-masing susu A dan susu B. Pelabelan yang dihasilkan yaitu pelanggan churn dengan nilai CLV rendah, potential to churn dengan nilai CLV menengah, dan loyal dengan nilai CLV tinggi. Susu B menunjukkan jumlah pelanggan churn sebesar 43,4% lebih banyak dibandingkan susu A sebanyak 34%. Tahapan akhir penelitian ini adalah menganalisis kinerja metode KNN berdasarkan nilai akurasi, recall, dan f1-score terhadap kedua susu A dan susu B. Hasil dari tugas akhir ini menunjukkan bahwa kinerja metode KNN bergantung pada pemilihan jumlah tetangga terdekat dan proporsi pemisahan data. ......The variety of powdered toddler milk products gives consumers many choices, so producers need to maintain the loyalty of existing customers by understanding customer churn behaviour. Customer churn is defined as the tendency of a customer to stop doing business with a company. This study focuses on predicting customer churn patterns so companies can determine strategies to reduce churn. This study discusses the prediction of customer churn based on the segment of toddler powdered milk products using the Length, Recency, Frequency, Monetary (LRFM) model. The respondent of this research are the customers of PT. XYZ who have transacted for premium segment powdered milk products for toddlers (milk A) and ordinary segment (milk B) during 2021. Variables in the data include LRFM and CLV variables which are formed by weighting the LRFM variable. At first, Fuzzy C-Means Clustering algorithm was applied for labelling target customer and then, K-Nearest Neighbor (KNN) Classifier as churn prediction was used. As a result, there are three groups of customers for each milk A and milk B. The resulting labels are the churn customer group with low CLV value, potential to churn group with medium CLV, and loyal customer group with high CLV value. Milk B shows the number of customers churn by 43,4% more than milk A as much as 34%. In the final stage of this research, the author analyze the performance of the KNN method based on the value of accuracy, recall, and f1-score for both milk A and milk B. The results of this final project show that the performance of the KNN method depends on the selection of the number of nearest neighbors and the proportion of data splitting used.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ichsani Mursidah
Abstrak :
ABSTRAK
Pendeteksian topik adalah proses untuk menemukan topik atau pokok pembahasan utama dalam suatu kumpulan dokumen. Untuk data yang besar, pendeteksian topik dengan manual sulit atau bahkan tidak mungkin dilakukan. Sehingga, dibutuhkan metode otomatis yang dikenal dengan istilah Topic Detection and Tracking (TDT). Pada penelitian ini metode TDT yang digunakan untuk masalah pendeteksian topik adalah fuzzy C-means (FCM). FCM bekerja cukup baik pada dimensi data yang rendah, tetapi gagal pada dimensi data yang tinggi. Pada metode fuzzy c-means umumnya dilakukan inisialisasi random yang menyebabkan data konvergen ke satu pusat (centre of gravity) sehingga topik-topik yang dihasilkan antara satu dengan yang lainnya sama. Untuk mengatasi masalah tersebut dibutuhkan inisialisasi yang tidak random, yaitu dengan menggunakan inisialisasi berbasis singular value decomposition (SVD). Hasil akurasi dari metode ini menunjukkan adanya peningkatan lebih baik dibandingkan dengan metode FCM dengan inisialisasi random. Dengan nilai akurasi terbaik untuk FA Cup adalah 0,923, untuk US Elections adalah 0,661 dan untuk Super Tuesday adalah 0,727.
ABSTRACT
Topic detection is the process of finding the main topic or topic in a document. For large data, manual topic detection is difficult or even impossible. Thus, it takes an automatic method known as Topic Detection and Tracking (TDT). In this research the TDT method used for topic detection problem is fuzzy C-means (FCM). FCM works reasonably well on low data dimensions, but fails on high data dimensions. In the method of fuzzy c-means is generally done random initialization that causes data convergent to one center (center of gravity) so that the topics generated from one another are equal. To solve this problem requires non-random initialization, ie by using a singular value decomposition (SVD) based initialization. The accuracy of this method shows a better improvement compared to the FCM method with random initialization. With the best accuracy value for the FA Cup is 0.923, for US Elections is 0.661 and for Super Tuesday is 0.727.
2017
T48587
UI - Tesis Membership  Universitas Indonesia Library