Hasil Pencarian

Ditemukan 191714 dokumen yang sesuai dengan query

Julizar Isya Pandu Wangsa

Studi Perbandingan Metode Clustering K-Means, DBSCAN, dan HDBSCAN pada BERTopic untuk Pendeteksian Topik = Comparative Study of K-Means, DBSCAN, and HDBSCAN Clustering Methods on BERTopic for Topic Detection

"Pendeteksian topik merupakan suatu proses pengidentifikasian suatu tema sentral yang ada dalam kumpulan dokumen yang luas dan tidak terorganisir. Hal ini merupakan hal sederhana yang bisa dilakukan secara manual jika data yang ada hanya sedikit. Untuk data yang banyak dibutuhkan pengolahan yang tepat agar representasi topik dari setiap dokumen didapat dengan cepat dan akurat sehingga machine learning diperlukan. BERTopic adalah metode pemodelan topik yang memanfaatkan teknik clustering dengan menggunakan model pre-trained Bidirectional Encoder Representations from Transformers (BERT) untuk melakukan representasi teks dan Class based Term Frequency Invers Document Frequency (c-TF-IDF) untuk ekstraksi topik. Metode clustering yang digunakan pada penelitian ini adalah metode K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), dan Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). BERT dipilih sebagai metode representasi teks pada penelitian ini karena BERT merepresentasikan suatu kalimat berdasarkan sequence-of-word dan telah memperhatikan aspek kontekstual kata tersebut dalam kalimat. Hasil representasi teks merupakan vektor numerik dengan dimensi yang besar sehingga perlu dilakukan reduksi dimensi menggunakan Uniform Manifold Approximation and Projection (UMAP) sebelum clustering dilakukan. Model BERTopic dengan tiga metode clustering ini akan dianalisis kinerjanya berdasarkan matrik nilai coherence, diversity, dan quality score. Nilai quality score merupakan perkalian dari nilai coherence dengan nilai diversity. Hasil simulasi yang didapat adalah model BERTopic menggunakan metode clustering K-Means lebih unggul 2 dari 3 dataset untuk nilai quality score dari kedua metode clustering yang ada.

Topic detection is the process of identifying a central theme in a large, unorganized collection of documents. This is a simple thing that can be done manually if there is only a small amount of data. For large amounts of data, proper processing is needed to represent the topic of each document quickly and accurately, so machine learning is required. BERTopic is a topic modeling method that utilizes clustering techniques by using pre-trained Bidirectional Encoder Representations from Transformers (BERT) models to perform text representation and Class based Term Frequency Inverse Document Frequency (c-TF-IDF) for topic extraction. The clustering methods used in this research are the K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), and Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). BERT was chosen as the text representation method in this research because BERT represents a sentence based on sequence-of-words and has considered the contextual aspects of the word in the sentence. The result of text representation is a numeric vector with large dimensions, so it is necessary to reduce the dimensions using Uniform Manifold Approximation and Projection (UMAP) before clustering is done. The BERTopic model with three clustering methods will be analyzed for performance based on the matrix of coherence, diversity, and quality score values. The quality score value is the multiplication of the coherence value with the diversity value. The simulation results obtained are the BERTopic model using K-Means clustering method is superior to 2 of the 3 datasets for the quality score value of the two existing clustering methods."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Dwie Putri Donnaro

Penggunaan Algoritma Clustering K-Means, DBScan, LDA, dan Kombinasi K-Means dengan DBScan untuk Menentukan Trending Topic pada Media Sosial X = Use of K-Means Clustering, DBScan, LDA, and Combination of K-Means with DBScan to Determine Trending Topic on Social Media X

"Masyarakat Indonesia sangat sering menggunakan media sosial twitter dan sekarang lebih dikenal dengan X untuk berbagi foto, video atau membuat tweet tentang topic yang sedang trend. Namun tidak banyak dari masyarakat Indonesia yang memanfaatkan trending topic ini untuk membuat konten dalam memasarkan produk barunya. Pada penelitian ini telah dilakukan pengelompokkan trending topic dengan menggunakan 3 algoritma clustering yaitu K-Means, DBScan dan LDA dengan menggunakan 2 kondisi yaitu Menggunakan Kata Kunci dan Tanpa Menggnakan kata Kunci, untuk kategori cluster telah ditentukan yaitu Cluster Politik, Cluster Ekonomi dan Cluster Pendidikan. Hasil penelitian ini adalah K-Means dengan menggunakan kata kunci lebih baik dari pada semuanya yaitu dengan nilai validitas 0,5810 sedangkan diposisi kedua yang termasuk baik adalah DBScan menggunakan kata kunci dengan nilai validitas 0,4656. Oleh karena itu karena hasilnya masih dalam tingkatan 2 yaitu struktur cluster masih dalam kategori baik, maka peneliti melakukan kombinasi antara K-Means dan DBScan dengan menggunakan kata kunci. Dan hasilnya struktur yang terbentuk masuk dalam tingkatan 1 yaitu dalam kategori kuat, nilai validitas yang dihasilkan yaitu 0,7864, sehingga antar trending topic dalam masing-masing cluster memiliki keterkaitan.

Indonesians very often use social media twitter and now better known as X to share photos, videos or make tweets about trending topics. However, not many Indonesians utilize this trending topic to create content to market their new products. In this study, clustering of trending topics has been carried out using 3 clustering algorithms namely K-Means, DBScan and LDA using 2 conditions namely Using Keywords and Without Using Keywords, for cluster categories have been determined namely Political Cluster, Economic Cluster and Education Cluster. The results of this study are K-Means using keywords is better than all of them with a validity value of 0.5810 while in second place which is good is DBScan using keywords with a validity value of 0.4656. Therefore, because the results are still in level 2, namely the cluster structure is still in the good category, the researchers conducted a combination of K-Means and DBScan using keywords. And the result is that the structure formed is in level 1, which is in the strong category, the resulting validity value is 0.7864, so that between trending topics in each cluster have a relationship."

Depok: Fakultas Teknik Universitas Indonesia, 2024

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Banjarnahor, Evander

Analisis Kekerabatan pada Barisan DNA SARS-Cov-2 Berdasarkan Pembentukan Pohon Filogenetik dengan Metode Hierarchical dan K-Means Clustering Menggunakan Multiple Encoding Vector dan K-Mer = Implementation of Hierarchical and K-Means Clustering Methods Using Multiple Encoding Vector in Analyzing Kinship in SARS-Cov-2 DNA Sequences

"Berdasarkan data WHO pada pertengahan Juli 2021 lebih dari 185,2 juta orang di seluruh dunia terinfeksi virus corona atau Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2). Virus ini menyerang penapasan manusia yang dapat mengakibatkan infeksi paru-paru pada manusia dan bahkan dapat menyebabkan kematian. Tercatat bahwa lebih dari 4 juta orang di seluruh dunia meninggal akibat terinfeksi virus corona. Di Indonesia sendiri pada pertengahan Juli 2021 tercatat lebih dari 2,4 juta orang ternfeksi virus corona dan lebih dari 65,4 ribu orang meninggal akibat terinfeksi virus corona. Berdasarkan data tersebut, perlu dilakukan analisis kekerabatan virus SARS-CoV-2 untuk mengurangi penyebaran dan memberikan batasan sosial dari negara satu dengan negara lainnya. Identifikasi kekerabatan dari virus covid-19 dan penyebarannya dapat dilakukan dengan cara pembentukan pohon filogenetik dan clustering. Pada penelitian ini pohon filogenetik akan dibangun berdasarkan metode Hierarchical Clustering dengan menggunakan metode Multiple Encoding Vector dan K-Mer berdasarkan translasi DNA kodon menjadi asam amino. Jarak Euclidean akan digunakan untuk menentukan matriks jarak. Penelitian ini selanjutnya menggunakan metode K- Means Clustering untuk melihat penyebarannya, dimana nilai k ditentukan dari jumlah centroid yang dihasilkan dari metode Hierarchical Clustering. Penelitian ini mengambil sampel barisan DNA SARS-CoV-2 dari beberapa negara yang tertular. Dari hasil simulasi, nenek moyang SARS-CoV-2 berasal dari China. Hasil analisis juga menunjukkan bahwa leluhur covid-19 yang paling dekat dengan Indonesia berasal dari India, Australia dan Spanyol. Selain itu dari hasil simulasi dihasilkan bahwa barisan DNA SARS-CoV-2 terdiri dari 9 cluster dan cluster keenam adalah kelompok yang memiliki anggota paling banyak. Hasil analisis juga menunjukkan bahwa metode ini sangat opitimal dalam pengelompokan data dengan nilai 97.4%.

Based on WHO data in middle of July 2021, Coronavirus or Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) is infecting more than 185.2 million people worldwide. The virus attacks human breathing, which can cause lung infections and can even cause death. More than 4 million people worldwide have died due to being infected with the coronavirus. In Indonesia alone, in mid-July 2021, there were more than 2.4 million people infected with the corona virus and more than 65.4 thousand people died from being infected with the corona virus. Based on those covid-19 survivor data, it is necessary to carry out a kinship analysis of the coronavirus to reduce its spreading. Identification of the kinship of the covid- 19 virus and its spread can be done by forming a phylogenetic tree and clustering. This study uses the Multiple Encoding Vector method and K-mer based on translation DNA codon to amino acid in analyzing sequences and Euclidean Distance to determine the distance matrix. This research will then use the Hierarchical Clustering method to determine the number of initial centroids and cluster, which will be used later by the K-Means Clustering method kinship in SARS-CoV-2 DNA sequence. This study took samples of DNA sequences of SARS-CoV-2 from several infected countries. From the simulation results, the ancestors of SARS-CoV-2 came from China. The results of the analysis also show that the closest ancestors of covid-19 to Indonesia came from India, Australia and Spain. In addition, the ancestors of SARS-CoV-2 came from China. The SARS- CoV-2 DNA sequence is also consisted of 9 clusters, and the sixth cluster is the group that has the most members. The results also show that this method is very optimal in a grouping of data with a value of 97.4%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Harum Ananda Setyawan

Analisis Performa Metode K-Means dan Spectral Clustering pada Lahan Karet Melalui Citra Digital dengan Fitur Ekstraksi Gray Level Co-occurrence Matrix = Analysis Performance of K-Means and Spectral Clustering Methods on Rubber Fields through Digital Imagery with Gray Level Co-occurrence Matrix Extraction Features

"Karet merupakan salah satu komoditas penyumbang Produk Domestik Bruto (PDB) terbesar Indonesia. Indonesia merupakan negara dengan lahan karet terluas di dunia. Namun hasil karet yang diproduksi oleh Indonesia masih kalah dibanding Thailand. Hal tersebut disebabkan oleh pemberian pupuk, pestisida, dan perlindungan tanaman yang masih belum maksimal. Untuk perlindungan tanaman karet, di Indonesia biasanya dilakukan melalui penelitian daun karet. Akan tetapi, hal tersebut sangatlah tidak efisien dibanding dengan luas lahan yang ada. Sehingga diperlukan suatu metode yang lebih efisien untuk mendeteksi penyakit pada tanaman karet. Pada penelitian ini, penulis merancang suatu metode pendeteksian dini pengendalian penyakit tanaman karet menggunakan metode k-means clustering dan spectral clustering menggunakan citra digital yang diambil menggunakan drone. Melalui penelitian ini, diharapkan produksi tanaman karet dapat ditingkatkan dikarenakan proses pengendalian penyakit yang lebih efisien. Dengan penelitian ini, lahan karet sehat dan bergejala penyakit dapat dikelompokkan ke masing-masing klaster. Untuk selanjutnya, untuk lahan karet bergejala penyakit dapat dilakukan penelitian lebih lanjut untuk mengetahui jenis penyakit dan level penyakit yang dialami. Pendeteksian penyakit tanaman karet pada penelitian ini memiliki hasil 0,702 untuk k-means clustering dan 0,566 untuk spectral clustering dengan metode evaluasi silhouette score. Hal tersebut dikarenakan data citra yang masih sangat terbatas baik dalam jumlah maupun teknik pengambilan gambar. Namun untuk evaluasi menggunakan mean dan standard deviation, Spectral Clustering dengan perspective transform memiliki hasil yang lebih baik. Metode Spectral Clustering dengan data yang telah dilakukan perspective transform mampu mengklaster lahan karet yang hijau dan agak menguning.

Rubber is one of the largest contributors to Indonesia's Gross Domestic Product (GDP). Indonesia is a country with the largest rubber plantation in the world. However, the rubber produced by Indonesia is still inferior to Thailand. This is caused by the provision of fertilizers, pesticides, and plant protection that is still not optimal. For the protection of rubber plants, in Indonesia it is usually done through rubber leaf research. However, this is very inefficient compared to the existing land area. So we need a more efficient method to detect diseases in rubber plants. In this study, the authors designed a method for early detection of rubber plant disease control using the k-means clustering method and spectral clustering using digital images taken using drones. Through this research, it is hoped that the production of rubber plants can be increased due to a more efficient disease control process. With this research, healthy rubber fields and disease symptoms can be grouped into each cluster. Henceforth, for rubber fields with disease symptoms, further research can be carried out to determine the type of disease and the level of disease experienced. The detection of rubber plant diseases in this study had satisfactory results, namely for k-means clustering and for spectral clustering. This is because the image data is still very limited both in number and technique of taking pictures. However, for evaluation using the mean and standard deviation, Spectral Clustering with perspective transform has better results. The Spectral Clustering method with data that has been carried out with perspective transform is better able to cluster green and slightly yellow rubber land."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Wu, Junjie

Advances in K-means clustering: a data mining thinking

"This book addresses these challenges and makes novel contributions in establishing theoretical frameworks for K-means distances and K-means based consensus clustering, identifying the "dangerous" uniform effect and zero-value dilemma of K-means, adapting right measures for cluster validity, and integrating K-means with SVMs for rare class analysis. This book not only enriches the clustering and optimization theories, but also provides good guidance for the practical use of K-means, especially for important tasks such as network intrusion detection and credit fraud prediction. The thesis on which this book is based has won the "2010 National Excellent Doctoral Dissertation Award", the highest honor for not more than 100 PhD theses per year in China."

Berlin: Springer-Verlag, 2012

e204063793

eBooks Universitas Indonesia Library

Athiyyah Fadillah Eriri

Pengelompokan Nagari-nagari di Kabupaten Agam Sumatera Barat Berdasarkan Indikator Pembangunan Keluarga Tahun 2015 dengan Metode K-Means dan Fuzzy C-Means = Clustering of Nagari in Agam District of West Sumatera Province Based on Family Development Indicator 2015 Using K-Means and Fuzzy C-Means Methods

"Pengelompokan atau clustering adalah pengelompokan objek-objek yang dilakukan atas dasar kesamaan atau jarak (perbedaan) di mana tidak ada asumsi yang dibuat mengenai banyaknya cluster atau struktur cluster. Salah satu metode yang banyak digunakan dalam penyelesaian masalah clustering adalah algoritme K-Means. Pada algoritme ini, suatu objek yang telah menjadi anggota cluster tertentu, tidak bisa menjadi anggota cluster yang lainnya. Metode ini dikenal sebagai hard clustering. Pendekatan lain dalam melakukan pengelompokan didasarkan pada teori himpunan fuzzy yang dikenal dengan pengelompokan fuzzy. Teori himpunan fuzzy memiliki nilai kekaburan antara salah atau benar. Jadi, dalam melakukan pengelompokan, setiap objek memiliki peluang menjadi anggota pada setiap cluster. Salah satu metode pengelompokan fuzzy adalah Fuzzy C-Means (FCM). Pada tugas akhir ini, metode K-Means dan FCM digunakan untuk mengelompokkan nagari-nagari di Kabupaten Agam. Nagari-nagari di Kabupaten Agam dikelompokan berdasarkan indikator pembangunan keluarga yang berasal dari Laporan Pendataan Keluarga tahun 2015 yang bersumber dari BKKBN (Badan Kependudukan dan Keluarga Berencana Nasional). Pada penelitian ini diperoleh empat cluster hasil dari indeks xie and beni. Jumlah anggota setiap cluster hasil dari algoritme K-Means adalah 32, 28, 11 dan 11. Sedangkan jumlah anggota setiap cluster hasil dari algoritme Fuzzy C-Means adalah 31, 18, 21, dan 12. Perbedaan jumlah anggota cluster yang dihasilkan algoritme K-Means dan Fuzzy C-Means adalah 14.29%. Karena rasio simpangan baku dalam dan antar cluster pada algoritme K-Means memberikan nilai yang lebih kecil dibandingkan algoritme Fuzzy C-Means maka algoritme K-Means memberikan hasil yang lebih baik dari pada algoritme Fuzzy C-Means dalam pengelompokan nagari-nagari di Kabupaten Agam.

Grouping or clustering is a method to group objects that are carried out on the basis of similarity or distance (difference) where no assumptions are made regarding the number of clusters or cluster structures. One method that is widely used in solving clustering problems is the K-Means algorithm. In this algorithm, if an object has become a member of a particular cluster, then it cannot become a member of another cluster. This method is known as hard clustering. Another approach to grouping is based on fuzzy set theory, known as fuzzy grouping. Fuzzy set theory has a blurring value between right or wrong. So, in grouping process, each object has the opportunity to become a member in each cluster. One of the fuzzy grouping methods is Fuzzy C-Means. In this study, the two methods, K-Means and Fuzzy C-Means, are used to group nagari-nagari in Agam District. Nagari is equivalent to villages in other provinces in Indonesia. The nagari grouping in Kabupaten Agam is based on family development indicators derived from the 2015 Family Data Collection Report sourced from BKKBN (Badan Kependudukan dan Keluarga Berencana Nasional). In this study four clusters were obtained based on xie and beni’s index. The numbers of members of each cluster as the result of the K-Means algorithm are 32, 28, 11 and 11. While the numbers of members of each cluster as the result of the Fuzzy C-Means algorithm are 31, 18, 21, and 12. The different cluster members produced by the K-Means and Fuzzy algorithms C-Means is 14.29%. Because the standard deviation ratio within and between clusters in the K-Means algorithm gives a smaller value than the Fuzzy C-Means algorithm, the K-Means algorithm gives better results than the Fuzzy C-Means algorithm on the nagari grouping in Agam District."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Asita Darma Irawati

Analisis Pengelompokan Universitas Terbaik Dunia Berdasarkan Komponen Biaya Pendidikan Program Doktor (S3) menggunakan metode K-Means = Clustering Analysis of The World’s Top Universities Based on Tuition Fee Components for Doctoral Program (S3) using K-Means method

"Pertimbangan finansial menjadi salah satu penentu utama apakah seseorang akan melanjutkan

pendidikan ke tingkat yang lebih tinggi atau tidak, sehingga diperlukan beasiswa untuk

membantu mahasiswa dalam menempuh pendidikan tinggi, terutama hingga tingkat doktor.

Besar biaya yang dikeluarkan oleh lembaga penyedia beasiswa kepada penerima beasiswa

tentunya diharapkan sepadan dengan kualitas ilmu yang diperoleh. Oleh karena itu, penelitian

ini bertujuan untuk membahas analisis pengelompokan universitas terbaik dunia berdasarkan

komponen biaya pendidikan program doktor dengan metode K-Means. Universitas pada

penelitian ini diambil dari QS World University Rangkings (WUR) 2022. Analisis eksploratori

data dilakukan dan diperoleh bahwa terdapat 83 dari 472 universitas di dunia memberi bantuan

dana penuh untuk studi program doktor. Nilai Silhouette sebesar 0,72 menunjukkan bahwa tiga

merupakan jumlah kelompok yang optimal bagi data. Sehingga terbentuk kelompok A

sebanyak 328 universitas, kelompok B sebanyak 108 universitas, dan kelompok C sebanyak

36 universitas. Kelompok A terdiri dari universitas dengan SPP dan biaya hidup per bulan

relatif rendah, kelompok B sedang, dan kelompok C tinggi. Untuk biaya transportasi udara,

kelompok B cenderung rendah, sedangkan kelompok A dan C relatif serupa dan lebih mahal

dari kelompok B. Sementara untuk biaya visa, kelompok A cenderung lebih murah, sedangkan

kelompok B dan C cenderung serupa dengan biaya lebih mahal. Berdasarkan analisis ini,

penulis memberikan saran universitas yang bisa dipertimbangkan lembaga pemberi beasiswa

sebagai perguruan tinggi tujuan.

Financial concern has been one of the main reasons why an individual wants to pursue higher
education. That is why scholarship is needed to help students earn an education, especially until
doctoral degree. The amount of money spent by institution who give scholarship must be
equivalent with the quality of knowledge an awardee got. This study aims to do clustering
analysis of the world’s top universities based on tuition fee components for doctoral program
using K-Means method. The object of this study are universities based on QS World University
Rankings 2022. Exploratory data analysis is done and found that there are 83 out of 472
universities in the world who give fully funded program for doctoral study. Based on the
silhouette value of 0.72, three is the best number of clusters for the data. Group A, B, C consists
of 328, 108, and 36 universities in respective order. Group A consists of universities who have
chepear tuition fee and monthly living cost compared to Group B dan C. However, Group B
consists of universities who have cheaper transportation, meanwhile Group A and C are quiet
similar. For visa, Group A is cheaper compared to Group B and C which are similar. Based on
the results, recommendations are given to the institution who provide scholarship about the
objective university for doctoral study."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Riski Ita Damayanti

Evaluasi Penentuan Zona Biaya Hak Penggunaan Spektrum Frekuensi Radio untuk Izin Stasiun Radio (BHP ISR) Menggunakan Metode Klaster K-Means = The Evaluation of Zone Determination of Spectrum Usage Fee by using K-Means Clustering Method

"Spektrum frekuensi radio sebagai sumber alam yang sifatnya terbatas dan dimanfaatkan oleh pemerintah maupun masyarakat, memerlukan pengaturan yang cermat dalam penggunaannya. Pemanfaatan frekuensi radio untuk keperluan komersial, non komersial, sosial maupun keperluan militer (keamanan) dengan bermacam-macam jenis jasa (service) yang memungkinkan. Dengan berkembangnya teknologi sistem telekomunikasi yang menggunakan frekuensi radio, maka diperlukan pola pengaturan dan pentarifan yang lebih sesuai, adil dan bermanfaat baik bagi operator maupun masyarakat, disamping dapat meningkatkan pendapatan negara dan pemanfaatan frekuensi. Zona merupakan salah satu indikator dalam penghitungan tarif BHP ISR. Berdasarkan Peraturan Menteri Komunikasi dan Informatika nomor 7 tahun 2021 tentang penggunaan spektrum frekuensi radio, penetapan wilayah dalam zona penarifan ISR ditinjau paling sedikit 1 (satu) kali dalam 5 (lima) tahun dengan mempertimbangkan aspek ekonomi suatu wilayah. Seiring bertambahnya waktu, wilayah kabupaten/kota mengalami perubahan baik pemekaran wilayah layanan ataupun pengembangan wilayah berpengaruh pada perubahan profil ekonomi suatu wilayah kabupaten/kota, sehingga perlu dilakukan evaluasi untuk melakukan pembaruan Zona Penarifan ISR. Evaluasi zona penarifan ISR dilakukan berbasiskan pada metode K-Mean Clustering dengan menggunakan 40 cluster sebagai acuan centroid awal dengan hasil akhir 5 zona. Metode tersebut berdasarkan analisis terhadap potensi ekonomi suatu wilayah yang direfleksikan melalui Produk Domestik Bruto (PDRB) sebagai demand dan pemanfaatan layanan telekomunikasi yang direfleksikan melalui trafik sebagai supply. Hasil evaluasi zona ISR dari penelitian ini adalah opsi pertama, zona 1 sejumlah 92 kota/kabupaten, zona 2 sejumlah 132 kota/kabupaten, zona 3 sejumlah 141 kota/kabupaten, zona 4 sejumlah 105 kota/kabupaten, dan zona 5 sejumlah 44 kota/kabupaten. Sedangkan opsi 2, zona 1 sejumlah 5 kota/kabupaten, zona 2 sejumlah 11 kota/kabupaten, zona 3 sejumlah 29 kota/kabupaten, zona 4 sejumlah 101 kota/kabupaten, dan zona 5 sejumlah 368 kota/kabupaten. Penelitian ini diharapkan dapat memberikan gambaran metode penyesuaian zona ISR berdasarkan kondisi ekonomi dan teknologi suatu wilayah untuk pembangunan dalam mendorong tranformasi digital Indonesia.

The radio frequency spectrum, as a natural resource that is limited and utilized by both the government and the public, requires careful regulation in its use. The utilization of radio frequency for commercial, non-commercial, social, and military (security) purposes allows for various types of services. With the development of telecommunication system technology that uses radio frequency, there is a need for a more appropriate, fair, and beneficial regulatory and tariff pattern for both operators and the public, in addition to increasing state revenue and frequency utilization. The zone is one of the indicators in calculating the BHP ISR tariff. Based on the Minister of Communication and Informatics Regulation number 7 of 2021 regarding the use of the radio frequency spectrum, the determination of areas within the ISR tariff zones is reviewed at least once every five years, considering the economic aspects of a region. Over time, the district/city areas undergo changes, both in terms of service area expansion and regional development, which affect the economic profile of a district/city area, necessitating an evaluation to update the ISR Tariff Zones. The evaluation of ISR tariff zones is based on the K-Mean Clustering method, using 40 clusters as the initial centroid reference with a final result of 5 zones. This method is based on an analysis of the economic potential of a region, reflected through the Gross Domestic Product (GDP) as demand and the utilization of telecommunication services, reflected through traffic as supply. The results of the ISR zone evaluation from this study are the first option, zone 1 with 92 districts/cities, zone 2 with 132 districts/cities, zone 3 with 141 districts/cities, zone 4 with 105 districts/cities, and zone 5 with 44 districts/cities. While option 2, zone 1 with 5 districts/cities, zone 2 with 11 districts/cities, zone 3 with 29 districts/cities, zone 4 with 101 districts/cities, and zone 5 with 368 districts/cities. This research is expected to provide an overview of the ISR zone adjustment method based on the economic and technological conditions of a region for development in promoting Indonesia’s digital transformation."

Depok: Fakultas Teknik Universitas Indonesia, 2024

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Nova Yuniarti

Penerapan algoritma K- Means clustering pada pengelompokan barisan DNA virus hepatitis B (HBV) = Application of K-Means algorithm in clustering the DNA sequences of hepatitis B virus (HBV) / Nova Yuniarti

"[ABSTRAK

Berdasarkan data WHO tahun 2014, diperkirakan sekitar 15 juta orang di dunia

yang terinfeksi hepatitis B (HBsAg+) juga terinfeksi hepatitis D. Infeksi hepatitis

D dapat terjadi bersamaan (koinfeksi) atau setelah seseorang terkena hepatitis B

kronis (superinfeksi). Penyakit hepatitis B disebabkan oleh virus HBV dan

penyakit hepatitis D disebabkan oleh virus HDV. HDV tidak dapat hidup tanpa

HBV. Hepatitis D erat hubungannya dengan infeksi virus HBV, sehingga sangat

realistis bila setiap usaha pencegahan terhadap hepatitis B, maka secara tidak

langsung mencegah hepatitis D. Pada tesis ini akan dibahas bagaimana hasil

pengelompokan barisan DNA HBV menggunakan algoritma k-means clustering

dengan menggunakan perangkat lunak R. Dimulai dengan mengumpulkan barisan

DNA HBV yang diambil dari GenBank, kemudian dilakukan ekstraksi ciri

menggunakan n-mers frequency, dan hasil ekstraksi ciri barisan DNA tersebut

dikumpulkan dalam sebuah matriks dan dilakukan normalisasi menggunakan

normalisasi min-max dengan interval [0, 1] yang akan digunakan sebagai data

masukan. Jumlah cluster yang dipilih dalam penelitian ini adalah dua dan

penentuan centroid awal dilakukan secara acak. Pada setiap iterasi dihitung jarak

masing-masing objek ke masing-masing centroid dengan menggunakan Euclidean

distance dan dipilih jarak terpendek untuk menentukan keanggotaan objek di

suatu cluster sampai akhirnya terbentuk dua cluster yang konvergen. Hasil yang

diperoleh adalah virus HBV yang berada pada cluster pertama lebih ganas

dibanding virus HBV yang berada pada cluster kedua, sehingga virus HBV pada

cluster pertama berpotensi berevolusi dengan virus HDV menjadi penyebab

penyakit hepatitis D.

ABSTRACT

Based on WHO data, an estimated of 15 millions people worldwide who are

infected by hepatitis B (HBsAg+) are also infected by hepatitis D. Hepatitis D

infection can occur simultaneously with hepatitis B (co infection) or after a person

is exposed to chronic hepatitis B (super infection). Hepatitis B is caused by the

HBV virus and hepatitis D is caused by HDV virus. HDV can not live without

HBV. Hepatitis D virus is closely related to HBV infection, hence it is really

realistic that every effort of prevention against hepatitis B can indirectly prevent

hepatitis D. This thesis discussed the clustering of HBV DNA sequences by using

k-means clustering algorithm and R programming. Clustering processes is started

with collecting HBV DNA sequences that are taken from GenBank, then

performing extraction HBV DNA sequences using n-mers frequency and

furthermore the extraction results are collected as a matrix and normalized using

the min-max normalization with interval [0, 1] which will later be used as an input

data. The number of clusters is two and the initial centroid selected of cluster is

choosed randomly. In each iteration, the distance of every object to each centroid

are calculated using the Euclidean distance and the minimum distance are selected

to determine the membership in a cluster until two convergent clusters are created.

As the result, the HBV viruses in the first cluster is more virulent than the HBV

viruses in the second cluster, so the HBV viruses in the first cluster can potentially

evolve with HDV viruses that cause hepatitis D., Based on WHO data, an estimated of 15 millions people worldwide who are