Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 95280 dokumen yang sesuai dengan query
cover
Amyra Aulia Adlina
"Indeks validitas merupakan metode yang mengevaluasi hasil clustering untuk mendapatkan jumlah klaster optimal suatu data. Pada skripsi ini, dilakukan clustering pada data menggunakan algoritma K-Means. Selanjutnya, hasil clustering tersebut dievaluasi oleh empat jenis indeks validitas, yaitu indeks Silhouette, indeks Davies-Bouldin, indeks Sum of Square, dan indeks Calinski-Harabasz. Implementasi keempat jenis indeks validitas dilakukan dengan menggunakan data benchmark yang sudah diketahui jumlah kelasnya.
Hasil implementasi tersebut akan dibandingkan untuk mengetahui apakah keempat indeks validitas dapat memprediksi jumlah klaster dengan tepat. Dari hasil simulasi, indeks Silhouette, indeks Davies-Bouldin, dan indeks Calinski-Harabasz dapat memprediksi jumlah klaster optimal lebih tepat dibandingkan dengan indeks Sum of Square.

The validity index is a method that evaluates the clustering results to get the optimal number of clusters of a data. In this skripsi, data clustered using K Means algorithm. Furthermore, the clustering results are evaluated by four types of validity indices, namely the Silhouette index, the Davies Bouldin index, the Sum of Square index, and the Calinski Harabasz index. The implementation of the four validity indices is done by using the benchmark data which is already known to the number of classes.
The results of the implementation will be compared to find out whether the four validity indices can predict the number of clusters appropriately. From the simulation results, the Silhouette index, the Davies Bouldin index, and the Calinski Harabasz index can predict the optimal cluster number is more precise than the Sum of Square index.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dendy Tryanda
"Produk internet fixed broadband atau produk internet menggunakan kabel merupakan produk yang jarang digunakan oleh masyarakat Indonesia, padahal di era Covid-19 dengan sistem work from home, masyarakat membutuhkan kualitas internet yang baik. Penelitian ini bertujuan untuk membantu PT ABC mendapatkan pelanggan baru dengan melakukan cross-selling produk terhadap pelanggan dari anak perusahaannya yaitu PT XYZ yang juga menggunakan produk internet fixed broadband namun bukan produk dari PT ABC dengan menggunakan metode machine learning jenis unsupervised learning dengan jenis clustering partisi dengan algoritma k-means clustering dengan menggunakan tool KNIME untuk proses k-means clustering dan tool R Programming untuk proses pencarian cluster jumlah optimal. Hasil dari algoritma ini menemukan bahwa terdapat empat jenis cluster pelanggan PT XYZ yang karakteristiknya dapat dilihat dari sisi pendapatan yang didapat dari hasil korelasi data, cluster 2 dan cluster 3 merupakan cluster potensial dengan 2123 pelanggan dan area yang memiliki sedikit pelanggan adalah area 1 dan area 4, lalu estimasi pendapatan minimum yang akan dihasilkan adalah Rp 8.937.830.000.

Internet fixed broadband products or internet products using cables is a products that are rarely used by Indonesian people, even though in the Covid-19 era with a work from home system, people need a good quality internet. This study aims to help PT ABC get new customers by cross-selling products to customers of its subsidiary PT XYZ who also use internet fixed broadband products, but not products from PT ABC by using the machine learning method unsupervised learning types with partition clustering and the k-means clustering algorithm using the KNIME tool for the k-means clustering process and the R Programming tool for the process of finding the optimal number of clusters. The result of this algorithm finds that there are four types of PT XYZ customer clusters whose characteristics we can see from the revenue side from the results of data correlation, cluster 2 and cluster 3 are potential clusters with 2123 customers and areas that have few customers are area 1 and area 4, then the estimated minimum revenue that will be generated is IDR 8,937,830,000."
Jakarta: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Nova Yuniarti
"[ABSTRAK
Berdasarkan data WHO tahun 2014, diperkirakan sekitar 15 juta orang di dunia
yang terinfeksi hepatitis B (HBsAg+) juga terinfeksi hepatitis D. Infeksi hepatitis
D dapat terjadi bersamaan (koinfeksi) atau setelah seseorang terkena hepatitis B
kronis (superinfeksi). Penyakit hepatitis B disebabkan oleh virus HBV dan
penyakit hepatitis D disebabkan oleh virus HDV. HDV tidak dapat hidup tanpa
HBV. Hepatitis D erat hubungannya dengan infeksi virus HBV, sehingga sangat
realistis bila setiap usaha pencegahan terhadap hepatitis B, maka secara tidak
langsung mencegah hepatitis D. Pada tesis ini akan dibahas bagaimana hasil
pengelompokan barisan DNA HBV menggunakan algoritma k-means clustering
dengan menggunakan perangkat lunak R. Dimulai dengan mengumpulkan barisan
DNA HBV yang diambil dari GenBank, kemudian dilakukan ekstraksi ciri
menggunakan n-mers frequency, dan hasil ekstraksi ciri barisan DNA tersebut
dikumpulkan dalam sebuah matriks dan dilakukan normalisasi menggunakan
normalisasi min-max dengan interval [0, 1] yang akan digunakan sebagai data
masukan. Jumlah cluster yang dipilih dalam penelitian ini adalah dua dan
penentuan centroid awal dilakukan secara acak. Pada setiap iterasi dihitung jarak
masing-masing objek ke masing-masing centroid dengan menggunakan Euclidean
distance dan dipilih jarak terpendek untuk menentukan keanggotaan objek di
suatu cluster sampai akhirnya terbentuk dua cluster yang konvergen. Hasil yang
diperoleh adalah virus HBV yang berada pada cluster pertama lebih ganas
dibanding virus HBV yang berada pada cluster kedua, sehingga virus HBV pada
cluster pertama berpotensi berevolusi dengan virus HDV menjadi penyebab
penyakit hepatitis D.

ABSTRACT
Based on WHO data, an estimated of 15 millions people worldwide who are
infected by hepatitis B (HBsAg+) are also infected by hepatitis D. Hepatitis D
infection can occur simultaneously with hepatitis B (co infection) or after a person
is exposed to chronic hepatitis B (super infection). Hepatitis B is caused by the
HBV virus and hepatitis D is caused by HDV virus. HDV can not live without
HBV. Hepatitis D virus is closely related to HBV infection, hence it is really
realistic that every effort of prevention against hepatitis B can indirectly prevent
hepatitis D. This thesis discussed the clustering of HBV DNA sequences by using
k-means clustering algorithm and R programming. Clustering processes is started
with collecting HBV DNA sequences that are taken from GenBank, then
performing extraction HBV DNA sequences using n-mers frequency and
furthermore the extraction results are collected as a matrix and normalized using
the min-max normalization with interval [0, 1] which will later be used as an input
data. The number of clusters is two and the initial centroid selected of cluster is
choosed randomly. In each iteration, the distance of every object to each centroid
are calculated using the Euclidean distance and the minimum distance are selected
to determine the membership in a cluster until two convergent clusters are created.
As the result, the HBV viruses in the first cluster is more virulent than the HBV
viruses in the second cluster, so the HBV viruses in the first cluster can potentially
evolve with HDV viruses that cause hepatitis D., Based on WHO data, an estimated of 15 millions people worldwide who are
infected by hepatitis B (HBsAg+) are also infected by hepatitis D. Hepatitis D
infection can occur simultaneously with hepatitis B (co infection) or after a person
is exposed to chronic hepatitis B (super infection). Hepatitis B is caused by the
HBV virus and hepatitis D is caused by HDV virus. HDV can not live without
HBV. Hepatitis D virus is closely related to HBV infection, hence it is really
realistic that every effort of prevention against hepatitis B can indirectly prevent
hepatitis D. This thesis discussed the clustering of HBV DNA sequences by using
k-means clustering algorithm and R programming. Clustering processes is started
with collecting HBV DNA sequences that are taken from GenBank, then
performing extraction HBV DNA sequences using n-mers frequency and
furthermore the extraction results are collected as a matrix and normalized using
the min-max normalization with interval [0, 1] which will later be used as an input
data. The number of clusters is two and the initial centroid selected of cluster is
choosed randomly. In each iteration, the distance of every object to each centroid
are calculated using the Euclidean distance and the minimum distance are selected
to determine the membership in a cluster until two convergent clusters are created.
As the result, the HBV viruses in the first cluster is more virulent than the HBV
viruses in the second cluster, so the HBV viruses in the first cluster can potentially
evolve with HDV viruses that cause hepatitis D.]"
2015
T44666
UI - Tesis Membership  Universitas Indonesia Library
cover
Frisca
"Spectral clustering adalah salah satu algoritma clustering modern yang paling terkenal. Sebagai teknik clustering yang efektif, metode spectral clustering muncul dari konsep teori graf spektral. Metode spectral clustering membutuhkan algoritma partisi. Ada beberapa metode partisi termasuk PAM, SOM, Fuzzy c-means, dan k-means. Berdasarkan penelitian yang telah dilakukan oleh Capital dan Choudhury pada 2013, ketika menggunakan Euclidian distance, k-means memberikan akurasi yang lebih baik dibandingkan dengan algoritma PAM. sehingga, makalah ini menggunakan algoritma k-means. Keuntungan utama dari spectral clustering adalah mengurangi dimensi data, terutama dalam hal ini untuk mengurangi dimensi yang besar dari data microarray.
Microarray data adalah chip berukuran kecil yang terbuat dari slide kaca yang berisi ribuan bahkan puluhan ribu jenis gen dalam fragmen DNA yang berasal dari cDNA. Aplikasi data microarray secara luas digunakan untuk mendeteksi kanker, misalnya adalah karsinoma, di mana sel-sel kanker mengekspresikan kelainan pada gen-nya. Proses spectral clustering dimulai dengan pengumpulan data microarray gen karsinoma, preprocessing, menghitung similaritas, menghitung , menghitung nilai eigen dari , membentuk matriks , dan clustering dengan menggunakan k-means. Dari hasil pengelompokan gen karsinoma pada penelitian ini diperoleh dua kelompok dengan nilai rata-rata Silhouette maksimal adalah 0.6336247. Proses clustering pada penelitian ini menggunakan program open source R.

Spectral clustering is one of the most famous modern clustering algorithms. As an effective clustering technique, spectral clustering method emerged from the concepts of spectral graph theory. Spectral clustering method needs partitioning algorithm. There are some partitioning methods including PAM, SOM, Fuzzy c means, and k means. Based on the research that has been done by Capital and Choudhury in 2013, when using Euclidian distance k means algorithm provide better accuracy than PAM algorithm. So in this paper we use k means as our partition algorithm. The major advantage of spectral clustering is in reducing data dimension, especially in this case to reduce the dimension of large microarray dataset.
Microarray data is a small sized chip made of a glass plate containing thousands and even tens of thousands kinds of genes in the DNA fragments derived from doubling cDNA. Application of microarray data is widely used to detect cancer, for the example is carcinoma, in which cancer cells express the abnormalities in his genes. The spectral clustering process is started with collecting microarray data of carcinoma genes, preprocessing, compute similarity matrix, compute , compute eigen value of , compute , clustering using k means algorithm. In this research, Carcinoma microarray data using 7457 genes. The result of partitioning using k means algorithm is two clusters clusters with maximum Silhouette value 0.6336247.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47117
UI - Tesis Membership  Universitas Indonesia Library
cover
Nabiila Kusumahardhini
"Multiple Traveling salesman problem MTSP merupakan perluasan dari TSP. MTSP adalah masalah optimasi dimana akan ditentukan total jarak minimum untuk m salesmen dalam melakukan perjalanan ke sejumlah kota tepat satu kali yang dimulai dari kota awal yang disebut depot kemudian kembali lagi ke depot setelah perjalanan selesai. Dalam tugas akhir ini, K-Means dan Crossover Ant Colony Optimization ACO akan digunakan untuk menyelesaikan MTSP. Implementasi dilakukan pada 3 data dari TSPLIB dengan menggunakan salesman berjumlah 2, 3, 4, dan 8. Analisa hasil dengan menggunakan K-Means dan Crossover ACO akan dibandingkan. Pengaruh terhadap pemilihan kota yang menjadi depot pada total jarak perjalanan yang dihasilkan, juga akan dianalisa.

Multiple Traveling Salesman Problem MTSP is a generalization of the Traveling Salesman Problem TSP . MTSP is an optimization problem to find the minimum total distance of m salesmen tours to visit several cities in which each city is only visited exactly by one salesman, starting from origin city called depot and return to depot after the tour is completed. In this skripsi, K Means and Crossover Ant Colony Optimization ACO are used to solve MTSP. The implementation is observed on three datasets from TSPLIB with 2, 3, 4, and 8 salesmen. Analysis of results using K Means and Crossover ACO will be compared. The effect of selecting a city as depot on the total travel distance of tour will also be analyzed."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
S69165
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sari Gita Fitri
"Kanker adalah penyakit yang disebabkan oleh ketidakteraturan perjalanan hormon yang mengakibatkan tumbuhnya daging pada jaringan tubuh yang normal atau sering dikenal sebagai tumor ganas. Kanker terjadi saat sel-sel dalam tubuh membelah diri diluar kendali. Sel-sel abnormal ini kemudian menyerang jaringan terdekat. Salah satu kanker yang paling umum terjadi adalah kanker paru-paru. Kanker paru-paru adalah kanker yang dimulai di paru-paru dan paling sering terjadi pada orang yang merokok. Paru-paru kanan memiliki 3 bagian, yang disebut dengan lobus, sedangkan paru-paru kiri memiliki 2 lobus. Kanker paru-paru merupakan penyebab utama kematian terkait kanker di seluruh dunia dengan 30%-40% terjadi di negara berkembang. Untuk memprediksi apakah seseorang menderita kanker paru-paru atau tidak dapat dilihat dari terdapatnya tumor ganas pada paru-paru yang dapat dilakukan melalui CT scan. Namun, hasil CT scan tidak cukup dalam mendeteksi atau mendiagnosis secara dini terdapatnya tumor ganas di dalam paru-paru. Untuk itu, dapat digunakan machine learning dalam mendeteksi secara dini adanya tumor ganas di dalam paru-paru. Dalam penelitian ini, penulis menggunakan Kernel K-Means based Co-clustering yang merupakan pengembangan dari K-Means based Co-clustering. K-Means mengelompokkan data menggunakan jarak Euclidean. Akan tetapi, jika data yang dipisahkan adalah data nonlinear, maka konvergensi dari data yang dipisahkan tersebut akan kecil dan membutuhkan waktu yang lama, sehingga masalah ini dapat diselesaikan dengan menggunakan fungsi kernel untuk menggantikan jarak Euclidean.Co-clustering mempartisi baris dan kolom dari suatu matriks data secara simultan, sehingga blok yang diinduksi oleh partisi adalah klaster yang baik. Metode Kernel K-Means based Co-clustering memasukkan banyak titik untuk mewakili masing-masing pusat klaster, sehingga titik-titik di dalam klaster saling berdekatan, akan tetapi jauh dari titik yang mewakili klaster lain. Data yang digunakan adalah data kanker paru-paru yang diperoleh dari laboratorium radiologi RSUPN Cipto Mangunkusumo, Jakarta. Hasil akurasi yang diperoleh untuk memprediksi penyakit kanker paru-paru dengan menggunakan metode Kernel K-Means based Co-clustering adalah 94,5%.

Cancer is a disease caused by an irregular course of hormones that results in the growth of flesh in normal body tissues or often known as malignant tumors. Cancer occurs when cells in the body divide out of control. These abnormal cells then attack nearby tissues. One of the most common cancers is lung cancer. Lung cancer is cancer that starts in the lungs and most often occurs in people who smoke. The right lung has 3 parts, which are called lobes, while the left lung has 2 lobes. Lung cancer is the leading cause of cancer-related deaths worldwide with 30%-40% occurring in developing countries. To predict whether someone has lung cancer or can not be seen from the presence of malignant tumors in the lungs that can be done through a CT scan. However, CT scan results are not enough to detect or diagnose the presence of malignant tumors early in the lungs. For this reason, machine learning can be used to detect malignant tumors early in the lungs. In this research, the writer usesKernel K-Meansbased Co-clustering which is the development of K-Means-based Co-clustering. K-Means groups data using Euclidean distances. However, if the separated data is non-linear data, the convergence will be small and take a long time, so this problem can be solved by using the kernel function to replace the Euclidean distance. Co-clustering partitioned rows and columns of a data matrix simultaneously, so the blocks induced by partitions are good clusters. Kernel K-Meansbased Co-clustering method includes many points to represent each cluster center, so that the points within the cluster are close together, but far from the points representing other clusters. The data used are lung cancer data obtained from the radiology laboratory of Cipto Mangunkusumo General Hospital, Jakarta. Accuracy results obtained to predict lung cancer by using the Kernel K-Meansbased Co-clustering method are 94.5%."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Aida Fastabiqa Khairati
"ABSTRAK
Clustering merupakan proses pengelompokkan himpunan objek ke dalam cluster-cluster yang berisi objek-objek dengan kemiripan yang tinggi dibandingkan dengan objek-objek pada cluster lain. Algoritma K-means merupakan salah satu metode yang banyak digunakan dalam penyelesaian masalah clustering. Pada algoritma ini titik pusat cluster ditentukan oleh nilai rata-rata objek-objek pada cluster tersebut. Algortima K-means memiliki ketergantungan terhadap pemilihan titik pusat awal cluster yang pemilihannya dilakukan secara acak. Pemilihan ini dapat mempengaruhi hasil clustering. Metode enhanced dan metode MMCA merupakan 2 contoh metode yang dapat diterapkan pada algoritma K-means dalam pemilihan titik pusat awal cluster. Penerapan kedua metode tersebut pada algoritma K-means menghasilkan hasil clustering yang lebih optimal, ditunjukkan dengan jumlah iterasi yang sama pada tiap simulasi untuk mencapai kriteria konvergen serta nilai rata-rata similaritas terhadap data benchmark yang lebih baik.

ABSTRACT
Clustering is the process of grouping the set of objects into clusters that contain objects with a high similarity compared to objects in other clusters. K means algorithm is one of many methods used in solving clustering problems. In this algorithm the center point of the cluster is determined by the average value of the objects in the cluster. The K means algorithm has a dependency on the selection of the cluster 39 s initial center point where the selection is randomly selected. This selection can affect the clustering result. The enhanced method and MMCA method are two examples of methods that can be applied to the K means algorithm in the selection of the cluster 39 s initial center point. The application of both methods to the K means algorithm resulted in a more optimal clustering result, indicated by the same number of iterations in each simulation to achieve convergent criteria as well as the average similarity value to better benchmark data."
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Khoirul Umam
"DNA adalah salah satu pembawa informasi genetik pada makhluk hidup. Sequencing dan clustering barisan DNA telah menjadi pekerjaan utama dan rutin dalam dunia biologi molekuler, khususnya dalam bidang terapan bioinformatika. Secara umum metode clustering dapat dibedakan menjadi dua, yaitu hirarki clustering dan partisi clustering. Penelitian ini menggabungkan dua metode clustering yaitu K-Means partisi clustering pada Level 1 dan DIANA hirarki clustering pada Level 2, oleh karena itu disebut Two-Level Hybrid Clustering. Proses awal dimulai dengan mengumpulkan barisan DNA HPV yang diperoleh dari NCBI National Centre for Biotechnology Information, Ekstraksi Ciri, dan Normalisasi. Kemudian melakukan proses clustering menggunakan algoritma K-Means pada Level 1 dan algoritma DIANA pada Level 2. Untuk menghitung jarak genetik antar barisan DNA HPV digunakan persamaan Euclidian Distance. Dan validitas klaster yang digunakan untuk menentukan banyaknya klaster yang optimum adalah Indeks Davies-Bouldin IDB. Hasil penerapan Two-Level Hybrid Clustering pada 1252 barisan DNA HPV adalah data dikelompokan menjadi 4 klaster dengan nilai IDB yaitu 0.859154564. Semua perhitungan dan proses clustering menggunakan software R.

DNA is one of the carrier of genetic information in living organisms. Sequencing and clustering DNA sequences has become the key and routine activitis in the molecular biology, in particular on bioinformatics applications. There are two type of clustering, hierarchical clustering and partitioning clustering. In this paper, we combine two type clustering proccesses including K Means partitioning clustering on Level 1 and DIANA hierarchical clustering on Level 2, therefore it called Two Level Hybrid clustering. The beginning of process is started with collecting DNA sequences of HPV from NCBI National Centre for Biotechnology Information, Characteristics Extraction, and Normalization. The next step is clustering by implementation K Means algorithm on Level 1 and DIANA algorithm on Level 2. To calculate the genetic distance we use Euclidian Distance. Moreover, in validating cluster results in order to get optimum number of clusters, we use Davies Bouldin Index DBI. The result of implementation of Two Level Hybrid Clustering on 1252 sequences of HPV is the data clustered into 4 clusters with minimal IDB value is 0.859154564. All calculating and clustering process in this paper using software R.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47109
UI - Tesis Membership  Universitas Indonesia Library
cover
Dwie Putri Donnaro
"Masyarakat Indonesia sangat sering menggunakan media sosial twitter dan sekarang lebih dikenal dengan X untuk berbagi foto, video atau membuat tweet tentang topic yang sedang trend. Namun tidak banyak dari masyarakat Indonesia yang memanfaatkan trending topic ini untuk membuat konten dalam memasarkan produk barunya. Pada penelitian ini telah dilakukan pengelompokkan trending topic dengan menggunakan 3 algoritma clustering yaitu K-Means, DBScan dan LDA dengan menggunakan 2 kondisi yaitu Menggunakan Kata Kunci dan Tanpa Menggnakan kata Kunci, untuk kategori cluster telah ditentukan yaitu Cluster Politik, Cluster Ekonomi dan Cluster Pendidikan. Hasil penelitian ini adalah K-Means dengan menggunakan kata kunci lebih baik dari pada semuanya yaitu dengan nilai validitas 0,5810 sedangkan diposisi kedua yang termasuk baik adalah DBScan menggunakan kata kunci dengan nilai validitas 0,4656. Oleh karena itu karena hasilnya masih dalam tingkatan 2 yaitu struktur cluster masih dalam kategori baik, maka peneliti melakukan kombinasi antara K-Means dan DBScan dengan menggunakan kata kunci. Dan hasilnya struktur yang terbentuk masuk dalam tingkatan 1 yaitu dalam kategori kuat, nilai validitas yang dihasilkan yaitu 0,7864, sehingga antar trending topic dalam masing-masing cluster memiliki keterkaitan.

Indonesians very often use social media twitter and now better known as X to share photos, videos or make tweets about trending topics. However, not many Indonesians utilize this trending topic to create content to market their new products. In this study, clustering of trending topics has been carried out using 3 clustering algorithms namely K-Means, DBScan and LDA using 2 conditions namely Using Keywords and Without Using Keywords, for cluster categories have been determined namely Political Cluster, Economic Cluster and Education Cluster. The results of this study are K-Means using keywords is better than all of them with a validity value of 0.5810 while in second place which is good is DBScan using keywords with a validity value of 0.4656. Therefore, because the results are still in level 2, namely the cluster structure is still in the good category, the researchers conducted a combination of K-Means and DBScan using keywords. And the result is that the structure formed is in level 1, which is in the strong category, the resulting validity value is 0.7864, so that between trending topics in each cluster have a relationship."
Depok: Fakultas Teknik Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Sofia Debi Puspa
"Penelitian ini bertujuan untuk mengimplementasikan similarity based biclustering SBB dalam memperoleh bicluster sekumpulan gen dengan ekspresi yang similar di bawah kondisi tertentu yang signifikan pada data microarray. Secara teoritis similarity based biclustering terdiri atas tiga tahap utama, yaitu: membangun matriks similaritas baris gen dan matriks similaritas kolom kondisi , mempartisi masing-masing matriks similaritas dengan hard clustering khususnya dalam penelitian ini menggunakan partisi k-means, dan ekstrak bicluster. Sebelum mengimplementasikan metode SBB, strategi seleksi gen diterapkan dan selanjutnya dilakukan normalisasi. Perolehan evaluasi indeks silhouette pada dataset diabetic nephropathy, diabetic retinopathy dan lymphoma berturut-turut pada cluster kondisi yaitu 0,8304; 0,7853 dan 0,7382, sedangkan indeks silhouette untuk cluster gen yaitu 0,5382; 0,5408 dan 0,5464. Dan dari hasil analisis cluster kondisi, akurasi dari dataset diabetic nephropathy dan diabetic retinopathy yaitu 100 , sedangkan dataset lymphoma yaitu 98 . Selanjutnya dapat diketahui regulasi proses seluler yang terjadi pada bicluster dari ketiga dataset. Hasil analisis menunjukkan bahwa gen-gen yang diperoleh dari bicluster sesuai dengan fungsi gen dan proses biologis didukung oleh GO enrichment sehingga menjadi potensi yang besar bagi praktisi medis dalam tindak lanjut suatu penyakit yang diderita oleh pasien.

This study aims to implement similarity based biclustering SBB in obtaining a bicluster a set of genes that exhibit similar levels of gene expression under certain conditions that is significant in microarray data. Theoretically, similarity based biclustering consists of three main phase constructing the row gene similarity matrix and the column condition similarity matrix, partitioning each matrix similarity with hard clustering especially in this research using k means partition, and extracting bicluster. Before implementing the SBB method, the gene selection strategy is applied and subsequently normalized. The acquisition of silhouette index evaluation in diabetic nephropathy, diabetic retinopathy, and lymphoma on cluster condition respectively is 0.8304, 0.7853 and 0.7382, while the silhouette index for the gene cluster is 0.5382, 0.5408 and 0.5464. In addition, according to the cluster condition analysis, accuracy of dataset diabetic nephropathy and diabetic retinopathy is 100 , whereas dataset lymphoma is 98 . Furthermore, it can be known cellular regulation that occurs on the bicluster of the three datasets. The results of the analysis show that the genes obtained from bicluster are relevant to the function of genes and biological processes supported by GO enrichment , therefore it becomes a great potential for medical practitioners in the follow up of a disease suffered by the patient.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49530
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>