Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 7 dokumen yang sesuai dengan query
cover
Hendy Fergus Atheri Hura
"ABSTRAK
Penelitian ini mengimplementasikan metode spectral clustering-Fuzzy C-Means pada tiga microarray data ekspresi gen, dengan tujuan untuk mengelompokkan gen-gen yang memiliki tingkat ekspresi yang similar. Spectral clustering secara teoritis terdiri dari tiga tahap utama yaitu: membangun matriks jarak, membentuk matriks Laplacian, dan proses partisi, khususnya dalam tesis ini menggunakan algoritma partisi Fuzzy C-Means. Oleh karena itu, implementasi dari spectral clustering-FCM lebih sederhana dan intuitif pada pelaksanaannya. Analisis cluster singkat juga akan dipaparkan untuk masing-masing microarray data yang digunakan yaitu: Carcinoma, Leukemia, dan Lymphoma. Hasil cluster yang sangat baik didapatkan, sehingga metode yang diusulkan memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

ABSTRACT
This research implements the spectral clustering FCM method on three microarray gene expression data, with the aim of grouping genes with similar expression levels. Spectral clustering is theoretically composed of three main stages building distance matrix, forming Laplacian matrix, and partitioning process, especially in this thesis using Fuzzy C Means partition algorithm. Therefore, the implementation of spectral clustering FCM is simpler and more intuitive in its implementation. Brief cluster analysis will also be presented for each microarray data used Carcinoma, Leukemia, and Lymphoma. Excellent cluster results are obtained, so the proposed method has great potential for future research in the medical field. "
2017
T48274
UI - Tesis Membership  Universitas Indonesia Library
cover
Soeganda Formalidin
"Penelitian ini bertujuan untuk mencari korelasi yang kuat antar gen dan kondisi dari data ekspresi gen penyakit Diabetes Melitus (DM) pada sampel obesitas dan sampel kurus dengan menggunakan metode three phase biclustering. Tahap pertama pada metode ini adalah dengan menggunakan matriks dekomposisi Singular Value Decomposition (SVD) yang mentransformasikan data menjadi dua matriks berbasis gen dan kondisi. Selanjutnya pada tahap kedua menggunakan metode partisi Partition Around Medoids (PAM) pada dua matriks gen dan kondisi menggunakan jarak Euclidean sehingga jika digabung akan membentuk bicluster yang pada tahap tiga akan dievaluasi dengan menggunakan modifikasi lift algorithm berbasiskan korelasi Pearson yang cocok untuk mendeteksi bicluster model additive-multiplicative. Hasil dari implementasi algoritma yang digunakan pada dataset microarray dinamakan δ-corbicluster yang memiliki korelasi yang tinggi antar gen dan sampel. Implementasi dari tahap pertama dan kedua (SVDPAM) pada dataset DM dengan 1331 gen terseleksi menghasilkan 8 bicluster. Sedangkan hasil tahap ketiga yaitu modifikasi algoritma lift pada kedelapan bicluster ini menghasilkan 3 δ-corbicluster dengan masing-masing nilai korelasi yang tinggi yaitu 0,097, 0,095, 0,085, sehingga metode yang diusulkan dan hasil analisisnya pada gen dan sampel penyakit DM memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

The purpose of this research is to find strong correlation among genes and conditions of Diabetes Melitus genes expression data which samples are obese and lean people using three phase biclustering. First step is to use matrix decomposition Singular Value Decomposition (SVD) to decompose matrix gene expression data into two global based gene and condition matrices. Second step is to use partition method Partition Around Medoid (PAM) to cluster gene and condition based matrices using Euclidean distance, forming several biclusters which further evaluated using modified lift algorithm based on Pearson correlation which is very appropriate method to detect additive-multiplicative bicluster type. The resulting bicluster of the proposed algorithm having strong correlation among genes and samples to microarray dataset are called δ-corbicluster. Implementation of the first and second step (SVD-PAM) to dataset DM with 1331 selected genes produces 8 biclusters. For the third step using modified lift algorithm to these 8 biclusters produces 3 δ-corbiclusters having strong correlation values: 0,097, 0,0095, 0,085, so that the proposed method and the result of analysis to genes and samples of DM have high potential in future medical researches.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49441
UI - Tesis Membership  Universitas Indonesia Library
cover
Sofia Debi Puspa
"Penelitian ini bertujuan untuk mengimplementasikan similarity based biclustering SBB dalam memperoleh bicluster sekumpulan gen dengan ekspresi yang similar di bawah kondisi tertentu yang signifikan pada data microarray. Secara teoritis similarity based biclustering terdiri atas tiga tahap utama, yaitu: membangun matriks similaritas baris gen dan matriks similaritas kolom kondisi , mempartisi masing-masing matriks similaritas dengan hard clustering khususnya dalam penelitian ini menggunakan partisi k-means, dan ekstrak bicluster. Sebelum mengimplementasikan metode SBB, strategi seleksi gen diterapkan dan selanjutnya dilakukan normalisasi. Perolehan evaluasi indeks silhouette pada dataset diabetic nephropathy, diabetic retinopathy dan lymphoma berturut-turut pada cluster kondisi yaitu 0,8304; 0,7853 dan 0,7382, sedangkan indeks silhouette untuk cluster gen yaitu 0,5382; 0,5408 dan 0,5464. Dan dari hasil analisis cluster kondisi, akurasi dari dataset diabetic nephropathy dan diabetic retinopathy yaitu 100 , sedangkan dataset lymphoma yaitu 98 . Selanjutnya dapat diketahui regulasi proses seluler yang terjadi pada bicluster dari ketiga dataset. Hasil analisis menunjukkan bahwa gen-gen yang diperoleh dari bicluster sesuai dengan fungsi gen dan proses biologis didukung oleh GO enrichment sehingga menjadi potensi yang besar bagi praktisi medis dalam tindak lanjut suatu penyakit yang diderita oleh pasien.

This study aims to implement similarity based biclustering SBB in obtaining a bicluster a set of genes that exhibit similar levels of gene expression under certain conditions that is significant in microarray data. Theoretically, similarity based biclustering consists of three main phase constructing the row gene similarity matrix and the column condition similarity matrix, partitioning each matrix similarity with hard clustering especially in this research using k means partition, and extracting bicluster. Before implementing the SBB method, the gene selection strategy is applied and subsequently normalized. The acquisition of silhouette index evaluation in diabetic nephropathy, diabetic retinopathy, and lymphoma on cluster condition respectively is 0.8304, 0.7853 and 0.7382, while the silhouette index for the gene cluster is 0.5382, 0.5408 and 0.5464. In addition, according to the cluster condition analysis, accuracy of dataset diabetic nephropathy and diabetic retinopathy is 100 , whereas dataset lymphoma is 98 . Furthermore, it can be known cellular regulation that occurs on the bicluster of the three datasets. The results of the analysis show that the genes obtained from bicluster are relevant to the function of genes and biological processes supported by GO enrichment , therefore it becomes a great potential for medical practitioners in the follow up of a disease suffered by the patient.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
T49530
UI - Tesis Membership  Universitas Indonesia Library
cover
Melati Vidi Jannati
"Klasifikasi data kanker menggunakan microarray data menjadi salah satu cara untuk mendapatkan pengobatan yang lebih tepat. Kendala yang terdapat adalah karakteristik dari microarray yang memiliki fitur yang sangat banyak. Seringkali fitur tersebut tidak begitu informatif bagi pengklasifikasian sehingga perlu adanya suatu cara untuk memilih fitur-fitur yang mengandung informasi yang penting. Salah satu cara tersebut adalah dengan pemilihan fitur. Pada penelitian ini, metode pemilihan fitur yang digunakan berdasarkan clustering dengan fungsi kernel. Fitur-fitur yang sudah terpilih kemudian diklasifikasikan menggunakan metode Support Vector Machine.
Evaluasi dari klasifikasi pada penelitian ini melibatkan K-Fold Cross Validation, metode tersebut akan membagi data secara acak, tetapi merata sehingga akurasi yang didapat juga merata. Hasil akurasi tersebut dilakukan dengan berbagai uji terhadap parameter yang berkaitan seperti K partisi, nilai dan fitur-fitur yang digunakan. Pada proses klasifikasi tanpa pemilihan fitur tingkat akurasinya mencapai 89.68 dengan k partisi sebanyak 6 sementara dengan 5 fitur akurasinya menjadi 95.87 pada partisi sebanyak 10.

Classification of cancer using microarray data is one way to get a more precise treatment. The obstacle on classification data is the characteristics of microarray data that is having many features. These features are often not so informative for classification, so it needs a way to select the features that contain important information. One way is by selection feature. In this research, the method of selection features that are used based on clustering with kernel function. Features that are already selected then classified using Support Vector Machine.
Evaluation of classification in this research involves a K Fold Cross Validation, that methods split data randomly but uniformly so that it can reach all of accuracy. The results of accuracy data was done with different test against related parameters such as K partition, the value of and the features that are used. On the classification process without selection features rate of accuracy reached on 89.68 with k partition number 6 while with the 5 features obtained 95.87 on partition number 10.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016
S66852
UI - Skripsi Membership  Universitas Indonesia Library
cover
Oon Septa
"Tantangan komputasi dibutuhkan pada analisis data microarray dikarenakan karakteristik data tersebut yang memiliki ukuran yang sangat besar dan memiliki ekspresi gen yang bervariasi di setiap kondisi, seperti contohnya data microarray Human Immunodeficiency Virus-1. Penelitian sebelumnya telah menggunakan ukuran Multi Slope Measure pada algoritma Triclustering Genetic Based tetapi algoritma tersebut belum tersedia secara luas dan belum dapat digunakan semua orang. Penelitian ini bertujuan untuk membangun program Multi Slope Measure pada algoritma Triclustering Genetic Based menggunakan perangkat lunak R berbasis open source pada data microarray ekspresi gen Human Immunodeficiency Virus-1. Pada simulasi program yang dibangun digunakan pada data microarray ekspresi gen untuk melihat kesuksesan program yang telah dibangun. Teknik triclustering diperlukan untuk mengelompokkan data 3 Dimensi berdasarkan data yang memiliki kesamaan pola. Algoritma Triclustering Genetic Based merupakan algoritma yang berdasarkan teori evolusi yang dapat mengelompokkan data dengan ukuran kualitas yang  maksimum. Penelitian ini menargetkan mencari 10 tricluster dan berhasil didapatkan semua 10 tricluster nya. Dari 10 tricluster tersebut didapatkan 6 gen yang berkaitan dengan Human Immunodeficiency Virus-1 yaitu HLA-C, JUN, CCR5, ELF1, CX3CR1, dan GATA-3.

Computational challenges are needed in microarray data analysis because the characteristics of the data are very large and have gene expressions that vary in each condition, such as the microarray data for Human Immunodeficiency Virus-1 disease. Previous research used the Multi Slope Measure on the Genetic Based Triclustering algorithm, but the algorithm is not yet globally available and cannot be used by everyone. This study aims to build a Multi Slope Measure program on the Triclustering Genetic Based algorithm using open source-based R software on the microarray data of Human Immunodeficiency Virus-1 disease gene expression. In the simulation of the program that has been built, the program is tested on gene expression microarray data to see its success. The triclustering technique is needed to group 3-dimensional data based on data that has the same pattern. Genetic Based Triclustering Algorithm is an algorithm based on the theory of evolution that can classify data with maximum quality measure. This study aimed to find 10 triclusters and has successfully obtained all 10 triclusters. From the 10 triclusters, 6 genes were found related to Human Immunodeficiency Virus-1, namely HLA-C, JUN, CCR5, ELF1, CX3CR1, and GATA-3."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Luthfi Zahiya
"

Triclustering merupakan metode unsupervised learning yang bekerja pada data tiga dimensi dengan dimensi-dimensi berupa observasi, atribut, dan konteks. Tujuan dari triclustering adalah untuk membentuk himpunan submatriks yang disebut sebagai tricluster berdasarkan ketiga dimensi pada data yang diberikan. Data tiga dimensi banyak ditemukan dalam bidang biomedis, di mana hal tersebut turut mendorong penggunaan dan pengembangan triclustering untuk keperluan analisis data ekspresi gen di mana salah satu alternatif dimensi-dimensinya adalah gen, sampel, dan waktu (gene, sample, time) dan biasa juga disebut sebagai data GST. Salah satu metode triclustering yang dikembangkan untuk menganalisis data tiga dimensi short time-series adalah Order Preserving Tricluster (OPTricluster). OPTricluster mempertahankan sifat natural dimensi waktu yang berurutan dan mengelompokkan data ke dalam tricluster berdasarkan pola. Penelitian ini mengimplementasikan metode OPTricluster pada data GST biopsi otot rangka pria sehat yang berpuasa selama 24 jam. Tricluster-tricluster yang terbentuk dievaluasi menggunakan nilai Multi Slope Measure (MSL) untuk mengetahui kualitas grafis tricluster. MSL dikembangkan untuk mengevaluasi tricluster berisi data GST dan nilai MSL yang rendah menandakan kualitas tricluster yang baik. Berdasarkan analisis data GST, ditemukan bahwa penggunaan δ=1,7 menghasilkan tricluster pola constant dan divergent terbaik dan penggunaan δ=1,5 menghasilkan tricluster pola conserved terbaik. Namun, tricluster yang terbentuk mengindikasikan bahwa puasa selama 24 jam tidak menyebabkan banyak perubahan nilai ekspresi gen pada otot rangka manusia.


Triclustering is a method of unsupervised learning that runs on three-dimensional data where the dimensions are observation, attribute, and context. The objective of triclustering is to create a set of triclusters based on the three dimensions within the provided data. The abundance of three-dimensional data in the biomedical field is a big factor on the utilization and improvement of triclustering, particularly in the analysis of gene expression data which in it are the dimensions gene, sample, and time or abbreviated as GST data. One of the triclustering method developed to analyze three-dimensional short time-series data is Order Preserving Tricluster (OPTricluster). OPTricluster preserves the natural sequiential properties of the time dimension and organizes data into triclusters based on patterns. This study applies the OPTricluster method on the GST data from muscle biopsies from fasting healthy men. The formed triclusters are evaluated graphically using the Multi Slope Measure (MSL). A small MSL score indicates a good tricluster. Based on the analysis of GST data, δ=1,7 produces the best constant and divergent triclusters and δ=1,5 produces the best conserved triclusters. However, the triclusters formed suggest that fasting for 24 hours doesn’t have a lot of effect on gene expressions in human muscle.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Vinezha Panca
"ABSTRAK
Kanker merupakan salah satu penyebab kematian terbesar di seluruh dunia. Secara khusus, kanker otak adalah kanker yang terjadi pada sistem saraf pusat. Salah satu hal yang dapat dilakukan untuk penelitian kanker otak menggunakan machine learning adalah melakukan pendeteksian jenis kanker otak dengan memanfaatkan microarray data. Permasalahan tersebut merupakan masalah klasifikasi multikelas. Dengan menggunakan pendekatan one versus one, akan terbentuk sebanyak k k-1 /2 masalah dua kelas, di mana k menunjukkan jumlah kelas. Karena data kanker otak memiliki fitur yang sangat banyak, perlu dilakukan seleksi fitur. Pada penelitian ini, akan diimplementasikan metode Multiple Multiclass Support Vector Machine Recursive Feature Elimination MMSVM-RFE sebagai metode seleksi fitur, dan Twin Support Vector Machine TWSVM sebagai metode klasifikasi. Pada metode MMSVM-RFE dilakukan pelatihan SVM-RFE pada setiap masalah dua kelas, sehingga setiap masalah dua kelas memiliki pengurutan fitur masing-masing. Sebagai metode klasifikasi, TWSVM memiliki tujuan untuk mencari hyperplane masing ndash; masing kelas sedemikian sehingga data kelas satu sedekat mungkin terhadap suatu hyperplane namun sejauh mungkin dengan hyperplane lainnya. Rata-rata akurasi tertinggi pada simulasi menggunakan kernel linear pada MMSVM-RFE dan kernel linear pada TWSVM adalah 95,33 dengan menggunakan 200 fitur. Rata-rata akurasi tertinggi pada simulasi menggunakan kernel linear pada MMSVM-RFE dan kernel RBF pada TWSVM adalah 87 dengan 70 fitur. Sedangkan apabila proses validasi juga dilakukan pada seleksi fitur, rata-rata akurasi tertinggi yang diperoleh adalah 90,67 dengan menggunakan 90 fitur.

ABSTRACT
Cancer is one of main causes of death worldwide. Brain cancer is a type of cancer which occurs at central nervous system. Taking advantage from microarray data, machine learning methods can be applied to help brain cancer prediction according to its types. This problem can be referred as a multiclass classification problem. Using one versus one approach, the multiclass problem with k classes can be transformed into k k 1 2 binary class problems. The huge amount of features makes it necessary to use feature selection. In this research, Multiple Multiclass Support Vector Machine Recursive Feature Elimination MMSVM RFE method is implemented as the feature selection method, and Twin Support Vector Machine TWSVM method is implemented as the classification method. The main concept of MMSVM RFE is to train SVM RFE at each binary problem so that each binary problem will have their own arrangements of feature. As a classification method, TWSVM is trained to find two hyperplanes, each representative of its own class. The data of one class must be as near as possible from its representative hyperplane while also must be as far as possible from the other hyperplane. In the simulation which uses linear kernel on MMSVM RFE and linear kernel on TWSVM, the highest average accuracy is 95,33 , using 200 features. In the simulation which uses linear kernel on MMSVM RFE and RBF kernel on TWSVM, the highest average accuracy is 87 , using 70 features. In the case where the feature selection process is included in doing validation, the highest average accuracy is 90,67 , using 90 features."
2016
S66302
UI - Skripsi Membership  Universitas Indonesia Library