Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 162418 dokumen yang sesuai dengan query
cover
Jullend Gatc
"Human Immunodeficiency Virus (HIV) merupakan salah satu virus paling mematikan yang merusak sistem imun manusia melalui interaksi antar protein (PPI). Oleh karena itu, diperlukan suatu metode prediksi yang dapat melihat secara luas interaksi antar protein. Integrasi dari berbagai jenis data yang berbeda merupakan salah satu pendekatan untuk melihat interaksi protein secara luas. Dalam penelitian ini dibangun metode untuk prediksi PPI dengan mengintegrasikan gene expression dan ontology menggunakan Bayesian Network. Langkah pertama pada proses integrasi ini yaitu mencari nilai likelihood ratio berdasarkan evidence berupa nilai probabilistik PPI pada masing-masing dataset. Dimana likelihood ratio diperoleh dari kombinasi evidence menggunakan Bayesian Network. Kemudian hasil prediksi yang diperoleh diverifikasi menggunakan database NIAID sebagai Gold-Standard. Dari hasil keseluruhan eksperimen, model yang dibangun ini dievaluasi menggunakan Positive Predictive Value (PPV) dan memperoleh presisi mencapai 85.07%.

.Human Immunodeficiency Virus (HIV) is one of the most deadly virus that could damage the human immune system through protein interaction (PPI). Therefore, the extremely prediction method that determine interactions between proteins extensively is required. The integration of different data is one of the approaches to look at the proteins interactions. In this research, a prediction model of PPI by integrating gene expression and gene ontology using Bayesian Networks will be developed. The first step in the integration process is to find the value of likelihood ratio based on evidence from each dataset. Furthermore the likelihood ratio is obtained from a combination of evidence using Bayesian Networks. Finally, the prediction results will be verified using a database of NIAID as Gold-Standard. Overall, we use PPV as an evaluation method which achieve precision around 85.07%."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Yudisthira Oktaviandie
"Penelitian mengenai tingkat ekspresi gen identitas bunga (SEPALLATA) dilakukan pada tiga bagian Hibiscus rosa-sinensis l., yaitu daun, epicalyx, dan kelopak bunga. Penelitian bertujuan untuk mengetahui ekpresi gen SEPALLATA pada epicalyx. Analisis tingkat ekspresi dilakukan secara kualitatif dengan metode two-steps RT-PCR dan divisualisasikan menggunakan elektroforesis agarosa. Metode modified-CTAB digunakan untuk isolasi RNA H. rosa-sinensis dan dilanjutkan dengan pemberian perlakuan DNase untuk menghilangkan gDNA yang masih tersisa. Selanjutnya, RNA diubah menjadi cDNA dengan metode Reverse Transcription dan diamplifikasi dengan metode PCR menggunakan primer spesifik. Hasil penelitian menunjukkan adanya hasil amplifikasi SEPALLATA pada epicalyx menggunakan primer GH7SEP1, namun tidak pada epicalyx menggunakan primer GH1SEP1. Konfirmasi menggunakan primer GH7SEP1 forward dan GH1SEP1 reverse tidak menunjukkan adanya hasil amplifikasi. Hasil sekuensing menunjukkan bahwa hasil amplifikasi yang didapatkan menggunakan baik primer GH1SEP1 maupun GH7SEP1 diduga kuat teramplifikasi dari gen SEPALLATA.

Research on floral-identity gene (SEPALLATA) expression level has been done in three parts of Hibiscus rosa-sinensis; they are leaves, epicalyx and calyx. This research was conducted to observe expression of the SEPALLATA gene in epicalyx. The expression level analysis was done qualitatively by the two-steps RT-PCR and visualized using agarose electrophoresis. Hibiscus rosa-sinensis RNA was isolated using the modified-CTAB method and continued by DNase-treatment to eliminate gDNA in mixture. Furthermore, RNA was used to make cDNA using the Reverse Transcription method and amplified using the PCR method by specific primers. The result showed the presence of SEPALLATA amplification in epicalyx using GH7SEP1 primer, yet not on epicalyx using GHSEP1 primer. Confirmation using GH7SEP1 forward primer and GH1SEP1 reverse primer did not show any amplification. Sequencing and alignment results suggested that amplifications using GH1SEP1 or GH7SEP1 were allegedly, of which amplified from SEPALLATA gene."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Awatif Al Makiyah
"Ekspresi gen sintentik gag HIV-1 subtipe CRF01_AE dalam E. coli BL21 dan E. coli BL21-CP telah dilakukan. Gen gag merupakan salah satu gen pada HIV-1 yang tidak mengalami mutasi secara signifikan sehingga gen tersebut dapat digunakan untuk pengembangan vaksin yang dapat dimanfaatkan dalam jangka waktu yang panjang. Pengembangan vaksin HIV membutuhkan protein Gag untuk digunakan sebagai antigen yang mampu merespon pembentukan antibodi pada hewan uji coba. Protein Gag didapatkan dengan cara melakukan ekspresi gen gag yang telah diklon ke dalam vektor ekspresi pQE-81L, dan ditransformasi ke dalam bakteri E. coli BL21 dan E. coli BL21-CP. Ekspresi dilakukan dengan tiga faktor optimasi yaitu, suhu, konsentrasi isopropyl-β-D-thiogalactopyranoside (IPTG) dan waktu ekspresi setelah induksi dilakukan. Analisis hasil ekspresi dilakukan dengan SDS-PAGE dan menunjukkan tidak ada protein Gag yang dihasilkan pada semua keadaan optimasi yang dilakukan. Kegagalan ekspresi gen gag pada E. coli BL21 dan E. coli BL21-CP disebabkan oleh peristiwa kodon bias, dan pemilihan sel inang ekspresi yang kurang tepat.

Expression of gag gene on HIV-1 subtype CRF01_AE in E. coli BL21 and E. coli BL21-CP had been conducted. Gag gene on HIV-1 is one of the genes that can?t be significantly mutated, so it can be utilized for long term vaccines development. HIV vaccine development requires Gag protein as antigen in order to response antibody formation in animal experiment. Gag protein was obtained by gag gene expression that had been cloned into expression vector pQE-81L and transformed into E. coli BL21 and E. coli BL21-CP. Expression of the gag gene as optimized by temperature, isopropyl-β-D-thiogalactopyranoside (IPTG) concentration, and expression time after IPTG induction. The expression was analyzed by SDS-PAGE and it showed no protein produced in all optimization conditions. The failure of gag gene expression in E. coli BL21 and E. coli BL21-CP caused by codon ray and inappropriate host cell."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2013
S44903
UI - Skripsi Membership  Universitas Indonesia Library
cover
Edo Surya Utama
"Reposisi obat merupakan proses penting yang digunakan untuk meningkatkan proses penemuan obat, prosesnya dilakukan dengan memanfaatkan banyaknya sumber data dan tipe data seperti data dari dokumen dan data gene expression. Metode yang digunakan untuk mengolah dokumen adalah Text Mining, metode ini mengekstraksi data menjadi sebuah informasi yang berguna. Data gene expression adalah data hasil hibridisasi terhadap sekuen nukleotida dan dari keseluruhan data gene expression tersebut dipilih satu kelompok kecil gen yang merupakan gen yang aktif berkembang jika seseorang mengidap penyakit kanker. Metode pengelompokan yang diusulkan adalah metode Gene Shaving yang dapat mengidentifikasi himpunan bagian dari data gene expression dengan pola ekspresi yang koheren dan varian tinggi. Salah satu permasalahan di dalam mengolah data dengan tipe data yang berbeda adalah pengintegrasian seluruh data. Pendekatan yang diusulkan pada penelitian ini untuk integrasi data adalah Bayesian Network. Tujuan dari integrasi data adalah untuk memprediksi ikatan antara obat dan penyakit. Hasil prediksi ikatan obat dan penyakit yang didapatkan dari model integrasi data teks dan gene expression adalah 81,69%. Hasil ini meningkat dibandingkan dengan hasil prediksi ikatan obat dan penyakit dengan hanya menggunakan satu tipe data saja, di mana nilai prediksi ikatan obat dan penyakit dengan menggunakan tipe data teks adalah 70,58% dan nilai prediksi ikatan obat dan penyakit menggunakan tipe data gene expression adalah 66%.

Drug repositioning is an important process that is used to enhance the drug discovery process, the process is carried out by using the number of data sources and types of data such as data from gene expression data and documents. Text Mining is one of method to process of text, this method of data extraction into a useful information. Gene expression is the data from the hybridization of the nucleotide sequence and gene expression of the whole data set is selected a small group of genes that are active genes evolve if someone with cancer. Clustering method that proposed is Gene Shaving, that can identify subsets of genes with expression patterns are coherent and high variants. One of the problems in process of data with different data types is integration all of data. The approach proposed in this study for data integration is Bayesian Netwotk. The purpose of data integration is to predict the bond between the drug and disease. The result of drug and disease prediction bond obtained from the integration model was 81,69 %. These results increased compared with the predicted results by using one type of data, PPV`s values prediction of association drug and disease by text data type was 70,58 % whereas PPV`s values prediction of association drug and disease by gene expression data type was 66%."
Depok: Universitas Indonesia, 2015
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Latif Raditya Rusdi
"Triclustering merupakan salah satu teknik data mining yang bertujuan untuk mengelompokkan data berbentuk tiga dimensi secara simultan. Salah satu pendekatan yang digunakan dalam triclustering adalah pendekatan pattern-based, contohnya Timesvector. Metode timesvector dirancang khusus untuk pengelompokan data deret waktu tiga dimensi yang bertujuan menangkap pola ekspresi gen yang sama atau berbeda antara dua atau lebih kondisi eksperimen. Implementasi metode timesvector dilakukan pada data ekspresi gen human embryonic stem cell (H1-hESC) yang diberi protein morfogenetik tulang (BMP4) dan dikondisikan di dalam ruang dengan tingkat oksigen 4% dan 20, serta diamati pada 6 titik waktu berbeda selama 120 jam. Triclustering dilakukan dengan lima skenario menggunakan cluster sejumlah 257 dan threshold yang berbeda. Berdasarkan skenario tersebut, metode timesvector menghasilkan skenario terbaik pada skenario dengan threshold 1,5 yang menggunakan validasi berdasarkan nilai coverage. Berdasarkan hasil skenario terbaik, dihasilkan 9 pola DEP, 24 pola ODEP, dan 37 pola SEP dan dari pola tersebut dilakukan analisis Gene Ontology (GO) untuk mengukur kualitas tricluster dalam penggambaran konsep GO. Analisis GO menggunakan Database for Annotation, Visualization, and Integrated Discovery (DAVID) tools untuk menghitung nilai p-value. Pada analisis GO dipilih p-value terkecil pada pola DEP, ODEP, dan SEP sebagai tricluster terbaik, yaitu DEP pada tricluster ke 8, ODEP pada tricluster ke-1, dan SEP pada tricluster ke-26. Berdasarkan tricluster terbaik pada pola DEP dan ODEP dapat dikatakan bahwa kondisi oksigen tingkat fisiologis 4 % dan tingkat atmosfer 20 % memiliki perbedaan dalam mengidentifikasi gen kandidat pada H1-hESC yang mampu berdiferensiasi menjadi trofoblas, sedangkan SEP tidak memiliki perbedaan dalam mengidentifikasi gen kandidat pada H1-hESC dengan dua kondisi berbeda.

Triclustering is one of the data mining techniques that aims to cluster three-dimensional data simultaneously. One of the approaches used in triclustering is a pattern-based approach, such as Timesvector. The timesvector method is specifically designed for clustering three-dimensional time series data that aims to capture gene expression patterns that are the same or different between two or more experimental conditions. The implementation of the timesvector method was performed on human embryonic stem cell (H1-hESC) gene expression data treated with bone morphogenetic protein (BMP4) and conditioned in a chamber with 4% and 20 oxygen levels and observed at 6 different time points for 120 hours. Triclustering was performed with five scenarios using 257 clusters and different thresholds. Based on these scenarios, the timesvector method produces the best scenario in the scenario with a threshold of 1.5 which uses validation based on the coverage value. Based on the results of the best scenario, 9 DEP patterns, 24 ODEP patterns, and 37 SEP patterns were generated from these patterns. Gene Ontology (GO) analysis was carried out to measure the quality of the tricluster in describing the GO concept. GO analysis uses Database for Annotation, Visualization, and Integrated Discovery (DAVID) tools to calculate the p-value. In the GO analysis, the smallest p value in the DEP, ODEP, and SEP patterns was selected as the best tricluster, namely DEP in the 8th tricluster, ODEP in the 1st tricluster, and SEP in the 26th tricluster. Based on the best tricluster in the DEP and ODEP patterns, it can be said that the oxygen conditions of 4% physiological level and 20% atmospheric level have differences in identifying candidate genes in H1-hESC that are able to differentiate into trophoblasts, while SEP has no difference in identifying candidate genes in H1-hESC with two different conditions."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Shirley Aprilia
"ABSTRAK
Protein adalah salah satu biomakromolekul yang mempunyai peran sangat penting dalam organisme hidup. Semua jenis protein terdiri dari serangkaian kombinasi 20 asam amino. Interaksi Protein-Protein Interaksi PPI memainkan peran penting dalam sebagian besar proses biologis sehingga deteksi interaksi protein-protein PPI pada dasarnya penting untuk memahami mekanisme molekuler dalam sistem biologis. Dengan menggunakan proses komputasi dan menerapkan metode pembelajaran mesin, akan lebih efisien daripada metode eksperimental yang membutuhkan waktu lama dan biaya mahal. Dalam tesis ini penulis menggunakan Discrete Cosine Transform sebagai metode fitur ekstraksi barisan asam amino dan Rotation Forest sebagai model klasifikasi untuk mendapatkan kinerja yang lebih baik daripada metode sebelumnya, seperti Support Vector Machine, Random Forest, dan lain-lain. Hal baru dalam tulisan ini terletak pada interaksi protein protein dengan virus HIV yang menyebabkan AIDS. Hasil penelitian menunjukkan bahwa metode yang diusulkan layak dilakukan, kuat dan dapat digunakan untuk prediksi interaksi protein-protein lainnya dengan akurasi hingga 77 dan metode transformasi Rotation Forest yang menggunakan PCA lebih baik dibandingkan metode transformasi Rotation Forest yang menggunakan IPCA. Terdapat 962 protein yang berpotensi berinteraksi pada PCA dari 4529 potein dan 2902 protein pada IPCA dari 7499 protein.

ABSTRACT
Protein is one of the bio macromolecules that have a very important role in living organisms. All types of proteins consist of a series of combinations of 20 amino acids. Interaction of Protein Protein Interactions PPI plays an important role in most biological processes so that the detection of protein protein interactions PPIs is basically important for understanding molecular mechanisms in biological systems. By using computational processes and applying machine learning methods, it will be more efficient than experimental methods that take a long time and costly. In this thesis the author uses Discrete Cosine Transform as a method of extraction of amino acid sequences and Rotation Forest as a prediction model to get better performance than previous methods, such as Support Vector Machine, Random Forest, etc . The novelty in this paper lies in the interaction of protein proteins with the HIV virus that causes AIDS. The results show that the proposed method is feasible, robust and can be used for the classification of other protein interactions with up to 77 accuracy and Rotation Forest transformation methods using PCA better than Rotation Forest transformation methods using IPCA. There are 962 potentially interacting proteins in the PCA of 4529 potein and 2902 proteins in IPCA of 7499 proteins."
2018
T49487
UI - Tesis Membership  Universitas Indonesia Library
cover
Maria Yovita Agustine, Author
"Resistensi terhadap antibiotik di bidang kesehatan dapat dialami juga oleh antimikroba yang digunakan di bidang pangan. Selama ini di bidang pangan digunakan bakteriosin sebagai antimikroba. Bakteri penghasil bakteriosin terlindungi dari bakteriosin yang dihasilkannya karena memiliki bacteriocin immunity protein (bip). Gen bakteriosin disandikan bersama dengan gen imunitasnya dalam kondisi yang disebut sebagai quorum sensing. Pada penelitian sebelumnya, telah dilakukan konfirmasi uji aktivitas bacteriocin like inhibitory substance (BLIS) Weissella confusa MBF 8-1 terhadap beberapa bakteri patogen. Tujuan penelitian ini adalah mempelajari metode gene silencing dengan menggunakan model aktivitas BLIS dan bip.
Pada penelitian ini dirancang sekuens siRNA bip dengan menggunakan informasi data sekuens dari basis data dan dari data whole genome sequence galur model Weissella confusa MBF8-1. Untuk membuktikan aktivitas gene silencing dari siRNA sintetik tersebut secara in vivo terhadap inang MBF 8-1 maka dilakukan esei zona hambat. Hasil rancangan siRNA yang diperoleh hanya menarget pada gene silencing di MBF 8-1. Berdasarkan analisis algoritma dan BLAST berhasil diperoleh rancangan siRNA kandidat utama, yaitu bip-a MBF 8-1_1 yang secara in vivo menunjukkan aktivitas gene silencing yang poten terhadap inangnya.

Resistance to antibiotics in the health sector can be experienced by antimicrobial in the food industry. During this period, food industry has used bacteriocin as an antimicrobial. Bacteria is protected from its bacteriocin because it has bacteriocin immunity protein (bip). Bacteriocin gene is encoded with its immunity protein gene on a condition which was called as quorum sensing. In previous study, Weissella confusa MBF 8-1 possess Bacteriocin Like Inhibitory Substance (BLIS) activity against several pathogen bacteria. This study aimed to study gene silencing method using BLIS and bip activity as model.
On this study siRNA bip sequence was designed using information from sequence database and model Weissella confusa MBF 8-1 whole genome sequence database. Disc dilution method was done to prove gene silencing activity of synthetic siRNA against its own host MBF 8-1. Result revealed that siRNA design is aimed as a gene silencing agent against MBF 8-1 alone. Based on algorithm analysis and BLAST, top rank bip-a MBF 8-1_1 siRNA design is potent and has proved its gene silencing activity against its own host."
Depok: Universitas Indonesia, 2014
S56357
UI - Skripsi Membership  Universitas Indonesia Library
cover
Teguh Saputra
"

Analisis triclustering merupakan teknik yang mampu mengelompokkan data 3 dimensi secara bersamaan, sehingga dapat diperoleh sub-ruang dari data 3D yang terdiri dari subset observasi (gen), subset kondisi (kondisi) dan subset konteks (waktu). Analisis triclustering  yang  dilakukan  pada  penelitian  ini  yaitu  metode delta-Trimax melalui pendekatan   two-way   K-means.   Tujuan   dari   metode delta-Trimax yaitu menemukan tricluster yang memiliki nilai minimum dari three-dimensial mean square residual (𝑆3) dan volume maksimum. Pendekatan two-way K-means digunakan untuk membentuk suatu populasi awal agar dapat mengurangi beban komputasi dan membantu membentuk tricluster yang lebih baik. Metode ini akan diimplementasikan pada data ekspresi gen kultur HAE (Human Airway Epithelial) yang terinfeksi virus SARS-CoV, SARS-dORF6, SARS-BatSRBD, dan H1N1. Implementasi dilakukan dengan 9 simulasi dan diperoleh simulasi terbaik dengan nilai threshold dari perhitungan MSR sebesar 0.0435, threshold  = 1.7 dan sebanyak 24 tricluster terbentuk berdasarkan penilain triclustering quality index (TQI). Dari himpunan tricluster tersebut diperoleh informasi mengenai perbandingan pola ekspresi gen pada virus SARS-CoV, SARS-dORF6, SARS-BatSRBD dengan virus influenza H1N1. Terdapat 7 tricluster yang memiliki kesamaan pola ekspresi gen di setiap kondisi dan 8 tricluster yang diduga memiliki perbedaan kondisi antara setiap variasi virus SARS- CoV dengan virus influenza H1N1. Pada tricluster lainnya juga diperoleh informasi hanya beberapa variasi Sars-CoV yang memiliki kesamaan satu sama lain dan juga kesamaan atau perbedaan dengan H1N1. Berdasarkan titik waktu diperoleh 3 tricluster tidak memberikan efek karena pola ekspresi gen tiap waktu sama dengan kondisi awal yaitu titik waktu ke-1 dan 17 tricluster diduga memberikan efek paska infeksi. Untuk menilai kualitas hasil tricluster terbentuk dalam penggambaran fungsi biologis dari kumpulan gen pada tricluster dilakukan evaluasi gene ontology (GO). GO adalah sebuah sistem untuk menggambarkan fungsi, biological process, celluler componet gen dan moleculer function dalam berbagai organisme. Dari hasil evaluasi diperoleh sebanyak 20 tricluster yang memiliki keterlibatan dan kaitan kuat dengan setiap konsep GO. Sebanyak 3 tricluster hanya memiliki keterlibatan atau kaitan pada salah satu aspek GO dan 1 tricluster yang memiliki keterlibatan pada semua aspek GO namun hanya pada aspek celuller componet yang memiliki kaitan kuat. Hal ini dapat menjadi acuan bagi peneliti bidang biologi untuk memfokuskan penelitian lebih lanjut dalam pemahaman fungsi biologis pada himpunan tricluster yang memiliki keterlibatan dan kaitan kuat.


Triclustering analysis is a technique capable of clustering three-dimensional data simultaneously, thus obtaining subspaces of the 3D data consisting of subsets of observations (genes), attribute subsets (conditions), and context subsets (time). The triclustering analysis conducted in this research utilizes the δ-Trimax method through a two-way K-means approach. The goal of the δ-Trimax method is to find triclusters that have minimum values of three-dimensional mean square residu MSR_3D and maximum volume. The two-way K-means approach is used to form an initial population to reduce computational burden and aid in forming better triclusters. This method will be implemented on gene expression data from HAE (Human Airway Epithelial) cultures infected with SARS-CoV, SARS-dORF6, SARS-BatSRBD, and H1N1 viruses. The implementation is carried out through 9 simulations, and the best simulation is obtained with a threshold value of δ calculated from MSR of 0.0435, a threshold value of λ=1.7, resulting in 24 formed triclusters based on the triclustering quality index (TQI) assessment. From the set of triclusters, information regarding the comparison of gene expression patterns between SARS-CoV, SARS-dORF6, SARS-BatSRBD viruses and H1N1 influenza virus is obtained. There are 7 triclusters that exhibit similar gene expression patterns across all conditions, and 8 triclusters that are suspected to have condition differences between various SARS-CoV viruses and the H1N1 virus. Other triclusters also provide information where only certain SARS-CoV variations share similarities with each other or similarities or differences with H1N1. Based on the time points, 3 triclusters show no effect as their gene expression patterns remain the same as the initial condition (time point 1), while 17 triclusters are suspected to have post- infection effects. To assess the quality of the formed triclusters in terms of biological function representation of the gene sets within the triclusters, an evaluation of gene ontology (GO) is performed. GO is a system for describing the functions, biological processes, cellular components, and molecular functions of genes across various organisms. The evaluation method involves the Database for Annotation, Visualization, and Integrated Discovery (DAVID) in calculating p-values. The evaluation results reveal that 20 triclusters have strong involvement and correlation with each GO concept. Three triclusters only exhibit involvement or correlation in one specific aspect of GO, and one tricluster exhibits involvement in all GO aspects, but with a strong correlation only in the cellular component aspect. This information can serve as a reference for researchers in the field of biology to focus further research on understanding the biological functions within tricluster sets that have strong involvement and correlation.

"
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Teguh Saputra
"

Analisis triclustering merupakan teknik yang mampu mengelompokkan data 3 dimensi secara bersamaan, sehingga dapat diperoleh sub-ruang dari data 3D yang terdiri dari subset observasi (gen), subset kondisi (kondisi) dan subset konteks (waktu). Analisis triclustering  yang  dilakukan  pada  penelitian  ini  yaitu  metode delta-Trimax melalui pendekatan   two-way   K-means.   Tujuan   dari   metode delta-Trimax yaitu menemukan tricluster yang memiliki nilai minimum dari three-dimensial mean square residual (𝑆3) dan volume maksimum. Pendekatan two-way K-means digunakan untuk membentuk suatu populasi awal agar dapat mengurangi beban komputasi dan membantu membentuk tricluster yang lebih baik. Metode ini akan diimplementasikan pada data ekspresi gen kultur HAE (Human Airway Epithelial) yang terinfeksi virus SARS-CoV, SARS-dORF6, SARS-BatSRBD, dan H1N1. Implementasi dilakukan dengan 9 simulasi dan diperoleh simulasi terbaik dengan nilai threshold dari perhitungan MSR sebesar 0.0435, threshold  = 1.7 dan sebanyak 24 tricluster terbentuk berdasarkan penilain triclustering quality index (TQI). Dari himpunan tricluster tersebut diperoleh informasi mengenai perbandingan pola ekspresi gen pada virus SARS-CoV, SARS-dORF6, SARS-BatSRBD dengan virus influenza H1N1. Terdapat 7 tricluster yang memiliki kesamaan pola ekspresi gen di setiap kondisi dan 8 tricluster yang diduga memiliki perbedaan kondisi antara setiap variasi virus SARS- CoV dengan virus influenza H1N1. Pada tricluster lainnya juga diperoleh informasi hanya beberapa variasi Sars-CoV yang memiliki kesamaan satu sama lain dan juga kesamaan atau perbedaan dengan H1N1. Berdasarkan titik waktu diperoleh 3 tricluster tidak memberikan efek karena pola ekspresi gen tiap waktu sama dengan kondisi awal yaitu titik waktu ke-1 dan 17 tricluster diduga memberikan efek paska infeksi. Untuk menilai kualitas hasil tricluster terbentuk dalam penggambaran fungsi biologis dari kumpulan gen pada tricluster dilakukan evaluasi gene ontology (GO). GO adalah sebuah sistem untuk menggambarkan fungsi, biological process, celluler componet gen dan moleculer function dalam berbagai organisme. Dari hasil evaluasi diperoleh sebanyak 20 tricluster yang memiliki keterlibatan dan kaitan kuat dengan setiap konsep GO. Sebanyak 3 tricluster hanya memiliki keterlibatan atau kaitan pada salah satu aspek GO dan 1 tricluster yang memiliki keterlibatan pada semua aspek GO namun hanya pada aspek celuller componet yang memiliki kaitan kuat. Hal ini dapat menjadi acuan bagi peneliti bidang biologi untuk memfokuskan penelitian lebih lanjut dalam pemahaman fungsi biologis pada himpunan tricluster yang memiliki keterlibatan dan kaitan kuat.


Triclustering analysis is a technique capable of clustering three-dimensional data simultaneously, thus obtaining subspaces of the 3D data consisting of subsets of observations (genes), attribute subsets (conditions), and context subsets (time). The triclustering analysis conducted in this research utilizes the δ-Trimax method through a two-way K-means approach. The goal of the δ-Trimax method is to find triclusters that have minimum values of three-dimensional mean square residu MSR_3D and maximum volume. The two-way K-means approach is used to form an initial population to reduce computational burden and aid in forming better triclusters. This method will be implemented on gene expression data from HAE (Human Airway Epithelial) cultures infected with SARS-CoV, SARS-dORF6, SARS-BatSRBD, and H1N1 viruses. The implementation is carried out through 9 simulations, and the best simulation is obtained with a threshold value of δ calculated from MSR of 0.0435, a threshold value of λ=1.7, resulting in 24 formed triclusters based on the triclustering quality index (TQI) assessment. From the set of triclusters, information regarding the comparison of gene expression patterns between SARS-CoV, SARS-dORF6, SARS-BatSRBD viruses and H1N1 influenza virus is obtained. There are 7 triclusters that exhibit similar gene expression patterns across all conditions, and 8 triclusters that are suspected to have condition differences between various SARS-CoV viruses and the H1N1 virus. Other triclusters also provide information where only certain SARS-CoV variations share similarities with each other or similarities or differences with H1N1. Based on the time points, 3 triclusters show no effect as their gene expression patterns remain the same as the initial condition (time point 1), while 17 triclusters are suspected to have post- infection effects. To assess the quality of the formed triclusters in terms of biological function representation of the gene sets within the triclusters, an evaluation of gene ontology (GO) is performed. GO is a system for describing the functions, biological processes, cellular components, and molecular functions of genes across various organisms. The evaluation method involves the Database for Annotation, Visualization, and Integrated Discovery (DAVID) in calculating p-values. The evaluation results reveal that 20 triclusters have strong involvement and correlation with each GO concept. Three triclusters only exhibit involvement or correlation in one specific aspect of GO, and one tricluster exhibits involvement in all GO aspects, but with a strong correlation only in the cellular component aspect. This information can serve as a reference for researchers in the field of biology to focus further research on understanding the biological functions within tricluster sets that have strong involvement and correlation.

"
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kinanty Tasya Octaviane
"Teknologi DNA microarray menghasilkan data ekspresi gen yang dapat digunakan untuk membantu berbagai pemecahan masalah dalam dunia kesehatan. Data ekspresi gen merupakan matriks berukuran besar berisi gen dan kondisi eksperimental yang tak jarang mengandung missing values dan outlier. Data yang mengandung missing values dapat mengganggu dan membatasi analisis. Untuk mengatasinya, metode komputasi dinilai layak untuk imputasi missing values pada data ekspresi gen sebelum dilakukan analisis lanjutan, terlebih untuk data yang memiliki outlier. Oleh karena itu, pada penelitian ini digunakan metode imputasi missing values NCBI-LPCM untuk mengatasi permasalahan missing values pada data ekspresi gen yang memiliki outlier. Metode NCBI-LPCM menggunakan ukuran korelasi LPCM yang dapat menangani keberadaan outlier untuk pembentukan bicluster dan imputasi least square yang merupakan metode imputasi dengan pendekatan lokal. LPCM mengidentifikasi gen-gen yang memiliki pola korelasi similar sehingga menjadi informasi lokal untuk dasar imputasi. Metode ini diterapkan pada data ekspresi gen pasien Leukemia Limfoblastik Akut pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35%. Berdasarkan RMSE dan korelasi Pearson, metode NCBI-LPCM lebih baik jika dibandingkan dengan NCBI-SSSim yang juga dapat menangani keberadaan outlier.

DNA microarray technology produces gene expression data that can be used to help solve various problems in healthcare. Gene expression data is a large matrix of genes and experimental conditions that often contains missing values and outliers. Data containing missing values can interfere with and limit analyses. To overcome this, computational methods are considered feasible for imputing missing values in gene expression data before further analysis is carried out, especially for data that has outliers. Therefore, in this study, the NCBI-LPCM missing values imputation method was used to overcome the problem of missing values in gene expression data with outliers. The NCBI-LPCM method uses the LPCM correlation measure which can handle the presence of outliers for bicluster formation and least square imputation which is an imputation method with a local approach. LPCM identifies genes that have similar correlation patterns so that they become local information for the basis of imputation. This method was applied to gene expression data of Acute Lymphoblastic Leukaemia patients at missing rates of 5%, 10%, 15%, 20%, 25%, 30%, and 35%. Based on RMSE and Pearson correlation, the NCBI- LPCM method is better than NCBI-SSSim which can also handle the presence of outliers."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>