Hasil Pencarian

Ditemukan 4 dokumen yang sesuai dengan query

Aisyah Gefira

Triclustering dengan Coarse-Grain Parallel Genetic Algorithm Menggunakan Identifikasi Gene Ontology dan KEGG Pathway pada Data Ekspresi Gen Microarray = Triclustering with Coarse-Grain Parallel Genetic Algorithm Using Gene Ontology and KEGG Pathway Identification on Microarray Gene Expression Data

"Teknologi microarray adalah teknologi di bidang bioinformatika yang digunakan untuk mengukur ekspresi gen dalam berbagai kondisi eksperimental dan menghasilkan data ekspresi gen. Salah satu metode yang dapat digunakan untuk menganalisis data ekspresi gen adalah triclustering, Triclustering adalah metode pengelompokan data tiga dimensi berdasarkan karakteristik yang serupa. Berbagai algoritma seperti TriGen, δ-Trimax dan EMOA-δ-Trimax dikembangkan untuk melakukan triclustering. Namun, seluruh algoritma tersebut menghadapi masalah yang sama, yaitu waktu komputasi yang lama. Penelitian ini menggunakan Coarse-grain Parallel Genetic Algorithm (CgPGA) untuk mengatasi tantangan waktu komputasi pada triclustering. Algoritma ini membagi data menjadi beberapa subpopulasi dan menjalankan proses evolusi genetik secara paralel menggunakan enam core. Penelitian ini mengusulkan penggunaan CgPGA untuk mempercepat proses triclustering pada data ekspresi gen darah microarray tiga dimensi yang dipengaruhi empat jenis minuman dan diukur pada lima titik waktu. Kualitas tricluster dievaluasi menggunakan fitness function yang diadaptasi dari Mean Square Residue (MSR), weights, dan distinction. Hasil penelitian ini menunjukkan bahwa CgPGA secara signifikan mengurangi waktu komputasi dengan bekerja 18,24 kali lebih cepat dibandingkan dengan Genetic Algorithm secara serial yang diukur dengan speedup. CgPGA berhasil diterapkan untuk melakukan triclustering pada data ekspresi gen tiga dimensi microarray berdasarkan kemiripan pola ekspresi gen. 10 tricluster yang dihasilkan memiliki kombinasi gen, kondisi, dan waktu yang beragam, serta memiliki fitness score tinggi yang berkisar antara 2514,542745 hingga 2568,106026. Tricluster 5 memiliki fitness score tertinggi yaitu sebesar 2568,106026. Selanjutnya, hasil triclustering dianalisis menggunakan Gene Ontology (GO) dan KEGG Pathway untuk mengidentifikasi informasi gen dan interaksi antar gen di dalam tricluster. Hasil penelitian menunjukkan bahwa GO berhasil mengidentifikasi gen-gen di dalam tricluster dalam aspek proses biologis, fungsi molekuler, dan komponen seluler. Analisis KEGG Pathway menunjukkan bahwa gen-gen di dalam tricluster berpartisipasi dalam berbagai jalur biokimia, salah satunya adalah jalur diabetic cardiomyopathy. Secara keseluruhan, penelitian ini memberikan kontribusi signifikan dalam analisis data genomik dengan mengimplementasikan teknik triclustering menggunakan CgPGA yang efektif dan efisien, serta memperluas pengetahuan tricluster melalui identifikasi informasi genetik yang relevan dan meningkatkan pemahaman tentang interaksi biologis yang terjadi pada suatu kelompok gen berpola ekspresi serupa menggunakan GO dan KEGG Pathway.

Microarray technology is a bioinformatics tool utilized to measure gene expression across various experimental conditions, generating comprehensive gene expression data. Triclustering, a method for clustering three-dimensional data based on similar characteristics, is one approach to analyzing this data. Despite the development of several algorithms for triclustering, such as TriGen, Î´-Trimax, and EMOA-Î´-Trimax, they all encounter the challenge of lengthy computation times. This study addresses this issue by employing the Coarse-grain Parallel Genetic Algorithm (CgPGA). The algorithm mitigates computational time by dividing the data into several subpopulations and executing the genetic evolution process in parallel across six cores. The study demonstrates the application of CgPGA to expedite the triclustering process on three dimensional microarray blood gene expression data, influenced by four types of beverages and measured at five different time points. The triclusters' quality is assessed using a fitness function adapted from Mean Square Residue (MSR), weights, and distinction. Results indicate that CgPGA significantly reduces computation time, operating 18,24 times faster than the serial Genetic Algorithm as measured by speedup. CgPGA effectively performs triclustering on three-dimensional microarray gene expression data. The 10 resulting triclusters exhibit diverse combinations of genes, conditions, and time points, and have high fitness scores ranging from 2514.542745 to 2568.106026. Tricluster 5 has the highest fitness score of 2568.106026. Further analysis of the triclustering results using Gene Ontology (GO) and KEGG Pathway reveals gene information and interactions within the triclusters. GO analysis successfully identifies genes within the triclusters in terms of biological processes, molecular functions, and cellular components, while KEGG Pathway analysis shows that the genes participate in various biochemical pathways, including the diabetic cardiomyopathy pathway. Overall, this study significantly contributes to genomic data analysis by implementing an efficient and effective triclustering technique using CgPGA, expanding the understanding of triclusters by identifying relevant genetic information, and enhancing the comprehension of biological interactions within gene groups exhibiting similar expression patterns using GO and KEGG Pathway."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ghani Deori

Klasifikasi sekuens protein coronavirus penyebab COVID-19 menggunakan metode Naive Bayes dengan seleksi fitur Lasso = Classification of coronavirus protein sequences cause COVID-19 using Naive Bayes method with LASSO feature selection

"SARS-COV-2 merupakan jenis virus yang menyebabkan pandemi COVID-19. Pandemi COVID-19 pertama kali terdeteksi di Wuhan, Cina. Berdasarkan data World Health Organization (WHO), jumlah orang yang telah terpapar COVID-19 adalah 123.216.178 orang dan 2.714.517 orang meninggal akibat COVID-19 berdasarkan data www.who.int pada tanggal 23 Maret 2021. Pada skripsi ini, dilakukan klasifikasi untuk SARS-COV-2 dengan menggunakan sekuens protein dari SARS-COV-2. Sekuens protein SARS-COV- 2 di ekstraksi fitur dengan menggunakan package discere dari Python. Package discere akan menghasilkan 27 fitur, dimana fitur-fitur diseleksi dengan menggunakan metode LASSO (Least Absolute Shrinkage and Selection Operator). Setelah dilakukan seleksi fitur, dilakukan klasifikasi dengan menggunakan dua metode, yaitu metode Absolute Correlation Weighted Naïve Bayes dan metode Naïve Bayes. Rata-rata akurasi, sensitifitas, dan spesifisitas tertinggi untuk metode Absolute Correlation Weighted Naïve Bayes berturut-turut adalah 81,85%, 74,81%, dan 89,19%, sedangkan rata-rata akurasi, sensitifitas, dan spesifisitas tertinggi untuk metode Naïve Bayes berturut-turut adalah 81,44%, 74,58%, dan 88,24%. Terlihat bahwa metode Absolute Correlation Weighted Naïve Bayes mempunyai rata-rata akurasi, sensitifitas, dan spesifisitas yang lebih tinggi dibandingkan dengan metode Naïve Bayes.

SARS-COV-2 is the type of virus that causes the COVID-19 pandemic. The COVID-19 pandemic was first detected in Wuhan, China. Based on data from the World Health Organization (WHO), the number of people who have been exposed to COVID-19 is 123,216,178 people and 2,714,517 people died from COVID-19 based on data from www.who.int on March 23, 2021. In this paper, the SARS-COV-2 classification is done by using the protein sequence of SARS-COV-2. The SARS-COV-2 protein sequence will be feature extraction using the discere package from Python. The discere package will produce 27 features, where the features are selected using the LASSO (Least Absolute Shrinkage and Selection Operator) method. After feature selection, classification is carried out using two methods, namely the Absolute Correlation Weighted Naïve Bayes method and the Naïve Bayes method. The highest average accuracy, sensitivity, and specificity for the Absolute Correlation Weighted Naïve Bayes method are 81.85%, 74.81%, and 89.19%, respectively, whereas the highest average accuracy, sensitivity, and specificity for the Naïve Bayes method are 81.44%, 74.58%, and 88.24%, respectively. It can be seen that the Absolute Correlation Weighted Naïve Bayes method has a higher average accuracy, sensitivity, and specificity than the Naïve Bayes method."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Amin Nur Ambarwati

Analisis performa metode Convolutional Neural Network (CNN) pada fungsi aktivasi ReLU dan Mish dalam mendeteksi penyakit katarak pada data Citra Fundus = Performance analysis of Convolutional Neural Network (CNN) methods with ReLU and Mish activation functions in detecting cataract disease in Fundus Image

"Katarak merupakan keadaan di mana lensa mata yang biasanya terlihat jernih dan bening menjadi keruh yang disebabkan oleh sebuah kumpulan protein yang terletak di depan retina. Hal ini menyebabkan jaringan lensa mata mulai rusak dan menggumpal, sehingga berkurangnya cahaya yang masuk ke retina dan pandangan akan terlihat buram, kurang berwarna, serta dapat menyebabkan kebutaan yang permanen. Mendiagnosis penyakit katarak pada seseorang dapat menggunakan proses pemeriksaan citra fundus, hasil dari citra fundus kemudian dideteksi menggunakan salah satu pendekatan deep learning. Dalam penelitian ini, digunakan pendekatan deep learning yaitu metode Convolutional Neural Networks (CNN) classic dan CNN LeNet-5 pada fungsi aktivasi ReLU dan Mish dalam mendeteksi katarak. Data yang digunakan dalam penelitian ini yaitu data ODR yang merupakan online database yang berisi citra fundus dengan bervariasi ukuran citra. Dataset kemudian memasuki tahap preprocessing dalam meningkatkan performa model seperti mengkonversikan citra RGB menjadi grayscale dari intensitas green channel, kemudian menerapkan proses binerisasi citra menggunakan thresholding untuk menyesuaikan target atau label berdasarkan diagnosis dokter dan mengetahui tingkat kerusakan bagian mata dalam mendeteksi mata mengalami katarak atau tidak. Hasil performa pada penelitian ini menunjukkan bahwa model CNN LeNet-5 dengan fungsi aktivasi Mish lebih baik dibandingkan model CNN clasic dengan fungsi aktivasi Mish dalam mendeteksi penyakit katarak. Hasil performa keseluruhan yang optimal pada penelitian ini berdasarkan nilai accuracy, precision, recall, dan F1- score secara berturut- turut yaitu 87%, 87,5%, 89,3%, 86,7%, dengan running time yang dibutuhkan pada training 95,67 detik dan testing 0,1859 detik.

Cataract is a condition in which the normally clear lens of the eye becomes cloudy due to a collection of proteins located in front of the retina. This causes the tissue of the eye's lens to begin to break down and clot, resulting in less light entering the retina and blurred vision, lack of color, and can lead to permanent blindness. Diagnosing cataracts in a person can use the process of examining the fundus image, the results of the fundus image are then detected using one of the deep learning approaches. In this study, a deep learning approach was used, namely Convolutional Neural Networks (CNN) classic and CNN LeNet-5 method on the ReLU and Mish activation functions in detecting cataracts. The data used in this study is ODR data which is an online database containing fundus images with varying image sizes. The dataset then enters the preprocessing stage to improve model performance, such as converting the RGB image to grayscale from the intensity of the green channel, then applying a binary image process using thresholding to adjust the target or label based on the doctor's diagnosis and determine the level of eye damage to detect cataracts or not. The performance results in this study indicate that the CNN LeNet- 5 model with Mish activation function is better than the CNN classic model with Mish activation function in detecting cataract disease. Optimal overall performance results in this study are based on the values of accuracy, precision, recall, and F1-score, respectively, namely 87%, 87,5%, 89,3%, 86,7%, with the running time required for training 95,67 seconds and testing 0,1859 seconds."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Maria Angelica Christabel

Clustering Analysis Using Link-Based Cluster Ensemble Method on Poverty Data in Indonesia = Analisis Clustering dengan Metode Link-Based Cluster Ensemble pada Data Kemiskinan di Indonesia

"Poverty is still a serious challenge for all countries in the world, including Indonesia. The Central Statistics Agency (BPS) noted that 25.9 million people were still living in poverty as of March 2023. The challenge of inefficient and poorly targeted budget distribution in some programs hampers poverty alleviation efforts. In line with that, the objective of this study is to categorize provinces based on poverty indicators to provide an understanding of the characteristics and patterns of poverty in various Indonesian provinces. This research uses the Link-based Cluster Ensemble method, which combines various solutions from different clustering methods, namely K-medoids and Agglomerative Hierarchical Clustering to obtain more optimal results. The final result of ensemble clustering is obtained through a similarity matrix by applying the Connected-Triple-based Similarity (CTS) algorithm, which utilizes pairwise similarity relationships between all data points. The data for this study comes from BPS regarding Poverty Data in Indonesia in 2023, with the selection of variables that can reveal the characteristics of poverty in Indonesia, such as aspects of education, employment, expenditure, and household facilities. The results showed that the Link-based Cluster Ensemble method, which was formed through a three-member ensemble from the results of K-Medoids and Agglomerative Hierarchical Clustering, successfully outperformed the single clustering method based on cluster evaluation values using Silhouette, Davies-Bouldin, and Dunn Index. The results grouped the provinces into four clusters: Cluster 1 reveals poverty conditions with low education participation and sanitation facilities, Cluster 2 with low education and high expenditure, Cluster 3 with high unemployment, and Cluster 4 with low clean water facilities.

Kemiskinan masih menjadi tantangan serius bagi seluruh negara di dunia, termasuk Indonesia. Badan Pusat Statistik(BPS) mencatat sebanyak 25,9 juta masyarakat masih hidup dalam kemiskinan per Maret 2023. Tantangan dalam penyaluran anggaran yang tidak efisien dan tepat sasaran pada beberapa program menghambat upaya pengentasan kemiskinan. Sejalan dengan hal itu, tujuan dari penelitian ini adalah mengelompokkan provinsi berdasarkan indikator kemiskinan untuk memberikan pemahaman tentang karakteristik dan pola kemiskinan di berbagai provinsi Indonesia. Penelitian ini menggunakan metode Link-based Cluster Ensemble, yang menggabungkan berbagai solusi dari metode pengelompokan berbeda, yaitu K-medoids dan Agglomerative Hierarchical Clustering untuk mendapatkan hasil yang lebih optimal. Hasil akhir pengelompokan ensemble diperoleh melalui similarity matrix dengan menerapkan algoritma Connected-Triple-based Similarity (CTS), yang memanfaatkan hubungan kesamaan berpasangan antara seluruh titik data. Data penelitian ini berasal dari BPS mengenai Data Kemiskinan di Indonesia tahun 2023, dengan pemilihan variabel yang dapat mengungkapkan karakteristik kemiskinan di Indonesia, seperti aspek pendidikan, ketenagakerjaan, pengeluaran konsumsi, dan fasilitas rumah tangga. Hasil penelitian menunjukkan bahwa metode Link-based Cluster Ensemble, yang dibentuk melalui tiga anggota ensemble dari hasil pengelompokan K-Medoids dan Agglomerative Hierarchical Clustering, berhasil mengungguli metode pengelompokan tunggal berdasarkan nilai evaluasi cluster menggunakan Silhouette, Davies-Bouldin, dan Dunn Index. Hasil penelitian mengelompokkan provinsi ke dalam empat cluster: Cluster 1 mengungkapkan kondisi kemiskinan dengan aspek partisipasi pendidikan dan fasilitas sanitasi yang rendah, Cluster 2 dengan kondisi aspek pendidikan yang rendah dan pengeluaran konsumsi yang tinggi, Cluster 3 dengan kondisi pengangguran yang tinggi, dan Cluster 4 dengan kondisi fasilitas air bersih yang rendah."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian