Salah satu teknik analisis yang dapat digunakan pada data mining dalam mengelompokkan data adalah Triclustering. Triclustering merupakan metode pengelompokan secara bersamaan pada data tiga dimensi yang terdiri dari observasi, atribut, dan konteks. Triclustering kerap digunakan pada bidang bioinformatika untuk mengelompokkan data ekspresi gen di titik waktu tertentu pada suatu kondisi eksperimen. Triclustering yang diajukan pada penelitian ini menggunakan metode Hybrid – TRIMAX Binary Particle Swarm Optimization. Particle Swarm Optimization (PSO) adalah teknik pengelompokan yang terinspirasi oleh perilaku biologis populasi ikan atau kawanan burung yang bergerak untuk menuju sumber makanan. Setiap individu di dalam populasi disebut sebagai partikel yang didefinisikan sebagai kandidat solusi (tricluster). Istilah “Binary” mengartikan bahwa partikel yang bergerak di ruang pencarian berbentuk vektor biner (bit) yang bernilai 0 atau 1. Tahap inisiasi populasi dilakukan dengan menggunakan algoritma nodes deletion pada – TRIMAX untuk menghasilkan populasi awal yang homogen. Metode – TRIMAX dapat menghasilkan tricluster dengan nilai Mean Residual Square (MSR) lebih kecil dari threshold ð¿ sehingga dapat meningkatkan efektifitas komputasi dari metode Hybrid – TRIMAX Binary Particle Swarm Optimization. Algoritma gabungan kemudian diimplementasikan pada data ekspresi gen tiga dimensi sel kanker pankreas PANC-1 yang diberikan obat kemoterapi ATO, JQ1, dan kombinasi keduanya pada 3 titik waktu. Diperoleh tricluster optimum dengan skenario 0,0003; 0,8; 0,2; dan tipe neighbourhood = “Gbest”. Tricluster tersebut memiliki nilai TQI sebesar 1,427E-09 dan volume tricluster sebesar 169.410. Berdasarkan tricluster optimum, diperoleh informasi mengenai kumpulan gen yang tidak merespon baik terhadap pengobatan JQ1 dan JQ1+ATO pada jangka waktu menengah dan panjang. Hasil analisis ontologi gen menunjukkan tiga aspek ontologi yang signifikan dengan p-value < 0,05, yaitu proses biologi, fungsi molekuler, dan komponen seluler. Diperoleh gen yang resisten terhadap pengobatan terlibat dalam proses biologi metabolisme sel dan pengembangan sel yang mempertahankan kehidupan sel. Pada aspek fungsi molekuler, gen berperan dalam proses pengikatan, seperti pengikatan ion, senyawa organik siklik, dan senyawa heterosiklik, serta aktivitas katalitik. Selain itu, juga ditemukan bahwa sebagian besar gen berlokasi pada sitoplasma, organel, dan nukleus dalam komponen seluler. Aspek-aspek dari ontologi gen dapat berkontribusi pada resistensi kumpulan gen dalam sel kanker PANC-1 terhadap pengobatan.
One of the analysis techniques that can be used in data mining to group data is Triclustering. Triclustering is a method of simultaneously grouping three-dimensional data consisting of observations, attributes, and context. Triclustering analysis is often used in the field of bioinformatics to group gene expression data at certain time points under experimental conditions. The triclustering analysis proposed in this study used the Hybrid – TRIMAX Binary Particle Swarm Optimization method. Particle Swarm Optimization (PSO) is a clustering technique inspired by the biological behavior of fish populations or flocks of birds that move towards food sources. Each individual in the population is referred as particles which are defined as candidate solutions (tricluster). The term "Binary" means that the particles move in the search space in the form of binary vectors (bits) with a value of 0 or 1, the number "1" represents that an individual is present in the particle. The population initialization stage is carried out using the nodes deletion algorithm in δ-TRIMAX to produce a homogeneous initial population. The δ-TRIMAX method can generate a tricluster with a Mean Residual Square (MSR) value smaller than the threshold ð¿ so that it can increase the computational effectiveness of the Hybrid δ-TRIMAX Binary Particle Swarm Optimization method. The combined algorithm then implemented on three-dimensional gene expression data of PANC-1 pancreatic cancer cells given ATO, JQ1, and a combination of both chemotherapy drugs at three time points. The optimum tricluster was obtained with scenario 0,0003; 0,8; 0,2; and neighborhood type = "Gbest". The tricluster has a TQI value of 1.427E-09 and a tricluster volume of 169,410. Based on the optimum tricluster, information was obtained about the gene pools that did not respond well to JQ1 and JQ1+ATO treatment in the medium and long term. The results of gene ontology analysis showed three significant ontological aspects with p-value <0.05, namely biological processes, molecular functions, and cellular components. It was found that treatment-resistant genes are involved in the biological process of cell metabolism and cell development that maintains cell life. In the aspect of molecular function, genes play a role in binding processes, such as ion binding, cyclic organic compounds, and heterocyclic compounds, as well as catalytic activity. In addition, it was also found that most genes are located in the cytoplasm, organelles, and nucleus in cellular components. These aspects of the gene ontology may contribute to the resistance of the gene pool in PANC-1 cancer cells to treatment.
"Analisis triclustering merupakan pengembangan dari analisis clustering dan analisis biclustering. Tujuan dari analisis triclustering yaitu mengelompokkan data tiga dimensi secara simultan atau bersamaan. Data tiga dimensi tersebut dapat berupa observasi, atribut, dan konteks. Salah satu pendekatan yang digunakan dalam analisis triclustering, yaitu pendekatan berdasarkan pattern contohnya, adalah metode Timesvector. Metode Timesvector bertujuan untuk mengelompokkan matriks data yang menunjukkan pola yang sama atau berbeda pada data tiga dimensi. Metode Timesvector memiliki langkah kerja yang dimulai dengan mereduksi matriks data tiga dimensi menjadi matriks data dua dimensi untuk mengurangi kompleksitas dalam pengelompokkan. Pada metode ini akan digunakan algoritma Spherical K-means dalam pengelompokkannya. Tahap selanjutnya, yaitu mengidentifikasi pola dari cluster yang dihasilkan pada Spherical K-means. Pola yang dimaksud terdiri dari tiga jenis, yaitu DEP (Differentially Expressed Pattern), ODEP (One Differentially Expressed Pattern), dan SEP (Similarly Expressed Pattern). Penerapan dari metode Timesvector dilakukan pada data ekspresi gen yaitu data tumor otak yang dilakukan dalam 6 skenario. Masing-masing skenario menggunakan banyak cluster yang sama tetapi nilai threshold yang berbeda-beda. Hasil dari ke enam skenario akan divalidasi menggunakan nilai coverage dan nilai tricluster diffusion (TD). Hasil penerapan metode timesvector menunjukkan bahwa dengan menggunakan threshold sebesar 1,5 memberikan hasil yang paling optimal karena memiliki nilai coverage yang tinggi sebesar 57% dan nilai TD yang rendah sebesar 2,95594E-06. Nilai coverage yang tinggi menunjukkan kemampuan metode dalam mengekstrak data dan nilai TD yang rendah menunjukkan bahwa tricluster yang dihasilkan memiliki volume yang besar dan koherensi yang tinggi. Berdasarkan pola yang dihasilkan menggunakan skenario yang optimal diperoleh sebanyak 49 ODEP cluster dengan pasien ke-empat selalu memiliki pola ekspresi yang berbeda dibandingkan dengan pasien lainya. Hal ini dapat digunakan oleh ahli medis untuk melakukan tindakan selanjutnya terhadap pasien tumor otak.
Triclustering analysis is the development of clustering analysis and biclustering analysis. The purpose of triclustering analysis is to group three-dimensional data simultaneously or simultaneously. The three-dimensional data can be in the form of observations, attributes, and context. One of the approaches used in triclustering analysis, namely an approach based on a pattern, for example, is the Timesvector method. Timesvector method aims to group data matrices that show the same or different patterns in three-dimensional data. The Timesvector method has a work step that starts with reducing the three-dimensional data matrix to a two-dimensional data matrix to reduce complexity in a grouping. In this method, the Spherical K-means algorithm will be used in grouping it. The next step is to identify the pattern of the clusters generated in the Spherical K-means. The pattern referred to consists of three types, namely DEP (Differentially Expressed Pattern), ODEP (One Differentially Expressed Pattern), and SEP (Similar Expressed Pattern). The application of the Timesvector method was carried out on gene expression data, namely brain tumor data carried out in 6 scenarios. Each scenario uses the same many clusters but different threshold values. The results of the six scenarios will be validated using the coverage value and the tricluster diffusion (TD) value. The results of applying the timesvector method show that using a threshold of 1.5 gives the most optimal results because it has a high coverage value of 57% and a low TD value of 2.95594E-06. A high coverage value indicates the method's ability to extract data and a low TD value indicates that the resulting tricluster has a large volume and high coherence. Based on the pattern generated using the optimal scenario, there were 49 ODEP clusters with the fourth patient always having a different expression pattern compared to other patients. This can be used by medical experts to perform further action on brain tumor patients.
"
Analisis triclustering merupakan teknik analisis pada data 3D (observasi – atribut – konteks). Analisis triclustering dapat mengelompokkan observasi pada beberapa atribut dan konteks secara bersamaan. Analisis triclustering telah sering diterapkan untuk menganalisis data ekspresi gen microarray. Penelitian ini menggunakan metode δ-Trimax untuk melakukan analisis triclustering pada data ekspresi gen microarray. Metode δ-Trimax bertujuan untuk menemukan tricluster yang memiliki mean square residual kecil dari δ dan volume maksimal. Tricluster diperoleh dengan cara melakukan penghapusan node dari data 3D dengan menggunakan algoritma multiple node deletion dan single node deletion. Kandidat tricluster yang telah didapatkan, dilakukan pengecekan kembali dengan menambahkan beberapa node yang telah dihapus sebelumnya menggunakan algoritma node addition. Pada penelitian ini dilakukan perbaikan program pada metode δ-Trimax dan juga menambahkan penghitungan evaluasi tricluster yang dihasilkan. Implementasi metode δ-Trimax dilakukan pada data ekspresi gen dari proses diferensiasi human induced pluripoten stem cell (HiPSC) dari pasien penyakit jantung. Ekspresi gen diukur pada 12 titik waktu dan 3 replikasi. Dari beberapa simulasi yang dilakukan, metode δ-Trimax memberikan hasil terbaik ketika δ=0,0068 dan λ=1,2. Berdasarkan tricluster yang dihasilkan dari simulasi terbaik tersebut, dipilih 5 tricluster yang diduga sebagai ciri-ciri penyakit jantung. Lima tricluster ini dapat menjadi pertimbangan bagi ahli medis untuk melakukan tindakan lebih lanjut terhadap pasien.
Triclustering analysis is an analysis technique on 3D data (observation - attribute - context). Triclustering analysis can group observations on several attributes and contexts simultaneously. Triclustering analysis has been frequently applied to analyze microarray gene expression data. This study used the δ-Trimax method to perform triclustering analysis on microarray gene expression data. The δ-Trimax method aims to find a tricluster that has a mean square residual smaller than δ and a maximum volume. Tricluster is obtained by deleting nodes from 3D data using multiple node deletion and single node deletion algorithms. The tricluster candidates that have been obtained are checked again by adding some previously deleted nodes using the node addition algorithm. In this research, the program improvement of the δ-Trimax method was carried out and also the calculation of the resulting tricluster evaluation. The implementation of the δ-Trimax method was carried out on gene expression data from the differentiation process of human induced pluripotent stem cells (HiPSC) from patients with heart disease. Gene expression was measured at 12 time points and 3 replications. From several simulations performed, the δ-Trimax method gives the best results when δ = 0.0068 and λ = 1.2. Based on the tricluster generated from the best simulation, 5 tricluster were selected which were suspected as a characteristic of heart disease. These five tricluster can be a consideration for medical experts to take further action on patients.
"Analisis triclustering merupakan pengembangan dari analisis clustering dan biclustering. Analisis triclustering bertujuan mengelompokkan data tiga dimensi secara simultan yang menghasilkan submatriks dinamakan tricluster. Pendekatan yang digunakan dalam analisis triclustering di antaranya adalah pendekatan berdasarkan greedy dan pattern. Salah satu contoh pendekatan analisis triclustering berdasarkan greedy adalah metode δ – Trimax. Sedangkan salah satu contoh analisis triclustering berdasarkan pattern adalah metode Timesvector. Metode δ – Trimax bertujuan menghasilkan tricluster yang memiliki mean square residual kecil dari threshold dengan volume data tricluster yang maksimal. Metode Timesvector bertujuan mengelompokkan matriks data yang menunjukkan pola yang sama atau berbeda pada data tiga dimensi. Implementasi metode δ – Trimax dan metode Timesvector pada penelitian ini dilakukan pada data ekspresi gen pasien penderita penyakit periodontitis. Ekspresi gen diukur pada 14 titik kondisi dan 4 titik waktu. Berdasarkan beberapa skenario yang telah diterapkan, metode δ – Trimax memberikan hasil terbaik pada saat menerapkan skenario dengan nilai threshold =0,0028564 dan =1,25 dengan jumlah tricluster yang dihasilkan adalah 260 tricluster. Dari 260 tricluster tersebut, dipilih tricluster ke-216 yang dianalisis dengan menggunakan metode Timesvector. Hasil tricluster yang diperoleh dapat menambah wawasan bagi ahli medis dalam memberikan periodontal treatment kepada pasien penderita periodontitis berikutnya.
"
Metode THD-Tricluster merupakan analisis triclustering dengan pendekatan berbasis biclustering. Pada metode THD-Tricluster digunakan nilai Shifting-and-Scaling Similarity untuk membentuk bicluster terlebih dahulu dan dilanjutkan dengan membentuk tricluster. Nilai SSSim menggunakan Shifting-and-Scaling Correlation untuk mendeteksi adanya korelasi antaranggota dengan pola pergeseran dan penskalaan serta koherensi antarwaktu dan membandingkannya dengan nilai threshold. Metode THD-Tricluster dilakukan pada data respon pengobatan terapi interferon-beta pada pasien sklerosis ganda. Skenario optimal adalah skenario dengan nilai coverage terkecil yaitu saat menggunakan nilai threshold tertinggi. Pada skenario tersebut diperoleh dua jenis tricluster yaitu tricluster yang memiliki kumpulan gen pada pasien yang responsif dan pasien yang tidak responsif terhadap terapi. Perbedaan kumpulan gen pada kedua tricluster dapat digunakan oleh para ahli medis untuk mengembangkan pengobatan terapi untuk meningkatkan tingkat keresponsifan pasien sklerosis ganda terhadap terapi tersebut.
The THD-Tricluster method is a triclustering analysis with a biclustering-based approach. The THD-Tricluster method uses the Shifting-and-Scaling Similarity value to form a bicluster first and shows it by forming a tricluster. The SSSim value uses Shifting-and-Scaling Correlation to use an interface with shifting and scaling patterns as well as intertemporal coherence and compares it with the threshold value. The THD-Tricluster method was performed on treatment response data to interferon-beta therapy in multiple sclerosis patients. The optimal scenario is a scenario with a coverage value scenario that uses the highest threshold value. In this scenario, there are two types of tricluster, namely the tricluster which has a collection of genes in responsive patients and patients who are not responsive to therapy. Differences in gene pools in the two tricluster can be used by medical professionals to develop IFN-β therapeutic treatments to increase the responsiveness of multiple sclerosis patients to these therapies.
"