Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 14 dokumen yang sesuai dengan query
cover
Rasendriya Maheswari
"Teknologi microarray merupakan alat terapan ilmu bioinformatika dalam bidang biologi molekuler yang dapat menghasilkan suatu data ekspresi gen. Namun, pada data ekspresi gen sering ditemukan missing value yang dapat mengganggu proses analisis data. Untuk mengatasi masalah tersebut, missing value dapat diestimasi menggunakan teknik imputasi. Penelitian ini menggunakan metode NCBI-SSSim-QR yang merupakan metode imputasi biclustering berbasis Shifting-and-Scaling Similarity (SSSim) dan menggunakan regresi kuantil dalam mengestimasi missing values. Metode ini merupakan modifikasi dari metode NCBI-SSSim-LS yang menggunakan regresileast square dalam proses imputasinya. Regresi kuantil pada metode NCBI-SSSim-QR digunakan untuk menangani keberadaan outlier pada data karena regresi kuantil dapat menyesuaikan kemiringan distribusi data pada titik-titik kuantil tertentu. Pada penelitian ini, metode NCBI-SSSim-QR diimplementasikan pada data ekspresi gen kanker serviks yang mengandung outlier dan diujikan pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35% dengan mekanisme MCAR (Missing Completely at Random) dalam pembentukan missing values. Terdapat beberapa titik kuantil yang diuji yaitu kuantil ke = 0,3, 0,4, 0,5, 0,6, 0,7 yang kemudian performanya dibandingkan dengan metode NCBI-SSSim-LS yang berbasis mean. Penelitian menunjukkan bahwa proses estimasi missing values pada data ekspresi gen kanker serviks paling baik dilakukan oleh metode NCBI-SSSim-QR dengan kuantil 0,5 berdasarkan nilai Root Mean Square Error (RMSE).
......Microarray technology is a bioinformatics tools in molecular biology that capable for quantitating hundreds or thousands of gene transcripts called gene expression data. However, the presence of missing values is often found in gene expression data which can interfere the further analysis process. Therefore, imputation technique used for estimating missing values. This research used NCBI-SSSim-QR method which is a Shifting-and-Scaling Similarity (SSSim)-based biclustering imputation method using quantile regression to estimate the missing values. This method is a modification of the NCBI-SSSim-LS method that using the least square regression for imputation process. Quantile regression in the NCBI-SSSim-QR method is used to handle the presence of outliers in the data because quantile regression can follow the skewness of the data distribution at certain quantile points. In this research, the NCBI-SSSim-QR method will be implemented on cervical cancer gene expression data containing outliers and tested on missing rate of 5%, 10%, 15%, 20%, 25%, 30%, and 35% with MCAR (Missing Completely at Random) mechanism in generating missing values. There are several quantile points to be tested, = 0,3, 0,4, 0,5, 0,6, 0,7 which will then be compared with the NCBI-SSSim-LS method which is mean-based. The research shows that the estimation process for missing values in cervical cancer gene expression data is better estimated by NCBI-SSSim-QR method with a quantile of 0,5 based on the Root Mean Square Error (RMSE) value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Zaini
"ABSTRAK
Dalam kurun waktu lebih dari dua dekade terakhir, deteksi anomali menjadi salah satu topik yang menarik bagi para peneliti untuk dikembangkan. Collaborative-Representation-Based Detector (CRD) merupakan salah satu metodologi deteksi anomali yang berhasil dikembangkan. CRD melakukan aproksimasi masing-masing piksel pada background yang direpresentasikan oleh piksel-piksel tetangga, sementara itu piksel anomali tidak bisa direpresentasikan sama seperti piksel yang lainnya. Citra yang dihasilkan dari metodologi ini tergolong baik, karena mampu mendeteksi piksel anomali dengan cukup akurat. Kelemahannya adalah, citra hasil deteksi yang dihasilkan cenderung memperlihatkan banyak piksel yang sebenarnya bukan anomali walaupun dengan nilai intesitas yang sangat kecil. Penerapan threshold penyesuaian Root-Mean pada penelitian ini akan melakukan filter terhadap piksel-piksel pengganggu yang tidak diinginkan pada citra hasil proses CRD tersebut sehingga memberikan hasil yang lebih memuaskan. Dari sembilan data yang digunakan pada penelitian ini, hampir semua data menunjukan perbaikkannya setelah dilakukan filter dengan threshold RM.

ABSTRACT
Over the last two decades, anomaly detection is one of most interesting topics to develop for researchs. Collaborative-Representation-Based Detector (CRD) becomes one of the methodologies that was successfully developed. In CRD, each pixel in background can be approximately represented by its spatial neighborgoods, while anomalies cannot. The output image of this methodology can be categorized as good enough because it can detect the anomalies pixel accurately. However, the output image tend to show us there are many normal pixels around the anomaly pixel, although in very low intensity. Implementation of Root-Mean Adjustment threshold in this research will filter that unexpected pixel to obtain the statisfactory results. To compare performences of Root-Mean Adjustment threshold. Most of the nine Data show us that its unexpected can be filtered and show the better results.
"
Depok: Fakultas Teknik Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kevin Prawira
"Studi mengenai kesehatan terus dikembangkan untuk meneliti dan mengetahui struktur penyusun makhluk hidup dalam dunia ini. Salah satunya adalah studi mengenai gen yang telah dikembangkan melalui teknologi microarray yang dapat menghasilkan data ekspresi gen. Namun sayangnya, studi ini sering terhambat akibat banyaknya informasi yang hilang pada data ekspresi gen tersebut, sehingga analisis lebih lanjut mengenai data ekspresi gen sulit dilanjutkan. Oleh karena itu, dibutuhkan suatu metode imputasi untuk mengisi hilangnya informasi tersebut sehingga analisis dapat dilanjutkan dan dikembangkan dengan lebih luas lagi. Pada penelitian ini, dikembangkan sebuah metode imputasi baru bernama SBi-BPCA-MSREimpute yang menggunakan perpaduan Bayesian Principal Component Analysis (BPCA), Biclustering serta jarak Euclidean dalam melakukan prediksi nilai imputasi. Metode ini menggunakan pendekatan hybrid dalam imputasinya, yaitu dengan metode BPCA (global) sebagai metode pra-imputasi, serta penggunaan metode nearest neighbour (lokal) dalam penentuan bicluster untuk memetakan gen yang memiliki pola sama dengan gen target. Penggunaan BPCA didasarkan pada struktur korelasi data yang besar, sehingga BPCA cocok digunakan untuk mereduksi dimensi data. Adapun penentuan nearest neighbour sebagai bentuk bicluster didasarkan pada nilai mean squared residual serta jarak Euclidean terhadap gen target. Akibatnya, bicluster yang terpilih merupakan gen kandidat yang memiliki sifat sama dengan gen target. Perhitungan nilai imputasi akhir dihitung menggunakan rata-rata terboboti pada anggota bicluster, serta normalized root mean squared error digunakan sebagai pengukuran evaluasi. Percobaan imputasi menggunakan metode SBi-BPCA-MSREimpute dilakukan pada data ekspresi gen sel kanker usus besar dengan percobaan tingkat missing rate 5%, 10%, 15%, 20%, 25%, 30%, 40%, serta 50%. Terdapat beberapa k neighbour gen yang diuji yaitu pada tingkat k = 5%,10%,15%,20%,25% dari banyaknya baris pada data. Pengujian menunjukkan bahwa SBi-BPCA-MSREimpute merupakan metode imputasi yang lebih baik daripada SBi-MSREimpute. Pengujian juga mendapatkan hasil bahwa nilai k = 5%,10%,15%,25% paling optimal digunakan pada data dengan missing rates 15% serta k = 20% paling optimal digunakan pada data dengan missing rate 10%. Berdasarkan missing rates, data dengan missing rates 5%, 10%, 15%, 20%, 25%, 30%, 40% paling optimal diimputasi menggunakan tingkat k = 5%, sedangkan data dengan missing rates 50% paling optimal diimputasi menggunakan tingkat k = 10%.
......"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alya Fadhilah Putri Banyu Nur Inayah
"Data ekspresi gen adalah data yang menyajikan tingkat ekspresi gen pada kondisi yang berbeda-beda. Analisis data ekspresi gen microarray sangat penting karena memiliki aplikasi luas pada bidang biologi, medis, dan lain-lain. Dalam melakukan analisis data ekspresi gen, sebagian besar algoritma analisis membutuhkan data matriks yang lengkap. Sayangnya, beberapa data mungkin hilang karena kerusakan gambar, debu, dan kesalahan eksperimental. Oleh karena itu, metode imputasi missing value diperlukan untuk melakukan pemulihan pada data yang hilang tersebut. Penelitian ini mengembangkan suatu metode imputasi missing value, yaitu bicluster-based Bayesian principal component analysis dan robust least squares estimation dengan principal components (bi-BPCA-RLSP). Metode bi-BPCA-RLSP merupakan metode pengembangan dari bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Pada metode bi-RLSP, tahap praimputasi untuk memperoleh matriks komplit sementara dilakukan dengan menggunakan metode row average. Namun, metode row average dinilai kurang baik dalam menggambarkan struktur keseluruhan data karena hanya menggunakan informasi dari baris yang mengandung missing value. Oleh karena itu, penelitian ini melakukan penggantian metode row average menjadi BPCA. BPCA menggunakan informasi korelasi dari seluruh data sehingga lebih baik dalam menggambarkan struktur keseluruhan data. Metode bi-BPCA-RLSP diterapkan pada data ekspresi gen garis sel kanker serviks dengan missing rate 1%, 5%, 10%, 15%, 20%, 25%, dan 30%. Performa metode bi-BPCA-RLSP diukur dengan menggunakan nilai normalized root mean squared error (NRMSE) dan dibandingkan dengan metode bi-RLSP. Hasil penelitian menunjukkan bahwa kinerja bi-BPCA-RLSP lebih baik daripada bi-RLSP karena nilai NRMSE pada bi-BPCA-RLSP lebih rendah dibandingkan bi-RLSP untuk setiap missing rate.
......Gene expression data is data that presents the level of gene expression under different conditions. Analysis of microarray gene expression data is very important because it has wide applications in the fields of biology, medicine, and others. In analyzing gene expression data, most of the analytical algorithms require a complete data matrix. Unfortunately, some data may be lost due to image corruption, dust, and experimental errors. Therefore, the missing value imputation method is needed to recover the lost data. This study developed a missing value imputation method, namely bicluster-based Bayesian principal component analysis and robust least squares estimation with principal components (bi-BPCA-RLSP). The bi-BPCA-RLSP method is a development method of bicluster-based robust least squares estimation with principal components (bi-RLSP). In the bi-RLSP method, the pre-imputation stage to obtain a temporary complete matrix is carried out using the row average method. However, the row average method is considered poor in describing the overall structure of the data because it only uses information from rows containing missing values. Therefore, this study replaced the row average method by BPCA. BPCA uses correlation information of all data so that it describes better the overall structure of the data. The bi-BPCA-RLSP method was applied to gene expression data of cervical cancer cell lines with missing rates of 1%, 5%, 10%, 15%, 20%, 25%, and 30%. The performance of the bi-BPCA-RLSP method was measured using the normalized root mean squared error (NRMSE) and compared with the bi-RLSP method. The results showed that bi-BPCA-RLSP performed better than bi-RLSP because the NRMSE value of bi-BPCA-RLSP was lower than bi-RLSP for each missing rate."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yoel Fernando
"Penelitian biologi dengan menggunakan teknologi microarray menghasilkan data ekspresi gen berbentuk matriks di mana baris adalah gen dan kolom adalah kondisi. Analisis lanjutan dalam data ekspresi gen membutuhkan data yang lengkap. Namun, data ekspresi gen sering kali mengandung nilai hilang atau missing values. Ada berbagai cara untuk mengatasi missing values, antara lain pembuangan gen atau kondisi yang mengandung missing values, pengulangan pengambilan data, dan imputasi missing values pada data ekspresi gen. Pendekatan imputasi missing values awal hanyalah dengan mengisi nilai nol atau rata-rata baris. Namun, pendekatan ini tidak melihat informasi koheren dalam data. Pendekatan imputasi missing values terbagi menjadi empat berdasarkan informasi yang diperlukan pada algoritmanya, yaitu pendekatan lokal, pendekatan global, pendekatan hybrid, dan pendekatan knowledge assisted. Pada penelitian ini peneliti menggunakan algoritma pendekatan lokal dan global. Metode imputasi missing values paling popular untuk pendekatan global adalah Bayesian Principal Component Analysis (BPCA), sedangkan untuk pendekatan lokal adalah Local Least Square (LLS). Pada metode LLS, pemilihan similaritas gen dilakukan dengan teknik clustering dimana seluruh kondisi dalam data digunakan. Kenyataanya, terkadang gen-gen similar hanya dalam beberapa kondisi eksperimental saja. Maka, diperlukan teknik biclustering untuk dapat menemukan subset gen dan subset kondisi yang similar sebagai informasi lokal. Penerapan ide biclustering dalam LLS dinamakan sebagai Iterative Bicluster-Based Least Square (bi-iLS). Salah satu tahapan awal dalam bi-iLS adalah pembentukan matriks komplit sementara yang didapat dengan cara mengisi missing values dengan row average. Namun, row average dinilai kurang bagus karena hanya menggunakan informasi satu baris tersebut. Kekurangan ini diperbaiki dalam penelitian ini. Penggunaan metode BPCA untuk menemukan matriks komplit sementara dinilai lebih baik karena BPCA menggambarkan struktur keseluruhan data. Penggantian row average menjadi BPCA menjadi dasar masalah penelitian ini. Metode iterative Bicluster-based Bayesian Principal Component Analysis dan Least Square (bi-BPCA- iLS) pun diajukan. Penerapan bi-BPCA-iLS terhadap data ekspresi gen yang dihasilkan teknologi microarray terbukti menghasilkan penurunan nilai Normalzied Root Mean Square Error (NRMSE) sebesar 10,6% dan 0,58% secara rata-rata dalam beberapa missing rate (1%, 5%, 10%, 15%, 20%, 25%, dan 30%) jika dibandingkan dengan metode LLS dan bi-iLS.
......Biological research using microarray technique produce some important gene expression datasets. These data can be expressed as a matrix in which rows are genes and columns are different conditions. Further analysis of these datasets requires a complete dataset or matrix. However, gene expression datasets often contain missing values. There are some ways to handle missing values, such as deletion of genes or conditions that contain missing values, repeat the process of acquiring data, and impute the missing values. Early approaches in missing values imputation are simply to replace missing values with zeros or row averages, but these methods do not use the coherence inside the data. Later, approaches in missing values imputations are categorized into four groups based on the required information, such as local, global, hybrid, and knowledge assisted approaches. In this paper, local and global approaches are used. Bayesian Principal Component Analysis (BPCA) is a well-known global based method, while the most popular local based method is Local Least Square (LLS). In LLS, selection of similar genes uses clustering technique where all conditions in the data are included. The reality is genes sometimes only correlate under some experimental conditions only. So, a technique that can find subset of genes under subset of experimental conditions for local information is needed. This technique is called biclustering. The usage of biclustering in LLS is called the Iterative Bicluster-based Least Square (bi-iLS). One of the early steps in bi-iLS is to find a temporary complete matrix. Temporary complete matrix is obtained by applying row averages to impute missing values. However, row average cannot reflect the real structure of the dataset because row average only uses the information of an individual row. The missing values in a target gene do not only rely on the known values of its own row. In this research, row average in bi-iLS is replaced with BPCA. The benefit of using BPCA is that it uses global structure of the dataset. This update will be the basic problem of this research. The proposed method is called Iterative Bicluster-based Bayesian Principal Component Analysis and Least Square (bi-BPCA-iLS). This new proposed method is applied to gene expression datasets from microarray technique. It shown a decrease in values of Normalized Root Mean Square Error (NRMSE) about 10.6% from LLS and about 0.58% from bi-iLS based on different missing rates (1%, 5%, 10%, 15%, 20%, 25%, and 30%)."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jonathan Edwin
"Citra berkabut disebabkan oleh partikel mikro di udara yang menyerap atau memantulkan gelombang elektromagnetik. Hasil citra yang didapat akan buram atau kehilangan informasi secara detail. Penelitian ini bertujuan untuk menganalisis pengaruh kabut terhadap citra hyperspectral termasuk wavelength dependence, perubahan hue, dan ekstraksi informasi warna. Selain itu, penelitian ini akan membandingkan hasil dehazing pada citra spektral berkabut dengan citra spektral yang ditransformasi menjadi citra RGB. Hasil penelitian menunjukkan bahwa pengaruh kabut pada citra spektral adalah wavelength dependent. Selanjutnya perubahan kabut hampir sama sekali tidak signifikan perubahan pada hue tetapi perubahan terlihat dengan jelas pada intensitas citra. Visualisasi warna citra hyperspectral perlu dilakukan koreksi terhadap jarak wavelength untuk menghasilkan citra RGB yang baik. Selain itu, hasil dehazing pada citra hyperspectral lalu divisualisasi warna dengan metode CLTR berhasil memulihkan warna pada citra dibandingkan dehazing terhadap citra RGB.
......Hazy images are caused by microparticles in the air absorbing or reflecting electromagnetic waves. The resulting image will be blurry or lose detailed information. This study analyzes the effect of fog on the hyperspectral image, including wavelength-dependence, hue changes and color information extraction. This study will also compare the results of dehazing on a hazy hyperspectral image with a spectral image transformed into an RGB image. The results showed that the effect of fog on the spectral image is wavelength dependence. Furthermore, the change in fog is almost completely insignificant for the shift in hue. Still, the difference is clearly visible in the intensity of the image. Hyperspectral image color visualization needs to be corrected to the distance wavelength to produce an excellent RGB image. Besides, the results of dehazing on a hyperspectral image and then visualized by the CLTR method succeeded in restoring the color in the image compared to dehazing against an RGB image."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nidia Ayu
"Coronavirus Disease (COVID-19) adalah penyakit baru yang melanda dunia tahun 2020.
Penyakit ini diperkirakan berasal dari Wuhan, China (Rothan HA, 2020). WHO
menetapkan COVID-19 sebagai pandemi karena penyakit ini telah berhasil menginfeksi
lebih dari 190 negara di dunia. DKI Jakarta adalah Ibu Kota di Indonesia yang turut
menjadi salah satu Provinsi dengan kasus konfirmasi positif COVID-19 tertinggi sampai
akhir Juli 2020. Penelitian ini bertujuan untuk memodelkan rate kasus COVID-19 pada
15 kecamatan Jakarta dengan intensitas tertinggi. Alasan dipilihnya 15 kecamatan dengan
intensitas tertinggi untuk menjadi area penelitian karena lebih dari 63,43% kasus
konfirmasi COVID-19 dilaporkan dari 15 kecamatan, yakni Kecamatan Gambir,
Menteng, Sawah Besar, Kemayoran, Taman Sari, Senen, Tanah Abang, Johar Baru,
Tambora, Grogol Petamburan, Cempaka Putih, Pademangan, Setia Budi, Matraman, dan
Palmerah. Rate kasus COVID-19 pada area ini kemudian dibuat model GSTAR, model
ini merupakan salah satu pemodelan dalam time seriesstokastik yang mempertimbangkan
indeks spasial atau lokasi dan waktu (Budi, 2019). Matriks bobot biner, matriks bobot
seragam, dan matriks bobot jarak pada penelitian ini dibentuk sebagai matriks dependensi
spasial antar lokasi atau disebut matriks bobot W. Hasil identifikasi STACF dan STPACF
untuk semua matriks pembobot spasial didapatkan model yang sama, yaitu GSTAR(3,1).
Pendugaan parameter model GSTAR(3,1) dilakukan untuk setiap matriks pembobot
tersebut. Model GSTAR(3,1) yang terbaik diperoleh berdasarkan matriks pembobot
jarak, dengan RMSE terkecil yaitu 0.1271.
......Coronavirus Disease (COVID-19) is a new disease that hit the world in 2020. This disease
is thought to have originated in Wuhan, China (Rothan HA, 2020). WHO has designated
COVID-19 as a pandemic because this disease has successfully infected more than 190
countries in world. DKI Jakarta is the capital city in Indonesia which is also one of the
provinces with the highest positive confirmed cases of COVID-19 until the end of July
2020. This study aims to model the level of COVID-19 cases in 15 sub-districts of DKI
Jakarta with the highest intensity. The reason for choosing 15 sub-districts with the
highest intensity to be the research area was because more than 63.43% of confirmed
COVID-19 cases were reported from 15 sub-districts, that is Gambir, Menteng, Sawah
Besar, Kemayoran, Taman Sari, Senen, Tanah Abang, Johar Baru Districts , Tambora,
Grogol Petamburan, Cempaka Putih, Pademangan, Setia Budi, Matraman, and Palmerah.
Rate of COVID-19 cases in this area is then made a GSTAR model, this model is one of
the models in a stochastic time series that considers spatial index or location and time
(Budi, 2019). The binary weight matrix, uniform weight matrix, and distance weight
matrix in this study were formed as a spatial dependency matrix between locations or
called the W weight matrix. The results of STACF and STPACF services for all spatial
weighting matrices obtained the same model, that is GSTAR (3,1). Estimation of
parameters of the GSTAR model (3,1) is carried out for each weighting matrix. The best
GSTAR (3,1) model is based on a distance weighted matrix, with an RMSE of 0.1271"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Shabrina
"Microarray merupakan salah satu teknologi pada bidang biologi yang memberikan
informasi tentang ekspresi gen. Data microarray mentah berupa gambar, yang harus
diubah menjadi matriks ekspresi gen dimana baris menunjukkan gen, kolom
menunjukkan kondisi eksperimental. Namun, pada praktiknya data microarray banyak
ditemukan missing values yang tentunya akan menghambat proses dari analisis datanya.
Imputasi merupakan salah satu solusi yang dapat mengatasi adanya missing values pada
data microarray. Dengan menggunakan imputasi, nilai missing values yang terdapat pada
matriks data diprediksi atau diestimasi sehingga diperoleh matriks data yang lengkap.
Metode imputasi yang digunakan pada penelitian ini bernama bi-KNN-RLSP, yang
menggunakan konsep biclustering, principal component analysis, dan regresi kuantil.
Dalam proses pembentukan biclustering, dibutuhkan matriks lengkap sementara yang
diperoleh melalui proses praimputasi dengan KNNimpute. Percobaan bi-KNN-RLSP
dilakukan pada data ekspresi gen garis sel kanker serviks dengan menerapkan missing
rate yang berbeda, yaitu 1%, 5%, 10%, 15%, 20%, 25%, dan 30% dengan menggunakan
parameter k=10 pada proses praimputasi KNNimpute. Hasil percobaan tersebut dievaluasi
performanya menggunakan normalized root mean squared error. Nilai rata-rata NRMSE
pada percobaan yang dilakukan sebanyak lima kali memiliki nilai yang lebih rendah
dibandingkan dengan metode bi-RLSP dan row average. Waktu komputasi untuk metode bi-KNN-RLSP dan bi-RLSP tidak jauh berbeda, sehingga dengan waktu yang tidak
signifikan berbeda, metode bi-KNN-RLSP dapat menghasilkan nilai NRMSE yang lebih kecil dibandingkan dengan bi-RLSP. Oleh karena itu, dapat dikatakan bahwa modifikasi praimputasi row average pada metode bi-RLSP menjadi KNNimpute dapat menghasilkan performa imputasi yang lebih bagus. Selain itu, diperoleh hasil bahwa nilai NMRSE untuk metode bi-KNN-RLSP meningkat seiring dengan meningkatnya missing rate.
......Microarray is a technology in biology that provides information about gene expression. The raw microarray data is in the form of images, which must be converted into a gene expression matrix where rows indicate genes, columns indicate experimental conditions. However, in practice, many missing values are found in microarray data, which of course
will hinder the process of data analysis. Imputation is one solution that can overcome the missing values in microarray data. By using imputation, the missing values contained in the data matrix are predicted or estimated so that a complete data matrix is obtained. The imputation method used in this study is called bi-KNN-RLSP, which uses the concept of
biclustering, principal component analysis, and quantile regression. In the process of forming biclustering, a temporary complete matrix is needed which is obtained through the pre-imputation process with KNNimpute. The bi-KNN-RLSP experiment was carried out on cervical cancer cell line gene expression data by applying different missing rates,
namely 1%, 5%, 10%, 15%, 20%, 25%, and 30% using the parameter k=10. in the KNNimpute pre-imputation process. The results of these experiments were evaluated for their performance using the normalized root mean squared error. The average value of NRMSE in the five times experiment has a lower value than the bi-RLSP and row average methods. The computation time for the bi-KNN-RLSP and bi-RLSP methods is not much different, so with the time that is not significantly different, the bi-KNN-RLSP method can produce a smaller NRMSE value compared to bi-RLSP. Therefore, it can be said that the modification of the row average preimputation in the bi-RLSP method to KNNimpute can produce better imputation performance. In addition, it was found that the NMRSE value for the bi-KNN-RLSP method increased along with the increase in the missing rate."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kinanty Tasya Octaviane
"Teknologi DNA microarray menghasilkan data ekspresi gen yang dapat digunakan untuk membantu berbagai pemecahan masalah dalam dunia kesehatan. Data ekspresi gen merupakan matriks berukuran besar berisi gen dan kondisi eksperimental yang tak jarang mengandung missing values dan outlier. Data yang mengandung missing values dapat mengganggu dan membatasi analisis. Untuk mengatasinya, metode komputasi dinilai layak untuk imputasi missing values pada data ekspresi gen sebelum dilakukan analisis lanjutan, terlebih untuk data yang memiliki outlier. Oleh karena itu, pada penelitian ini digunakan metode imputasi missing values NCBI-LPCM untuk mengatasi permasalahan missing values pada data ekspresi gen yang memiliki outlier. Metode NCBI-LPCM menggunakan ukuran korelasi LPCM yang dapat menangani keberadaan outlier untuk pembentukan bicluster dan imputasi least square yang merupakan metode imputasi dengan pendekatan lokal. LPCM mengidentifikasi gen-gen yang memiliki pola korelasi similar sehingga menjadi informasi lokal untuk dasar imputasi. Metode ini diterapkan pada data ekspresi gen pasien Leukemia Limfoblastik Akut pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35%. Berdasarkan RMSE dan korelasi Pearson, metode NCBI-LPCM lebih baik jika dibandingkan dengan NCBI-SSSim yang juga dapat menangani keberadaan outlier.
......DNA microarray technology produces gene expression data that can be used to help solve various problems in healthcare. Gene expression data is a large matrix of genes and experimental conditions that often contains missing values and outliers. Data containing missing values can interfere with and limit analyses. To overcome this, computational methods are considered feasible for imputing missing values in gene expression data before further analysis is carried out, especially for data that has outliers. Therefore, in this study, the NCBI-LPCM missing values imputation method was used to overcome the problem of missing values in gene expression data with outliers. The NCBI-LPCM method uses the LPCM correlation measure which can handle the presence of outliers for bicluster formation and least square imputation which is an imputation method with a local approach. LPCM identifies genes that have similar correlation patterns so that they become local information for the basis of imputation. This method was applied to gene expression data of Acute Lymphoblastic Leukaemia patients at missing rates of 5%, 10%, 15%, 20%, 25%, 30%, and 35%. Based on RMSE and Pearson correlation, the NCBI- LPCM method is better than NCBI-SSSim which can also handle the presence of outliers."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Allissa Rahman
"Data ekspresi gen merupakan data yang berisi hasil proses transformasi informasi genetik dari DNA atau RNA menjadi protein (fenotipe) yang disajikan dalam bentuk matriks berisi ekspresi gen (baris) dan kondisi (kolom). Sama halnya seperti jenis data lainnya, data ekspresi gen tidak terlepas dari kemungkinan masalah missing values atau data yang hilang. Untuk menangani masalah keberadaan missing values, diperlukan imputasi, yaitu metode untuk mengisi nilai pada data yang hilang. Metode imputasi yang digunakan pada penelitian ini adalah QP_Biclustering yang merupakan kombinasi antara biclustering dengan permasalahan pemrograman kuadratik yang akan diselesaikan dengan bahasa pemrograman Python. Metode QP_Biclustering diimplementasikan pada data ekspresi gen dari pasien Covid-19 bertipe numerik dengan tipe missing values berjenis Missing Completely at Random (MCAR). Algoritma biclustering yang digunakan sebagai metode dalam penelitian ini adalah hasil modifikasi dari algoritma SwarmBCluster, yaitu constructive heuristic with local search. Metode biclustering ini menggunakan Mean Squared Residue (MSR) dalam proses pembentukan bicluster yang berperan sebagai ukuran kualitas suatu bicluster. Setelah bicluster terbentuk, missing values akan diestimasi menggunakan quadratic programming dengan cara meminimumkan nilai MSR tiap bicluster. Hasil penelitian ini menunjukkan bahwa metode QP_Biclustering memiliki performa cukup baik untuk mengimputasi missing values pada data ekspresi gen pasien Covid-19 yang dapat dilihat dari nilai Normalized Root Mean Square Error (NRMSE) yang lebih rendah dibandingkan dengan metode KNNimpute.
......Gene expression data contains the results of the transformation process of genetic information from DNA or RNA into protein (phenotype) which is presented in the form of a matrix containing gene expression (rows) and conditions (columns). Just like other types of data, gene expression data can not be separated from the possibility of missing values or missing data problems. To deal with the problem of the presence of missing values, imputation is needed, which is a method to fill in the values in the missing data. The imputation method used in this research is QP_Biclustering which is a combination of biclustering with quadratic programming problems that will be solved using the Python programming language. The QP_Biclustering method is implemented on gene expression data from Covid-19 patients with numeric type and the missing values has Missing Completely at Random (MCAR) type. The biclustering algorithm used as a method in this research is a modified result of the SwarmBCluster algorithm, namely constructive heuristic with local search. This biclustering method uses Mean Squared Residue (MSR) in the bicluster formation process which will be used as a measure of the quality of a bicluster. After the bicluster is formed, the missing values will be estimated using quadratic programming by minimizing the MSR value for each bicluster. The results of this study indicate that the QP_Biclustering method has a fairly good performance to impute the missing values in gene expression data of Covid-19 patients which can be seen from the NRMSE (Normalized Root Mean Square Error) value which is lower than KNNimpute method."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2   >>