Hasil Pencarian

Ditemukan 83540 dokumen yang sesuai dengan query

Rasendriya Maheswari

Imputasi Biclustering Berbasis Shifting-and-Scaling Similarity (SSSim) Menggunakan Regresi Kuantil Ke-t (NCBI-SSSim-tQR) pada Data Ekspresi Gen = Shifting-and-Scaling Similarity (SSSim)-Based Biclustering Imputation Using t-th Quantile Regression (NCBI-SSSim-tQR) on Gene Expression Data

"Teknologi microarray merupakan alat terapan ilmu bioinformatika dalam bidang biologi molekuler yang dapat menghasilkan suatu data ekspresi gen. Namun, pada data ekspresi gen sering ditemukan missing value yang dapat mengganggu proses analisis data. Untuk mengatasi masalah tersebut, missing value dapat diestimasi menggunakan teknik imputasi. Penelitian ini menggunakan metode NCBI-SSSim-QR yang merupakan metode imputasi biclustering berbasis Shifting-and-Scaling Similarity (SSSim) dan menggunakan regresi kuantil dalam mengestimasi missing values. Metode ini merupakan modifikasi dari metode NCBI-SSSim-LS yang menggunakan regresileast square dalam proses imputasinya. Regresi kuantil pada metode NCBI-SSSim-QR digunakan untuk menangani keberadaan outlier pada data karena regresi kuantil dapat menyesuaikan kemiringan distribusi data pada titik-titik kuantil tertentu. Pada penelitian ini, metode NCBI-SSSim-QR diimplementasikan pada data ekspresi gen kanker serviks yang mengandung outlier dan diujikan pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35% dengan mekanisme MCAR (Missing Completely at Random) dalam pembentukan missing values. Terdapat beberapa titik kuantil yang diuji yaitu kuantil ke = 0,3, 0,4, 0,5, 0,6, 0,7 yang kemudian performanya dibandingkan dengan metode NCBI-SSSim-LS yang berbasis mean. Penelitian menunjukkan bahwa proses estimasi missing values pada data ekspresi gen kanker serviks paling baik dilakukan oleh metode NCBI-SSSim-QR dengan kuantil 0,5 berdasarkan nilai Root Mean Square Error (RMSE).

Microarray technology is a bioinformatics tools in molecular biology that capable for quantitating hundreds or thousands of gene transcripts called gene expression data. However, the presence of missing values is often found in gene expression data which can interfere the further analysis process. Therefore, imputation technique used for estimating missing values. This research used NCBI-SSSim-QR method which is a Shifting-and-Scaling Similarity (SSSim)-based biclustering imputation method using quantile regression to estimate the missing values. This method is a modification of the NCBI-SSSim-LS method that using the least square regression for imputation process. Quantile regression in the NCBI-SSSim-QR method is used to handle the presence of outliers in the data because quantile regression can follow the skewness of the data distribution at certain quantile points. In this research, the NCBI-SSSim-QR method will be implemented on cervical cancer gene expression data containing outliers and tested on missing rate of 5%, 10%, 15%, 20%, 25%, 30%, and 35% with MCAR (Missing Completely at Random) mechanism in generating missing values. There are several quantile points to be tested, = 0,3, 0,4, 0,5, 0,6, 0,7 which will then be compared with the NCBI-SSSim-LS method which is mean-based. The research shows that the estimation process for missing values in cervical cancer gene expression data is better estimated by NCBI-SSSim-QR method with a quantile of 0,5 based on the Root Mean Square Error (RMSE) value."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Vima Majesta Tingginehe

Implementasi Metode Imputasi Ganda Dynamically Ordered Attribute Trees (DOAT) untuk Estimasi Missing Values pada Data Kategorik = Implementation of Dynamically-Ordered Attribute Tree (DOAT) Multiple Imputation Method to Estimate Missing Values in Categorical Data

"ABSTRAK

Data yang tidak lengkap merupakan salah satu masalah yang sering muncul dalam penelitian medis, yang dapat mengakibatkan statistik inferensial tidak akurat. Salah satu cara yang dapat dilakukan untuk mengatasi masalah tersebut adalah dengan mengestimasi missing value yang terdapat pada data. Metode ini disebut imputasi. Beberapa metode imputasi telah dikembangkan untuk memperkirakan nilai yang hilang, dan salah satu metode imputasi yang paling sering digunakan adalah imputasi pohon keputusan. Pohon keputusan adalah salah satu metode pembelajaran mesin terawasi yang paling sederhana, yang digunakan untuk mengklasifikasikan dan meregresi data. Namun selain kepraktisan metode pohon keputusan untuk imputasi, metode ini kurang tepat jika muncul nilai-nilai yang hilang baik pada data latih maupun data pengujian secara bersamaan. Untuk mengatasi keterbatasan tersebut, metode imputasi pohon keputusan kemudian dikembangkan menjadi metode imputasi pohon atribut yang dipesan secara dinamis (DOAT). DOAT pertama kali diperkenalkan oleh Nick Street dan Jing Wang pada tahun 2009, untuk membangun sejumlah pohon keputusan yang digunakan untuk memperkirakan nilai yang hilang secara bertahap dalam data pelatihan. Selanjutnya tingkat akurasi estimasi akan digunakan untuk menentukan pohon keputusan akhir sebagai pohon keputusan terakhir yang melakukan imputasi. Setelah pohon keputusan akhir diperoleh dari data pelatihan, maka nilai-nilai yang hilang pada data pengujian akan diestimasi menggunakan sejumlah pohon keputusan yang dihasilkan dari data pelatihan, dimana pohon keputusan akhir yang dihasilkan pada data pelatihan juga merupakan pohon keputusan final. pohon keputusan yang digunakan dalam imputasi pengujian data. Pada penelitian ini dikembangkan metode imputasi DOAT dengan algoritma CART untuk membangun pohon keputusan untuk mengestimasi missing value pada data kategori penyakit. Kinerja metode imputasi DOAT akan dievaluasi berdasarkan tingkat akurasi menggunakan pohon keputusan. Hasil penelitian ini menunjukkan bahwa metode imputasi DOAT tidak mengurangi tingkat akurasi metode klasik yang sudah memiliki data lengkap.

ABSTRACT

Incomplete data is one of the problems that often arises in medical research, which can result in inaccurate inferential statistics. One way that can be done to overcome this problem is to estimate the missing value contained in the data. This method is called imputation. Several imputation methods have been developed to estimate missing values, and one of the most frequently used imputation methods is decision tree imputation. Decision trees are one of the simplest supervised machine learning methods, which are used to classify and regress data. However, in addition to the practicality of the decision tree method for imputation, this method is not appropriate if missing values appear in both training data and test data simultaneously. To overcome these limitations, the decision tree imputation method was later developed into a dynamically ordered attribute tree (DOAT) imputation method. DOAT was first introduced by Nick Street and Jing Wang in 2009, to construct a number of decision trees that are used to estimate the incrementally missing values in training data. Furthermore, the level of accuracy of the estimate will be used to determine the final decision tree as the last decision tree that performs imputation. After the final decision tree is obtained from the training data, the missing values in the test data will be estimated using a number of decision trees generated from the training data, where the final decision tree generated in the training data is also the final decision tree. decision tree used in the imputation of data testing. In this study, the DOAT imputation method with the CART algorithm was developed to build a decision tree to estimate the missing value in disease category data. The performance of the DOAT imputation method will be evaluated based on the level of accuracy using a decision tree. The results of this study indicate that the DOAT imputation method does not reduce the level of accuracy of the classical method which already has complete data."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Mutiara Nurul Azizah

Perbandingan Penggunaan Elektroda Batang dan Pelat pada Metode Geolistrik Resistivitas (Studi Kasus Bumi Perkemahan Kiara Payung, Sumedang, Jawa Barat) = A Comparison of Using A Peak and Plate Electrodes in The Geoelectric Resistivity Method (A Case Study of Kiara Payung Campground, Sumedang, West Java)

"Penelitian ini dilakukan untuk mengetahui hasil perbandingan penggunaan dari elektroda batang dan pelat pada metode geolistrik resistivitas. Elektroda batang memiliki keterbatasan yaitu tidak dapat digunakan pada permukaan keras seperti permukaan beton karena dapat merusak permukaan beton, sedangkan elektroda pelat dapat digunakan dan tidak merusak. Pengambilan data penelitian dilakukan pada satu lintasan dengan dua kali pengukuran. Panjang lintasannya 117,5 meter dengan spasi 2,5 meter dan 48 elektroda. Hasil data pengukuran diinversikan menggunakan software Res2dinv dengan metode inversi Robust Constraint dan Least-Square untuk mendapatkan penampang 2D resistivitas masing-masing elektroda. Dilakukan analisis hasil penampang 2D berdasarkan nilai RMS Error atau Absolute Error dan kemiripannya dengan keadaan lapangan sesungguhnya. Hasil dari analisisnya adalah elektroda pelat lebih representatif jika dibandingkan dengan elektroda batang, serta elektroda pelat tidak merusak permukaan beton. Sehingga elektroda pelat dapat digunakan jangka panjang untuk pemeliharan bak air yang terdapat pada Lapangan Kiara Payung, Sumedang, Jawa Barat. Serta, elektroda pelat dapat digunakan untuk penelitian yang menggunakan metode geolistrik resistivitas lainnya di atas permukaan selain tanah tanpa merusaknya.

This study was conducted to determine the comparative results of the use of a peak and plate electrodes in the resistivity geoelectric method. A peak electrodes have limitations that cannot be used on hard surfaces such as concrete surfaces because they can damage concrete surfaces, while plate electrodes can be used and do not damage. This research was conducted on one track with two measurements. The track length was 117.5 meters with a spacing of 2.5 meters and 48 electrodes. The measurement data results were inversed using Res2dinv software with the Robust Constraint and Least-Square inversion method to obtain a 2D cross section of the resistivity of each electrode. The 2D cross section results were analyzed based on the RMS Error or Absolute Error value and its similarity with the actual field conditions. The result of the analysis is that the plate electrode more representative compared to the peak electrode, and the plate electrode does not damage the concrete surface. So that plate electrodes can be used in the long term for the maintenance of water tanks in Kiara Payung Campground, Sumedang, West Java. Also, plate electrodes can be used for research using other resistivity geoelectric methods on surfaces other than soil without damaging them."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Dwi Oktaviyanti

Membandingkan mse dari taksiran particular ridge dan least square pada kasus omitted variables = Compare the mse of least square and ridge particular estimator in omitted variables case / Dwi Oktaviyanti

"Dalam bidang ekonomi, peneliti sering tertarik untuk mencari taksiran particular dari sebuah model regresi linier berganda. Namun, keberadaan omitted variables di dalam model menyebabkan mean dari error pada model tersebut bernilai tidak nol. Hal ini mengakibatkan taksiran particular least square bersifat bias. Oleh karena itu, menurut Ryo Uemukai (2010) ada cara lain untuk mencari taksiran particular dari model regresi yang memiliki omitted variables yaitu Regresi Ridge (RR). Pada skripsi ini akan dicari taksiran particular dari sebuah model regresi linier berganda yang memiliki omitted variables dengan menggunakan OLS dan RR. Selain itu, akan dilihat pengaruh omitted variables terhadap kedua taksiran particular tersebut, dari segi bias serta MSE. Untuk melihat taksiran mana yang lebih baik, peneliti membandingkan nilai MSE taksiran particular least square dengan MSE taksiran particular ridge. Pada tugas akhir ini juga akan dijelaskan syarat – syarat yang harus dipenuhi agar MSE taksiran particular ridge memiliki nilai yang lebih kecil dibandingkan MSE taksiran particular least square.

In Economic studies, researcher often interested in searching for a particular estimation over a multiple linier regression model. But, the existence of omitted variables in the model causing mean value of the error from model has no zero. This caused the particular least square estimation biased. Ryo Uemukai (2010) then pointed out that there’s other way to estimate the particular estimation from regression model with omitted variables, called Ridge Regression (RR). In this paper, we will estimate the particular estimation from a multiple linier regression model using OLS and RR. Omitted variables’ effect towards both of the particular estimation will also be observed, based on bias and MSE value. To decide which estimation is better, researcher compare the MSE least square and MSE ridge. This paper also explains the condition that must be fullfiled so that MSE of particular ridge estimations smaller than least square."

Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2014

S56328

UI - Skripsi Membership Universitas Indonesia Library

Gausul Furida Firdaus

Pengembangan sistem pengenalan tanda nomor kendaraan bermotor menggunakan metode least squares support vector machine (LS-SVM) = Development of license plate recognition system using least squares support vector machine (LS-SVM)

"Didalam skripsi ini dijelaskan tentang konsep Least Square Support Vector Machines (LS-SVM) untuk pengembangan sistem pengenalan tanda nomor kendaraan bermotor. Sistem akan mengenali plat nomor kendaraan untuk keperluan proses identifikasi secara otomatis. Pengenalan karakter merupakan modul inti dalam sistem yang mengenali tanda nomor kendaraan dari video. Yang menjadi fokus penelitian ini ialah ketepatan dalam mengenali setiap karakter, kecepatan proses, tingkat ketelitian hasil pengenalan akibat kondisi blur, posisi plat nomor yang miring, kecepatan perekaman video, suasana pengambilan video, resolusi video, dan jumlah data latih. Metode Least Square Support Vector Machine (LS-SVM) digunakan untuk meningkatkan akurasi dan kecepatan komputasi dengan kernel linier serta one against one untuk metode multiclass. Metode deteksi garis tepi dan morphology digunakan pada proses lokalisasi plat nomor. Untuk mengenali karakter secara akurat proses training dipisah antara karakter angka dan huruf. Hasil penelitian menunjukan tingkat ketelitian pengenalan tanda nomor kendaraan mencapai maksimal 98.66% untuk resolusi 1280x720p dan jumlah data latih sebanyak 15. Akurasi minimal yang diujikan pada resolusi 320x240 dan jumlah data latih sebanyak 3 diperoleh sebesar 25.50%.

In this paper, we review the use of least square support vector machines (LS-SVM) concept in development system of license plate recognition. License plate of vehicle will recognize by system for identification process automatically. Charackter recognition is a core of system which is essentially multi-classification problem. The major focus of research is identification each character accurately and rapidly in case of blurs, tilt, noise, video resolution, video capturing atmosphere and amount of training set. LS-SVM with linier kernel and one against one for multiclass problem use to further improve recognition accuracy and speed of LPR system. Edge detection and morphology use in license plate localization process of system LPR. In other to recognize a number plate more accurately we separate trained model with number and English character. Our method got a maximum recognition rate 98.66% in resolution 1280x720p with 15 training set. Minimum recognitoin rate that have tested is 25.50% for resolution 320x240 with 3 training set."

Depok: Fakultas Teknik Universitas Indonesia, 2013

S54470

UI - Skripsi Membership Universitas Indonesia Library

Yoel Fernando

Metode iterative bicluster-based bayesian principal component analysis dan least square (bi-BPCA-iLS) untuk imputasi missing values pada data ekspresi gen = Iterative bicluster-based bayesian principal component analysis and least square (bi-BPCA-iLS) for missing values imputation in gene expression data

"Penelitian biologi dengan menggunakan teknologi microarray menghasilkan data ekspresi gen berbentuk matriks di mana baris adalah gen dan kolom adalah kondisi. Analisis lanjutan dalam data ekspresi gen membutuhkan data yang lengkap. Namun, data ekspresi gen sering kali mengandung nilai hilang atau missing values. Ada berbagai cara untuk mengatasi missing values, antara lain pembuangan gen atau kondisi yang mengandung missing values, pengulangan pengambilan data, dan imputasi missing values pada data ekspresi gen. Pendekatan imputasi missing values awal hanyalah dengan mengisi nilai nol atau rata-rata baris. Namun, pendekatan ini tidak melihat informasi koheren dalam data. Pendekatan imputasi missing values terbagi menjadi empat berdasarkan informasi yang diperlukan pada algoritmanya, yaitu pendekatan lokal, pendekatan global, pendekatan hybrid, dan pendekatan knowledge assisted. Pada penelitian ini peneliti menggunakan algoritma pendekatan lokal dan global. Metode imputasi missing values paling popular untuk pendekatan global adalah Bayesian Principal Component Analysis (BPCA), sedangkan untuk pendekatan lokal adalah Local Least Square (LLS). Pada metode LLS, pemilihan similaritas gen dilakukan dengan teknik clustering dimana seluruh kondisi dalam data digunakan. Kenyataanya, terkadang gen-gen similar hanya dalam beberapa kondisi eksperimental saja. Maka, diperlukan teknik biclustering untuk dapat menemukan subset gen dan subset kondisi yang similar sebagai informasi lokal. Penerapan ide biclustering dalam LLS dinamakan sebagai Iterative Bicluster-Based Least Square (bi-iLS). Salah satu tahapan awal dalam bi-iLS adalah pembentukan matriks komplit sementara yang didapat dengan cara mengisi missing values dengan row average. Namun, row average dinilai kurang bagus karena hanya menggunakan informasi satu baris tersebut. Kekurangan ini diperbaiki dalam penelitian ini. Penggunaan metode BPCA untuk menemukan matriks komplit sementara dinilai lebih baik karena BPCA menggambarkan struktur keseluruhan data. Penggantian row average menjadi BPCA menjadi dasar masalah penelitian ini. Metode iterative Bicluster-based Bayesian Principal Component Analysis dan Least Square (bi-BPCA- iLS) pun diajukan. Penerapan bi-BPCA-iLS terhadap data ekspresi gen yang dihasilkan teknologi microarray terbukti menghasilkan penurunan nilai Normalzied Root Mean Square Error (NRMSE) sebesar 10,6% dan 0,58% secara rata-rata dalam beberapa missing rate (1%, 5%, 10%, 15%, 20%, 25%, dan 30%) jika dibandingkan dengan metode LLS dan bi-iLS.

Biological research using microarray technique produce some important gene expression datasets. These data can be expressed as a matrix in which rows are genes and columns are different conditions. Further analysis of these datasets requires a complete dataset or matrix. However, gene expression datasets often contain missing values. There are some ways to handle missing values, such as deletion of genes or conditions that contain missing values, repeat the process of acquiring data, and impute the missing values. Early approaches in missing values imputation are simply to replace missing values with zeros or row averages, but these methods do not use the coherence inside the data. Later, approaches in missing values imputations are categorized into four groups based on the required information, such as local, global, hybrid, and knowledge assisted approaches. In this paper, local and global approaches are used. Bayesian Principal Component Analysis (BPCA) is a well-known global based method, while the most popular local based method is Local Least Square (LLS). In LLS, selection of similar genes uses clustering technique where all conditions in the data are included. The reality is genes sometimes only correlate under some experimental conditions only. So, a technique that can find subset of genes under subset of experimental conditions for local information is needed. This technique is called biclustering. The usage of biclustering in LLS is called the Iterative Bicluster-based Least Square (bi-iLS). One of the early steps in bi-iLS is to find a temporary complete matrix. Temporary complete matrix is obtained by applying row averages to impute missing values. However, row average cannot reflect the real structure of the dataset because row average only uses the information of an individual row. The missing values in a target gene do not only rely on the known values of its own row. In this research, row average in bi-iLS is replaced with BPCA. The benefit of using BPCA is that it uses global structure of the dataset. This update will be the basic problem of this research. The proposed method is called Iterative Bicluster-based Bayesian Principal Component Analysis and Least Square (bi-BPCA-iLS). This new proposed method is applied to gene expression datasets from microarray technique. It shown a decrease in values of Normalized Root Mean Square Error (NRMSE) about 10.6% from LLS and about 0.58% from bi-iLS based on different missing rates (1%, 5%, 10%, 15%, 20%, 25%, and 30%)."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Samuel Zico Christopher

Analisis imputasi missing value menggunakan fractional hot deck pada data numerik = Missing value analysis of numerical data using fractional hot deck imputation

"Salah satu metode yang populer untuk mengatasi missing value dalam sebuah survei adalah metode imputasi. Imputasi adalah solusi untuk mengganti suatu missing value dengan suatu nilai pengganti yang didapatkan dari teknik khusus tertentu, misalnya imputasi menggunakan nilai mean, nilai median, dan lain sebagainya. Pada skripsi dibahas suatu teknik imputasi yang menggabungankan dua macam teknik imputasi lain, yakni imputasi fractional dan imputasi hot deck. Imputasi fractional adalah imputasi yang punya kelebihan dalam meminimumkan suatu variansi dalam suatu data dikarenakan nilai imputasi yang dihasilkan berasal dari data set dalam survei itu sendiri, namun kekurangannya adalah bahwa nilai imputasi dari teknik fractional akan membuat jumlah observasi menjadi mengembang. Oleh karena masalah pengembangan data set yang dihasilkan teknik fractional tersebut, imputasi hot deck menjadi solusi untuk membatasi masalah jumlah observasi yang dihasilkan dengan membatasi calon nilai imputasi (donor) untuk suatu nilai hilang. Imputasi yang menggabungkan teknik imputasi fractional dan hot deck akan dikenal dengan nama imputasi fractional hot deck dengan sifat yang mirip dengan imputasi fractional , namun observasi yang dihasilkan lebih sedikit.

One of the most popular solution of missing value is imputation in a survey is imputation. Imputation is a solution to replace missing value with imputed value from a particular technique, such as mean value, median value, etc. This Thesis specifically discuss about technique that fuse fractional imputation technique and hot deck imputation technique. Fractional imputation is popular because this imputation tends to produce less variance compare to other methods. Unfortunately this method will extend the number of observations. Because fractional imputation tends to extend the number of observations, sampling becomes a solution to produce less observation. Sampling limits the numbers of imputed values (donor) in the observations that adopts hot deck imputation nature. The imputation that fuse fractional imputation and hot deck imputation is known as fractional hot deck, and produce a data set that have similar property to fractional imputation, but less observations."

Depok: Universitas Indonesia, 2019

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Panjaitan, Andreas Pangihutan

Analisis perbandingan kinerja antara metode imputasi biclustering berbasis Shifting and Scaling Similarity (SSSim) dan euclidean score pada data ekspresi gen kanker usus besar = Performance comparison analysis between of biclustering based Shifting and Scaling Similarity (SSSim) and euclidean score for missing values imputation on colon cancer gene expression data.

"Kebutuhan data di zaman sekarang semakin meningkat seiring dengan perkembangan teknologi. Penggunaan dataset dengan ukuran besar sudah menjadi keperluan dalam berbagai bidang, termasuk kebutuhan data di bidang bioinformatika, yang dihasilkan melalui teknologi microarray berbentuk matriks berisi gen dan dan kondisi observasi. Sulit untuk menghasilkan data ekspresi gen yang sempurna dan tidak ada kekurangan karena berbagai keterbatasan dalam proses pengumpulan data. Kehadiran nilai hilang atau missing values pada data ekspresi gen adalah hal yang tidak dapat dihindarkan, sehingga dapat mengganggu jalannya proses analisis data lanjutan. Pada penelitian ini, keberadaan missing values pada data diatasi dengan metode imputasi biclustering berbasis Shifting and Scaling Similarity (SSSim) dan imputasi biclustering berbasis euclidean score. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score adalah 2 metode imputasi berbeda yang dikombinasikan dengan konsep biclustering yang berbeda. Kedua metode imputasi biclustering ini menggunakan konsep least square dan pembobotan gen dalam proses imputasinya, serta menggunakan konsep korelasi SSSim dan korelasi euclidean score dalam proses biclustering-nya. Kedua konsep korelasi tersebut memiliki perbedaan prinsip yang saling berkebalikan, di mana korelasi SSSim dapat mendeteksi pola shifting and scaling dalam data ekspresi gen sedangkan korelasi euclidean score tidak dapat mendeteksi pola shifting and scaling. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score diaplikasikan pada data eskpresi gen kanker usus besar dan diukur tingkat performanya bersama dua metode pembanding lain yaitu K-Nearest Neighbor Imputation (KNNimpute) dan column mean impute menggunakan nilai Root Mean Squared Error (RMSE). Berdasarkan penelitian ini, metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score memiliki tingkat akurasi yang hampir sama, tetapi secara konsisten lebih baik dari metode KNNimpute dan column mean impute pada data dengan missing rate (5%,10%,15%,20% dan 25%).

The need for data today is increasing along the technological advances. The use of large data sets has become a necessity in various fields, including the need for data in bioinformatics, which is generated through microarray technology and produce data’s form of a matrix containing genes type and genes observation. It is difficult to produce perfect gene expression data, due to various limitations in the data collection process. The presence of missing values in gene expression data is unavoidable, so it can interfere further analysis. In this research, the presence of missing values was handled by the biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation are 2 different imputation methods combined with biclustering concepts. This two methods use the least square concept and gene weighting in the imputation process, and use the SSSim and the Euclidean score correlation in the biclustering process. This two correlation concepts have contradictory basic principles, where SSSim correlation can detect shifting and scaling patterns in gene expression data while Euclidean score correlation cannot detect. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation were applied to colon cancer gene expression data and their performance level was measured by Root Mean Squared Error (RMSE) with two other comparison methods, namely K-Nearest Neighbor Imputation (KNNimpute) and column mean impute. Based on this study, biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation has almost the same accuracy level, but consistently better than the KNNimpute method and column mean impute on data with missing rate (5%, 10%, 15%, 20% and 25%)."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Dini Rahayu

Implementasi algoritma expectation maximization untuk menangani missing value pada model regresi = A study of imputation methods for missing value with regression model

"Masalah yang sering terjadi dalam penelitian adalah adanya missing value padahal data yang lengkap diperlukan untuk mendapatkan hasil analisis yang menggambarkan populasi. Dalam pengolahan data, missing value sering terjadi pada analisis regresi. Analisis regresi merupakan suatu model prediksi dengan melihat hubungan antara variabel respon dan variabel prediktor. Missing value dalam analisis regresi dapat ditemukan baik pada variabel respon maupun variabel prediktor. Penelitian ini membahas imputasi missing value yang terjadi pada kedua variabel tesebut dengan menggunakan imputasi regresi. Algoritma Expectation Maximization (EM) merupakan metode penaksiran parameter regresi dengan menggunakan metode Maximum Likelihood Estimaton (MLE) pada data yang memiliki missing value. Untuk menyeimbangkan hasil taksiran parameter model regresi untuk setiap variabel, dilakukan proses penyeimbangan (balance process) untuk mendapatkan hasil taksiran parameter yang konvergen. Simulasi taksiran nilai variabel respon dan prediktor yang hilang dilakukan pada berbagai variasi persentase missingness. Metode penaksiran parameter regresi dengan menggunakan algoritma EM, dapat menghasilkan model yang menjelaskan data sebesar 87% hingga terjadi missing sebanyak 60%.

The problem that often occurs in research is the existence of missing values even though complete data is needed to obtain the results of analysis that describe the population. In processing data, missing values often occur in regression analysis. Regression analysis is a prediction model by looking at the relationship between response variables and predictor variables. Missing values in regression analysis can be found in both the response variable and predictor variable. This study discusses the imputation of missing values that occur in both variables using regression imputation. The Expectation Maximization (EM) algorithm is a method of estimating regression parameters using the Maximum Likelihood Estimaton (MLE) method on data that has missing value. To balance the estimated parameters of the regression model for each variable, a balance process is performed to obtain the results of the convergent parameter estimates. The estimated simulation of the value of the response variable and missing predictor was carried out in various variations in the percentage of missingness. The method of estimating regression parameters using the EM algorithm, can produce a model that explains the data by 87% until there is missing as much as 60%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Dea Kristina

Analisis Reduksi Komponen Uji Klinis Dan Imputasi Missing Value pada Data Uji Klinis Menggunakan Metode Principal Component Analysis (PCA) pada Studi Kasus Demensia = Analysis of Clinical Trial Component Reduction and Missing Value Imputation in Clinical Trial Data Using Principal Component Analysis (PCA) Method in Dementia Case Study

"Kementrian Kesehatan menyatakan Indonesia sudah memasuki kondisi ageing population, dimana kondisi tersebut ditandai dengan kenaikan persentase penduduk lanjut usia (lansia). Kondisi tersebut tentunya memerlukan perhatian khusus dari pemerintah. Demensia adalah istilah medis untuk menggambarkan gejala penurunan memori dan fungsi kognitif pada tubuh manusia. Indonesia termasuk sepuluh negara dengan jumlah penderita orang dengan demensia (ODD) tertinggi di dunia, dan pada tahun 2050 jumlahnya diprediksi mencapai empat juta jiwa. Prediksi tersebut dibuat berdasarkan perbandingan jumlah lansia di Indonesia dengan jumlah ODD di seluruh dunia. Penelitian bertujuan untuk mengetahui peran dari masing-masing uji klinis untuk mengidentifikasi penderita ODD dan mereduksi komponen uji klinis yang memiliki peran kontribusi rendah. Data yang digunakan adalah data uji klinis NIFD (Neuroimaging in Frontotemporal Dementia). Metode yang akan digunakan adalah Principal Component Analysis (PCA), dimana metode ini bertujuan untuk melihat komponen uji klinis yang memberikan peran kontribusi dalam mengidentifikasi penderita ODD. Selain itu, akan dilakukan proses imputasi missing value dengan menggunakan algoritma pengembangan dari PCA, yaitu SVD-Impute dan PPCA. Setelah dilakukan tiga kali iterasi, pengujian menunjukan bahwa metode PPCA lebih baik dalam melakukan imputasi missing value dibandingkan dengan metode SVDImpute berdasarkan nilai NRMSE dan koefisien korelasi Pearson.

The Ministry of Health stated that Indonesia had entered a condition of an aging population, where an increase in the proportion of older people marks this condition. This condition certainly requires special attention from the government. Dementia is a medical term to describe symptoms of decreased memory and cognitive function in the human body. Indonesia is one of the ten countries with the highest number of people with dementia in the world, and by 2050 it is predicted to reach four million people. This prediction was based on comparing the number of older people in Indonesia with those with dementia worldwide. The research aims to determine each clinical trial's role in identifying people with dementia and reducing the components of clinical trials with a low role contribution. The data used is NIFD (Neuroimaging in Frontotemporal Dementia) clinical trial data. The method used is Principal Component Analysis (PCA), which aims to see clinical component tests that contribute to identifying people with dementia. In addition, the missing value imputation process will be carried out using the development algorithm from PCA, SVD-Impute and PPCA. After three iterations, the test showed that the PPCA method was better at imputing missing values than the SVDImpute method based on the NRMSE value and Pearson's correlation coefficient."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian