Hasil Pencarian

Ditemukan 117716 dokumen yang sesuai dengan query

Clive Nathaniel

Aplikasi metode bicluster-based robust least square estimation dengan principal components pada imputasi missing value data ekspresi gen = Missing value imputation for microarray data using bicluster-based robust least squares estimation with principal components

"Missing value merupakan masalah yang sering ditemukan pada analisis data ekspresi gen. Salah satu metode yang sering digunakan untuk mengatasi masalah ini adalah dengan melakukan imputasi. Imputasi adalah proses mengganti missing value pada data dengan nilai pengganti yang didapat dari metode tertentu. Pada skripsi ini dibahas mengenai suatu metode imputasi untuk data ekspresi gen yang merupakan pengembangan dari metode imputasi robust least squares estimation dengan principal components (RLSP) dengan menggunakan konsep biclustering. Metode ini dinamakan bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Metode RLSP adalah metode imputasi data ekspresi gen yang menggunakan konsep k-nearest neighbor, principal component analysis, dan regresi kuantil. Konsep biclustering ingin diterapkan untuk menggantikan k-nearest neighbor yang mencari baris yang mirip untuk semua kolom, sehingga dapat dicari baris yang mirip serta kolom yang mirip secara bersamaan. Metode bi-RLSP diaplikasikan untuk mengimputasi missing values pada data ekspresi gen, dimana metode ini ditemukan memiliki akurasi yang lebih tinggi dibandingkan metode RLSP dan metode imputasi row average dengan melihat nilai NRMSE dari estimasi missing value pada metode-metode ini.

Missing values are a common problem in gene expression data analysis. One of the methods used to overcome this problem is by performing imputation. Imputation is the process of replacing missing values in data with values obtained from certain methods. This thesis discusses an imputation method for gene expression data which is a development of the robust least squares estimation with principal components (RLSP) imputation method using the biclustering concept. This method is called bicluster-based robust least squares estimation with principal components (bi-RLSP). This RLSP method is a gene expression data imputation method that uses the concept of k-nearest neighbor, principal component analysis, and quantile regression. The concept of biclustering is applied to replace the k-nearest neighbor concept that look for similar rows under all columns, so that it can search for similar rows as well as similar columns simultaneously. The bi-RLSP method was applied to impute missing values in gene expression data, where this method was found to have a higher accuracy than the RLSP method and the row average imputation method by looking at the NRMSE value of the estimated missing values in these methods."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Nurul Shabrina

Metode Bicluster Berbasis k-Nearest Neighbors dan Robust Least Squares Estimation menggunakan Principal Components (bi-KNNRLSP) untuk imputasi Missing values pada Data Ekspresi Gen = Missing values Imputation for Microarray Data Using Bicluster-Based k-Nearest Neighbors and Robust Least Squares Estimation with Principal Components (bi-KNN-RLSP)

"Microarray merupakan salah satu teknologi pada bidang biologi yang memberikan

informasi tentang ekspresi gen. Data microarray mentah berupa gambar, yang harus

diubah menjadi matriks ekspresi gen dimana baris menunjukkan gen, kolom

menunjukkan kondisi eksperimental. Namun, pada praktiknya data microarray banyak

ditemukan missing values yang tentunya akan menghambat proses dari analisis datanya.

Imputasi merupakan salah satu solusi yang dapat mengatasi adanya missing values pada

data microarray. Dengan menggunakan imputasi, nilai missing values yang terdapat pada

matriks data diprediksi atau diestimasi sehingga diperoleh matriks data yang lengkap.

Metode imputasi yang digunakan pada penelitian ini bernama bi-KNN-RLSP, yang

menggunakan konsep biclustering, principal component analysis, dan regresi kuantil.

Dalam proses pembentukan biclustering, dibutuhkan matriks lengkap sementara yang

diperoleh melalui proses praimputasi dengan KNNimpute. Percobaan bi-KNN-RLSP

dilakukan pada data ekspresi gen garis sel kanker serviks dengan menerapkan missing

rate yang berbeda, yaitu 1%, 5%, 10%, 15%, 20%, 25%, dan 30% dengan menggunakan

parameter k=10 pada proses praimputasi KNNimpute. Hasil percobaan tersebut dievaluasi

performanya menggunakan normalized root mean squared error. Nilai rata-rata NRMSE

pada percobaan yang dilakukan sebanyak lima kali memiliki nilai yang lebih rendah

dibandingkan dengan metode bi-RLSP dan row average. Waktu komputasi untuk metode bi-KNN-RLSP dan bi-RLSP tidak jauh berbeda, sehingga dengan waktu yang tidak

signifikan berbeda, metode bi-KNN-RLSP dapat menghasilkan nilai NRMSE yang lebih kecil dibandingkan dengan bi-RLSP. Oleh karena itu, dapat dikatakan bahwa modifikasi praimputasi row average pada metode bi-RLSP menjadi KNNimpute dapat menghasilkan performa imputasi yang lebih bagus. Selain itu, diperoleh hasil bahwa nilai NMRSE untuk metode bi-KNN-RLSP meningkat seiring dengan meningkatnya missing rate.

Microarray is a technology in biology that provides information about gene expression. The raw microarray data is in the form of images, which must be converted into a gene expression matrix where rows indicate genes, columns indicate experimental conditions. However, in practice, many missing values are found in microarray data, which of course
will hinder the process of data analysis. Imputation is one solution that can overcome the missing values in microarray data. By using imputation, the missing values contained in the data matrix are predicted or estimated so that a complete data matrix is obtained. The imputation method used in this study is called bi-KNN-RLSP, which uses the concept of
biclustering, principal component analysis, and quantile regression. In the process of forming biclustering, a temporary complete matrix is needed which is obtained through the pre-imputation process with KNNimpute. The bi-KNN-RLSP experiment was carried out on cervical cancer cell line gene expression data by applying different missing rates,
namely 1%, 5%, 10%, 15%, 20%, 25%, and 30% using the parameter k=10. in the KNNimpute pre-imputation process. The results of these experiments were evaluated for their performance using the normalized root mean squared error. The average value of NRMSE in the five times experiment has a lower value than the bi-RLSP and row average methods. The computation time for the bi-KNN-RLSP and bi-RLSP methods is not much different, so with the time that is not significantly different, the bi-KNN-RLSP method can produce a smaller NRMSE value compared to bi-RLSP. Therefore, it can be said that the modification of the row average preimputation in the bi-RLSP method to KNNimpute can produce better imputation performance. In addition, it was found that the NMRSE value for the bi-KNN-RLSP method increased along with the increase in the missing rate."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Yoel Fernando

Metode iterative bicluster-based bayesian principal component analysis dan least square (bi-BPCA-iLS) untuk imputasi missing values pada data ekspresi gen = Iterative bicluster-based bayesian principal component analysis and least square (bi-BPCA-iLS) for missing values imputation in gene expression data

"Penelitian biologi dengan menggunakan teknologi microarray menghasilkan data ekspresi gen berbentuk matriks di mana baris adalah gen dan kolom adalah kondisi. Analisis lanjutan dalam data ekspresi gen membutuhkan data yang lengkap. Namun, data ekspresi gen sering kali mengandung nilai hilang atau missing values. Ada berbagai cara untuk mengatasi missing values, antara lain pembuangan gen atau kondisi yang mengandung missing values, pengulangan pengambilan data, dan imputasi missing values pada data ekspresi gen. Pendekatan imputasi missing values awal hanyalah dengan mengisi nilai nol atau rata-rata baris. Namun, pendekatan ini tidak melihat informasi koheren dalam data. Pendekatan imputasi missing values terbagi menjadi empat berdasarkan informasi yang diperlukan pada algoritmanya, yaitu pendekatan lokal, pendekatan global, pendekatan hybrid, dan pendekatan knowledge assisted. Pada penelitian ini peneliti menggunakan algoritma pendekatan lokal dan global. Metode imputasi missing values paling popular untuk pendekatan global adalah Bayesian Principal Component Analysis (BPCA), sedangkan untuk pendekatan lokal adalah Local Least Square (LLS). Pada metode LLS, pemilihan similaritas gen dilakukan dengan teknik clustering dimana seluruh kondisi dalam data digunakan. Kenyataanya, terkadang gen-gen similar hanya dalam beberapa kondisi eksperimental saja. Maka, diperlukan teknik biclustering untuk dapat menemukan subset gen dan subset kondisi yang similar sebagai informasi lokal. Penerapan ide biclustering dalam LLS dinamakan sebagai Iterative Bicluster-Based Least Square (bi-iLS). Salah satu tahapan awal dalam bi-iLS adalah pembentukan matriks komplit sementara yang didapat dengan cara mengisi missing values dengan row average. Namun, row average dinilai kurang bagus karena hanya menggunakan informasi satu baris tersebut. Kekurangan ini diperbaiki dalam penelitian ini. Penggunaan metode BPCA untuk menemukan matriks komplit sementara dinilai lebih baik karena BPCA menggambarkan struktur keseluruhan data. Penggantian row average menjadi BPCA menjadi dasar masalah penelitian ini. Metode iterative Bicluster-based Bayesian Principal Component Analysis dan Least Square (bi-BPCA- iLS) pun diajukan. Penerapan bi-BPCA-iLS terhadap data ekspresi gen yang dihasilkan teknologi microarray terbukti menghasilkan penurunan nilai Normalzied Root Mean Square Error (NRMSE) sebesar 10,6% dan 0,58% secara rata-rata dalam beberapa missing rate (1%, 5%, 10%, 15%, 20%, 25%, dan 30%) jika dibandingkan dengan metode LLS dan bi-iLS.

Biological research using microarray technique produce some important gene expression datasets. These data can be expressed as a matrix in which rows are genes and columns are different conditions. Further analysis of these datasets requires a complete dataset or matrix. However, gene expression datasets often contain missing values. There are some ways to handle missing values, such as deletion of genes or conditions that contain missing values, repeat the process of acquiring data, and impute the missing values. Early approaches in missing values imputation are simply to replace missing values with zeros or row averages, but these methods do not use the coherence inside the data. Later, approaches in missing values imputations are categorized into four groups based on the required information, such as local, global, hybrid, and knowledge assisted approaches. In this paper, local and global approaches are used. Bayesian Principal Component Analysis (BPCA) is a well-known global based method, while the most popular local based method is Local Least Square (LLS). In LLS, selection of similar genes uses clustering technique where all conditions in the data are included. The reality is genes sometimes only correlate under some experimental conditions only. So, a technique that can find subset of genes under subset of experimental conditions for local information is needed. This technique is called biclustering. The usage of biclustering in LLS is called the Iterative Bicluster-based Least Square (bi-iLS). One of the early steps in bi-iLS is to find a temporary complete matrix. Temporary complete matrix is obtained by applying row averages to impute missing values. However, row average cannot reflect the real structure of the dataset because row average only uses the information of an individual row. The missing values in a target gene do not only rely on the known values of its own row. In this research, row average in bi-iLS is replaced with BPCA. The benefit of using BPCA is that it uses global structure of the dataset. This update will be the basic problem of this research. The proposed method is called Iterative Bicluster-based Bayesian Principal Component Analysis and Least Square (bi-BPCA-iLS). This new proposed method is applied to gene expression datasets from microarray technique. It shown a decrease in values of Normalized Root Mean Square Error (NRMSE) about 10.6% from LLS and about 0.58% from bi-iLS based on different missing rates (1%, 5%, 10%, 15%, 20%, 25%, and 30%)."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Alya Fadhilah Putri Banyu Nur Inayah

Metode Bicluster-Based Bayesian Principal Component Analysis dan Robust Least Squares Estimation dengan Principal Components (bi-BPCA-RLSP) untuk Imputasi Missing Value pada Data Ekspresi Gen = Bicluster-Based Bayesian Principal Component Analysis and Robust Least Squares Estimation with Principal Components (bi-BPCA-RLSP) for Missing Values Imputation on Gene Expression Data

"Data ekspresi gen adalah data yang menyajikan tingkat ekspresi gen pada kondisi yang berbeda-beda. Analisis data ekspresi gen microarray sangat penting karena memiliki aplikasi luas pada bidang biologi, medis, dan lain-lain. Dalam melakukan analisis data ekspresi gen, sebagian besar algoritma analisis membutuhkan data matriks yang lengkap. Sayangnya, beberapa data mungkin hilang karena kerusakan gambar, debu, dan kesalahan eksperimental. Oleh karena itu, metode imputasi missing value diperlukan untuk melakukan pemulihan pada data yang hilang tersebut. Penelitian ini mengembangkan suatu metode imputasi missing value, yaitu bicluster-based Bayesian principal component analysis dan robust least squares estimation dengan principal components (bi-BPCA-RLSP). Metode bi-BPCA-RLSP merupakan metode pengembangan dari bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Pada metode bi-RLSP, tahap praimputasi untuk memperoleh matriks komplit sementara dilakukan dengan menggunakan metode row average. Namun, metode row average dinilai kurang baik dalam menggambarkan struktur keseluruhan data karena hanya menggunakan informasi dari baris yang mengandung missing value. Oleh karena itu, penelitian ini melakukan penggantian metode row average menjadi BPCA. BPCA menggunakan informasi korelasi dari seluruh data sehingga lebih baik dalam menggambarkan struktur keseluruhan data. Metode bi-BPCA-RLSP diterapkan pada data ekspresi gen garis sel kanker serviks dengan missing rate 1%, 5%, 10%, 15%, 20%, 25%, dan 30%. Performa metode bi-BPCA-RLSP diukur dengan menggunakan nilai normalized root mean squared error (NRMSE) dan dibandingkan dengan metode bi-RLSP. Hasil penelitian menunjukkan bahwa kinerja bi-BPCA-RLSP lebih baik daripada bi-RLSP karena nilai NRMSE pada bi-BPCA-RLSP lebih rendah dibandingkan bi-RLSP untuk setiap missing rate.

Gene expression data is data that presents the level of gene expression under different conditions. Analysis of microarray gene expression data is very important because it has wide applications in the fields of biology, medicine, and others. In analyzing gene expression data, most of the analytical algorithms require a complete data matrix. Unfortunately, some data may be lost due to image corruption, dust, and experimental errors. Therefore, the missing value imputation method is needed to recover the lost data. This study developed a missing value imputation method, namely bicluster-based Bayesian principal component analysis and robust least squares estimation with principal components (bi-BPCA-RLSP). The bi-BPCA-RLSP method is a development method of bicluster-based robust least squares estimation with principal components (bi-RLSP). In the bi-RLSP method, the pre-imputation stage to obtain a temporary complete matrix is carried out using the row average method. However, the row average method is considered poor in describing the overall structure of the data because it only uses information from rows containing missing values. Therefore, this study replaced the row average method by BPCA. BPCA uses correlation information of all data so that it describes better the overall structure of the data. The bi-BPCA-RLSP method was applied to gene expression data of cervical cancer cell lines with missing rates of 1%, 5%, 10%, 15%, 20%, 25%, and 30%. The performance of the bi-BPCA-RLSP method was measured using the normalized root mean squared error (NRMSE) and compared with the bi-RLSP method. The results showed that bi-BPCA-RLSP performed better than bi-RLSP because the NRMSE value of bi-BPCA-RLSP was lower than bi-RLSP for each missing rate."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Dea Kristina

Analisis Reduksi Komponen Uji Klinis Dan Imputasi Missing Value pada Data Uji Klinis Menggunakan Metode Principal Component Analysis (PCA) pada Studi Kasus Demensia = Analysis of Clinical Trial Component Reduction and Missing Value Imputation in Clinical Trial Data Using Principal Component Analysis (PCA) Method in Dementia Case Study

"Kementrian Kesehatan menyatakan Indonesia sudah memasuki kondisi ageing population, dimana kondisi tersebut ditandai dengan kenaikan persentase penduduk lanjut usia (lansia). Kondisi tersebut tentunya memerlukan perhatian khusus dari pemerintah. Demensia adalah istilah medis untuk menggambarkan gejala penurunan memori dan fungsi kognitif pada tubuh manusia. Indonesia termasuk sepuluh negara dengan jumlah penderita orang dengan demensia (ODD) tertinggi di dunia, dan pada tahun 2050 jumlahnya diprediksi mencapai empat juta jiwa. Prediksi tersebut dibuat berdasarkan perbandingan jumlah lansia di Indonesia dengan jumlah ODD di seluruh dunia. Penelitian bertujuan untuk mengetahui peran dari masing-masing uji klinis untuk mengidentifikasi penderita ODD dan mereduksi komponen uji klinis yang memiliki peran kontribusi rendah. Data yang digunakan adalah data uji klinis NIFD (Neuroimaging in Frontotemporal Dementia). Metode yang akan digunakan adalah Principal Component Analysis (PCA), dimana metode ini bertujuan untuk melihat komponen uji klinis yang memberikan peran kontribusi dalam mengidentifikasi penderita ODD. Selain itu, akan dilakukan proses imputasi missing value dengan menggunakan algoritma pengembangan dari PCA, yaitu SVD-Impute dan PPCA. Setelah dilakukan tiga kali iterasi, pengujian menunjukan bahwa metode PPCA lebih baik dalam melakukan imputasi missing value dibandingkan dengan metode SVDImpute berdasarkan nilai NRMSE dan koefisien korelasi Pearson.

The Ministry of Health stated that Indonesia had entered a condition of an aging population, where an increase in the proportion of older people marks this condition. This condition certainly requires special attention from the government. Dementia is a medical term to describe symptoms of decreased memory and cognitive function in the human body. Indonesia is one of the ten countries with the highest number of people with dementia in the world, and by 2050 it is predicted to reach four million people. This prediction was based on comparing the number of older people in Indonesia with those with dementia worldwide. The research aims to determine each clinical trial's role in identifying people with dementia and reducing the components of clinical trials with a low role contribution. The data used is NIFD (Neuroimaging in Frontotemporal Dementia) clinical trial data. The method used is Principal Component Analysis (PCA), which aims to see clinical component tests that contribute to identifying people with dementia. In addition, the missing value imputation process will be carried out using the development algorithm from PCA, SVD-Impute and PPCA. After three iterations, the test showed that the PPCA method was better at imputing missing values than the SVDImpute method based on the NRMSE value and Pearson's correlation coefficient."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Taufik Anwar

Implementasi K-harmonic means clustering untuk imputasi missing values = Implementation of K-harmonic means clustering for missing values imputation

"Pembersihan data merupakan salah satu langkah dalam preprocessing yang dalam prosesnya sering menemukan nilai yang hilang dalam dataset. Nilai yang hilang adalah suatu kondisi di mana tidak ada nilai untuk pengamatan. Langkah cepat yang dapat diambil untuk menangani nilai yang hilang adalah menghapus pengamatan yang mengandung nilai yang hilang, tetapi ini dapat mengurangi informasi dalam data. Cara lain untuk menangani nilai yang hilang adalah dengan menggunakan imputasi dengan mean, median, atau mode nilai dalam variabel di mana nilai-nilai yang hilang berada, dan beberapa metode imputasi seperti imputasi dengan pendekatan clustering. Imputasi dengan pendekatan clustering adalah fokus dari penelitian ini, di mana penelitian ini menggunakan K-Harmonic Means yang telah disesuaikan untuk menangani data numerik dan kategorik campuran. K-Harmonic Means adalah perpanjangan dari K-Means dengan mengurangi masalah sensitivitas inisialisasi centroid acak. Imputasi nilai-nilai yang hilang dilakukan dengan mendistribusikan pengamatan yang memiliki nilai-nilai yang hilang ke cluster dan mengganti nilai-nilai yang hilang dengan informasi centroid pada cluster yang sama. Simulasi menggunakan data dengan nilai-nilai yang hilang yang dibuat menggunakan mekanisme yang hilang sepenuhnya secara acak dengan proporsi 10%, 15%, dan 20% dari total pengamatan. Hasil simulasi dievaluasi menggunakan root mean square error (RMSE) dan nilai akurasi masing-masing nilai imputasi untuk data numerik dan kategorikal. Dalam penelitian ini, hasil imputasi optimal diperoleh pada data dengan proporsi nilai yang hilang 10%, yang memiliki nilai RMSE rendah dan nilai akurasi tinggi.

Data cleaning is one step in preprocessing which in the process often finds missing values in the dataset. Missing value is a condition where there is no value for observation. A quick step that can be taken to handle missing values is to delete observations that contain missing values, but this can reduce the information in the data. Another way to handle missing values is to use imputations with the mean, median, or value modes in the variable where the missing values are located, and some imputation methods such as imputation with the clustering approach. Imputation with the clustering approach is the focus of this study, where this study uses K-Harmonic Means that have been adjusted to handle numerical and mixed categorical data. K-Harmonic Means is an extension of K-Means by reducing the sensitivity problem of random centroid initialization. The imputation of missing values is carried out by distributing observations that have missing values to the cluster and replacing the missing values with centroid information on the same cluster. The simulation uses data with missing values that are made using a completely random missing mechanism with a proportion of 10%, 15%, and 20% of the total observations. Simulation results are evaluated using the root mean square error (RMSE) and the accuracy value of each imputation value for numerical and categorical data. In this study, the optimal imputation results are obtained on data with a proportion of missing values of 10%, which has a low RMSE value and a high accuracy value."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Dini Rahayu

Implementasi algoritma expectation maximization untuk menangani missing value pada model regresi = A study of imputation methods for missing value with regression model

"Masalah yang sering terjadi dalam penelitian adalah adanya missing value padahal data yang lengkap diperlukan untuk mendapatkan hasil analisis yang menggambarkan populasi. Dalam pengolahan data, missing value sering terjadi pada analisis regresi. Analisis regresi merupakan suatu model prediksi dengan melihat hubungan antara variabel respon dan variabel prediktor. Missing value dalam analisis regresi dapat ditemukan baik pada variabel respon maupun variabel prediktor. Penelitian ini membahas imputasi missing value yang terjadi pada kedua variabel tesebut dengan menggunakan imputasi regresi. Algoritma Expectation Maximization (EM) merupakan metode penaksiran parameter regresi dengan menggunakan metode Maximum Likelihood Estimaton (MLE) pada data yang memiliki missing value. Untuk menyeimbangkan hasil taksiran parameter model regresi untuk setiap variabel, dilakukan proses penyeimbangan (balance process) untuk mendapatkan hasil taksiran parameter yang konvergen. Simulasi taksiran nilai variabel respon dan prediktor yang hilang dilakukan pada berbagai variasi persentase missingness. Metode penaksiran parameter regresi dengan menggunakan algoritma EM, dapat menghasilkan model yang menjelaskan data sebesar 87% hingga terjadi missing sebanyak 60%.

The problem that often occurs in research is the existence of missing values even though complete data is needed to obtain the results of analysis that describe the population. In processing data, missing values often occur in regression analysis. Regression analysis is a prediction model by looking at the relationship between response variables and predictor variables. Missing values in regression analysis can be found in both the response variable and predictor variable. This study discusses the imputation of missing values that occur in both variables using regression imputation. The Expectation Maximization (EM) algorithm is a method of estimating regression parameters using the Maximum Likelihood Estimaton (MLE) method on data that has missing value. To balance the estimated parameters of the regression model for each variable, a balance process is performed to obtain the results of the convergent parameter estimates. The estimated simulation of the value of the response variable and missing predictor was carried out in various variations in the percentage of missingness. The method of estimating regression parameters using the EM algorithm, can produce a model that explains the data by 87% until there is missing as much as 60%."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Samuel Zico Christopher

Analisis imputasi missing value menggunakan fractional hot deck pada data numerik = Missing value analysis of numerical data using fractional hot deck imputation

"Salah satu metode yang populer untuk mengatasi missing value dalam sebuah survei adalah metode imputasi. Imputasi adalah solusi untuk mengganti suatu missing value dengan suatu nilai pengganti yang didapatkan dari teknik khusus tertentu, misalnya imputasi menggunakan nilai mean, nilai median, dan lain sebagainya. Pada skripsi dibahas suatu teknik imputasi yang menggabungankan dua macam teknik imputasi lain, yakni imputasi fractional dan imputasi hot deck. Imputasi fractional adalah imputasi yang punya kelebihan dalam meminimumkan suatu variansi dalam suatu data dikarenakan nilai imputasi yang dihasilkan berasal dari data set dalam survei itu sendiri, namun kekurangannya adalah bahwa nilai imputasi dari teknik fractional akan membuat jumlah observasi menjadi mengembang. Oleh karena masalah pengembangan data set yang dihasilkan teknik fractional tersebut, imputasi hot deck menjadi solusi untuk membatasi masalah jumlah observasi yang dihasilkan dengan membatasi calon nilai imputasi (donor) untuk suatu nilai hilang. Imputasi yang menggabungkan teknik imputasi fractional dan hot deck akan dikenal dengan nama imputasi fractional hot deck dengan sifat yang mirip dengan imputasi fractional , namun observasi yang dihasilkan lebih sedikit.

One of the most popular solution of missing value is imputation in a survey is imputation. Imputation is a solution to replace missing value with imputed value from a particular technique, such as mean value, median value, etc. This Thesis specifically discuss about technique that fuse fractional imputation technique and hot deck imputation technique. Fractional imputation is popular because this imputation tends to produce less variance compare to other methods. Unfortunately this method will extend the number of observations. Because fractional imputation tends to extend the number of observations, sampling becomes a solution to produce less observation. Sampling limits the numbers of imputed values (donor) in the observations that adopts hot deck imputation nature. The imputation that fuse fractional imputation and hot deck imputation is known as fractional hot deck, and produce a data set that have similar property to fractional imputation, but less observations."

Depok: Universitas Indonesia, 2019

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Geraldine Immanuel Tangyong

Pengkajian Metode Ordering Points to Identify the Clustering Structure (OPTICS) pada Data dengan Permasalahan Missing Value dan Penerapan pada Data Real (Data Socio-Economic) = Assessment of the Ordering Points to Identify the Clustering Structure (OPTICS) Method on Data with Missing Value Problems and Applications to Real Data (Socio-Economic Data)

"Clustering merupakan salah satu metode pengolahan data yang bekerja dengan mengelompokkan objek-objek yang memiliki kemiripan ke dalam beberapa kelompok. Salah satu metode dari clustering adalah metode Ordering Points to Identify the Clustering Structure (OPTICS) yang adalah metode turunan dari metode Density Based Spatial Clustering of Application with Noise (DBSCAN). DBSCAN memiliki dua parameter, yaitu epsilon dan MinPts. Parameter ini mengakibatkan DBSCAN kurang bisa beradaptasi terhadap variasi densitas data. Karena itu, OPTICS hadir untuk mengatasi masalah tersebut dengan parameter core distance dan reachability distance. Tujuan dari penelitian ini adalah mengkaji metode OPTICS dan menerapkannya pada data sintetis dengan missing value serta pada data real, dengan data yang digunakan adalah data Socio-Economic dengan 167 observasi. Dari hasil pengkajian diketahui bahwa jika suatu data memiliki proporsi missing value lebih dari 15%, maka nilai akurasi dianggap tidak baik. Selanjutnya, dilakukan penerapan terhadap data Socio-Economic dan diperoleh 3 cluster. Cluster 1 memiliki jumlah anggota terbanyak dan cenderung memiliki skor terendah pada banyak variabel dibanding cluster lainnya dan dapat dilihat bahwa anggota dari cluster 1 banyak terdiri dari negara-negara berkembang. Cluster 2 cenderung memiliki skor tertinggi dan negara-negara di cluster 2 merupakan negara-negara maju. Cluster 3 banyak berisi negara campuran, baik negara berkembang maupun negara maju.

Clustering is a data processing technique that works by grouping objects that have similarities into different groups. One method of clustering is the Ordering Points to Identify the Clustering Structure (OPTICS) method, a derivative method of the Density Based Spatial Clustering of Application with Noise (DBSCAN) method. DBSCAN has two kinds of parameters, epsilon and MinPts. These parameters cause DBSCAN to not be able to adapt fully to arbitrary data forms. Therefore, OPTICS is here to solve this problem with the parameters of core distance and reachability distance. The purpose of this study is to examine the OPTICS method and apply it to synthetic with missing value and real data, using the Socio-Economic data with 167 observations. We can conclude that if a data has a missing value proportion of more than 15%, then the accuracy value is considered not good. Furthermore, the Socio-Economic data was applied and obtained 3 clusters. Cluster 1 has the largest number of members and have the lowest scores on many variables, which consists mostly of developing countries. Cluster 2 tends to have the highest score whereas most coming from developed countries. Cluster 3 contains many mixed countries, both developing and developed countries."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Graham, John W.

Missing data : analysis and design

"This book offers an easy-to-read introduction to the theoretical underpinnings of analysis of missing data, provides clear, step-by-step instructions for performing state-of-the-art multiple imputation analyses, and offers practical advice, based on over 20 years' experience, for avoiding and troubleshooting problems. For more advanced readers, unique discussions of attrition, non-Monte-Carlo techniques for simulations involving missing data, evaluation of the benefits of auxiliary variables, and highly cost-effective planned missing data designs are provided. Most analysis described in the book are conducted using the well-known statistical software packages SAS and SPSS, supplemented by Norm 2.03 and associated Java-based automation utilities. "

New York: [Springer, ], 2012

e20419631

eBooks Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian