Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 11 dokumen yang sesuai dengan query
cover
Anak Agung Adi Widya Kusuma
"Tingkat morbiditas tuberkulosis (TB) di Indonesia menunjukkan banyaknya penduduk di Indonesia yang menderita TB. Tingkat morbiditas TB dapat digunakan oleh perusahaan asuransi untuk memprediksi risiko seseorang terkena TB sehingga perusahaan asuransi dapat menentukan premi yang akan dibebankan kepada pemohon asuransi berdasarkan risikonya. Oleh karena itu, kemampuan untuk memperkirakan tingkat morbiditas TB secara akurat sangat penting bagi perusahaan asuransi untuk dapat menentukan jumlah premi yang tepat namun tetap kompetitif. Penelitian ini bertujuan untuk membangun dan membandingkan dua model yang dapat digunakan untuk memprediksi angka morbiditas TB di Indonesia. Model ini dibangun menggunakan metode Temporal Convolutional Neural Network (TCNN) dan exponential smoothing. Data yang digunakan dalam penelitian ini diperoleh dari situs resmi Kementerian Kesehatan Republik Indonesia. Sebelum model dibangun, data yang digunakan dalam penelitian ini disusun menjadi dataset pelatihan dan validasi. Model tersebut dibangun dengan menggunakan dataset training dan divalidasi menggunakan dataset validasi. Hasil validasi model kemudian dievaluasi dan dibandingkan berdasarkan nilai mean squared error (MSE). Hasil dari penelitian ini menunjukkan bahwa model TCNN yang dibangun menghasilkan nilai MSE yang lebih rendah dari pada model exponential smoothing.
......Tuberculosis (TB) morbidity rate in Indonesia shows the number of population in Indonesia who suffer from TB. The TB morbidity rate can be used by insurance companies to predict a person's risk of TB so that insurance companies can determine the premiums that will be charged to insurance applicants based on the risks. Thus, the ability to estimate the TB morbidity rate accurately is essential for insurance companies to be able to determine the right premium amount while remaining competitive. This study compared two models that can be used to predict TB morbidity rate in Indonesia. The model was built using the temporal convolutional neural network (TCNN) and exponential smoothing methods. The data that is used in this study are obtained from the official website of the ministry of health of the Republic of Indonesia. Before the model was built, the data used in this study were compiled into training and validation datasets. The model is built using a training dataset and validated using the validation dataset. The results of the model's validation are then evaluated and compared based on the value of the mean squared error (MSE). The result of this study shows that the TCNN model provides lower MSE compared to exponential smoothing."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Rasendriya Maheswari
"Teknologi microarray merupakan alat terapan ilmu bioinformatika dalam bidang biologi molekuler yang dapat menghasilkan suatu data ekspresi gen. Namun, pada data ekspresi gen sering ditemukan missing value yang dapat mengganggu proses analisis data. Untuk mengatasi masalah tersebut, missing value dapat diestimasi menggunakan teknik imputasi. Penelitian ini menggunakan metode NCBI-SSSim-QR yang merupakan metode imputasi biclustering berbasis Shifting-and-Scaling Similarity (SSSim) dan menggunakan regresi kuantil dalam mengestimasi missing values. Metode ini merupakan modifikasi dari metode NCBI-SSSim-LS yang menggunakan regresileast square dalam proses imputasinya. Regresi kuantil pada metode NCBI-SSSim-QR digunakan untuk menangani keberadaan outlier pada data karena regresi kuantil dapat menyesuaikan kemiringan distribusi data pada titik-titik kuantil tertentu. Pada penelitian ini, metode NCBI-SSSim-QR diimplementasikan pada data ekspresi gen kanker serviks yang mengandung outlier dan diujikan pada missing rate 5%, 10%, 15%, 20%, 25%, 30%, dan 35% dengan mekanisme MCAR (Missing Completely at Random) dalam pembentukan missing values. Terdapat beberapa titik kuantil yang diuji yaitu kuantil ke = 0,3, 0,4, 0,5, 0,6, 0,7 yang kemudian performanya dibandingkan dengan metode NCBI-SSSim-LS yang berbasis mean. Penelitian menunjukkan bahwa proses estimasi missing values pada data ekspresi gen kanker serviks paling baik dilakukan oleh metode NCBI-SSSim-QR dengan kuantil 0,5 berdasarkan nilai Root Mean Square Error (RMSE).
......Microarray technology is a bioinformatics tools in molecular biology that capable for quantitating hundreds or thousands of gene transcripts called gene expression data. However, the presence of missing values is often found in gene expression data which can interfere the further analysis process. Therefore, imputation technique used for estimating missing values. This research used NCBI-SSSim-QR method which is a Shifting-and-Scaling Similarity (SSSim)-based biclustering imputation method using quantile regression to estimate the missing values. This method is a modification of the NCBI-SSSim-LS method that using the least square regression for imputation process. Quantile regression in the NCBI-SSSim-QR method is used to handle the presence of outliers in the data because quantile regression can follow the skewness of the data distribution at certain quantile points. In this research, the NCBI-SSSim-QR method will be implemented on cervical cancer gene expression data containing outliers and tested on missing rate of 5%, 10%, 15%, 20%, 25%, 30%, and 35% with MCAR (Missing Completely at Random) mechanism in generating missing values. There are several quantile points to be tested, = 0,3, 0,4, 0,5, 0,6, 0,7 which will then be compared with the NCBI-SSSim-LS method which is mean-based. The research shows that the estimation process for missing values in cervical cancer gene expression data is better estimated by NCBI-SSSim-QR method with a quantile of 0,5 based on the Root Mean Square Error (RMSE) value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kevin Prawira
"Studi mengenai kesehatan terus dikembangkan untuk meneliti dan mengetahui struktur penyusun makhluk hidup dalam dunia ini. Salah satunya adalah studi mengenai gen yang telah dikembangkan melalui teknologi microarray yang dapat menghasilkan data ekspresi gen. Namun sayangnya, studi ini sering terhambat akibat banyaknya informasi yang hilang pada data ekspresi gen tersebut, sehingga analisis lebih lanjut mengenai data ekspresi gen sulit dilanjutkan. Oleh karena itu, dibutuhkan suatu metode imputasi untuk mengisi hilangnya informasi tersebut sehingga analisis dapat dilanjutkan dan dikembangkan dengan lebih luas lagi. Pada penelitian ini, dikembangkan sebuah metode imputasi baru bernama SBi-BPCA-MSREimpute yang menggunakan perpaduan Bayesian Principal Component Analysis (BPCA), Biclustering serta jarak Euclidean dalam melakukan prediksi nilai imputasi. Metode ini menggunakan pendekatan hybrid dalam imputasinya, yaitu dengan metode BPCA (global) sebagai metode pra-imputasi, serta penggunaan metode nearest neighbour (lokal) dalam penentuan bicluster untuk memetakan gen yang memiliki pola sama dengan gen target. Penggunaan BPCA didasarkan pada struktur korelasi data yang besar, sehingga BPCA cocok digunakan untuk mereduksi dimensi data. Adapun penentuan nearest neighbour sebagai bentuk bicluster didasarkan pada nilai mean squared residual serta jarak Euclidean terhadap gen target. Akibatnya, bicluster yang terpilih merupakan gen kandidat yang memiliki sifat sama dengan gen target. Perhitungan nilai imputasi akhir dihitung menggunakan rata-rata terboboti pada anggota bicluster, serta normalized root mean squared error digunakan sebagai pengukuran evaluasi. Percobaan imputasi menggunakan metode SBi-BPCA-MSREimpute dilakukan pada data ekspresi gen sel kanker usus besar dengan percobaan tingkat missing rate 5%, 10%, 15%, 20%, 25%, 30%, 40%, serta 50%. Terdapat beberapa k neighbour gen yang diuji yaitu pada tingkat k = 5%,10%,15%,20%,25% dari banyaknya baris pada data. Pengujian menunjukkan bahwa SBi-BPCA-MSREimpute merupakan metode imputasi yang lebih baik daripada SBi-MSREimpute. Pengujian juga mendapatkan hasil bahwa nilai k = 5%,10%,15%,25% paling optimal digunakan pada data dengan missing rates 15% serta k = 20% paling optimal digunakan pada data dengan missing rate 10%. Berdasarkan missing rates, data dengan missing rates 5%, 10%, 15%, 20%, 25%, 30%, 40% paling optimal diimputasi menggunakan tingkat k = 5%, sedangkan data dengan missing rates 50% paling optimal diimputasi menggunakan tingkat k = 10%.
......"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alya Fadhilah Putri Banyu Nur Inayah
"Data ekspresi gen adalah data yang menyajikan tingkat ekspresi gen pada kondisi yang berbeda-beda. Analisis data ekspresi gen microarray sangat penting karena memiliki aplikasi luas pada bidang biologi, medis, dan lain-lain. Dalam melakukan analisis data ekspresi gen, sebagian besar algoritma analisis membutuhkan data matriks yang lengkap. Sayangnya, beberapa data mungkin hilang karena kerusakan gambar, debu, dan kesalahan eksperimental. Oleh karena itu, metode imputasi missing value diperlukan untuk melakukan pemulihan pada data yang hilang tersebut. Penelitian ini mengembangkan suatu metode imputasi missing value, yaitu bicluster-based Bayesian principal component analysis dan robust least squares estimation dengan principal components (bi-BPCA-RLSP). Metode bi-BPCA-RLSP merupakan metode pengembangan dari bicluster-based robust least squares estimation dengan principal components (bi-RLSP). Pada metode bi-RLSP, tahap praimputasi untuk memperoleh matriks komplit sementara dilakukan dengan menggunakan metode row average. Namun, metode row average dinilai kurang baik dalam menggambarkan struktur keseluruhan data karena hanya menggunakan informasi dari baris yang mengandung missing value. Oleh karena itu, penelitian ini melakukan penggantian metode row average menjadi BPCA. BPCA menggunakan informasi korelasi dari seluruh data sehingga lebih baik dalam menggambarkan struktur keseluruhan data. Metode bi-BPCA-RLSP diterapkan pada data ekspresi gen garis sel kanker serviks dengan missing rate 1%, 5%, 10%, 15%, 20%, 25%, dan 30%. Performa metode bi-BPCA-RLSP diukur dengan menggunakan nilai normalized root mean squared error (NRMSE) dan dibandingkan dengan metode bi-RLSP. Hasil penelitian menunjukkan bahwa kinerja bi-BPCA-RLSP lebih baik daripada bi-RLSP karena nilai NRMSE pada bi-BPCA-RLSP lebih rendah dibandingkan bi-RLSP untuk setiap missing rate.
......Gene expression data is data that presents the level of gene expression under different conditions. Analysis of microarray gene expression data is very important because it has wide applications in the fields of biology, medicine, and others. In analyzing gene expression data, most of the analytical algorithms require a complete data matrix. Unfortunately, some data may be lost due to image corruption, dust, and experimental errors. Therefore, the missing value imputation method is needed to recover the lost data. This study developed a missing value imputation method, namely bicluster-based Bayesian principal component analysis and robust least squares estimation with principal components (bi-BPCA-RLSP). The bi-BPCA-RLSP method is a development method of bicluster-based robust least squares estimation with principal components (bi-RLSP). In the bi-RLSP method, the pre-imputation stage to obtain a temporary complete matrix is carried out using the row average method. However, the row average method is considered poor in describing the overall structure of the data because it only uses information from rows containing missing values. Therefore, this study replaced the row average method by BPCA. BPCA uses correlation information of all data so that it describes better the overall structure of the data. The bi-BPCA-RLSP method was applied to gene expression data of cervical cancer cell lines with missing rates of 1%, 5%, 10%, 15%, 20%, 25%, and 30%. The performance of the bi-BPCA-RLSP method was measured using the normalized root mean squared error (NRMSE) and compared with the bi-RLSP method. The results showed that bi-BPCA-RLSP performed better than bi-RLSP because the NRMSE value of bi-BPCA-RLSP was lower than bi-RLSP for each missing rate."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Sabila Haqqi
"Banyak sekali variabel nonlinear didalam sistem kendali untuk quadcopter sehingga cukup rumit untuk mengendalikan dinamika penerbangan dari wahana ini. Salah satu metode yang digunakan untuk membangun model dinamik quadcopter adalah Deep Learning berbasis Long Short-Term Memory. Metode pembelajaran yang umum digunakan dalam melatih model adalah offline learning, dimana pelatihan dilakukan secara akumulatif berdasarkan dataset yang telah dimiliki. Walaupun offline learning memungkinkan model belajar lebih cepat, metode ini menghasilkan model yang kurang baik untuk wahana yang membutuhkan feedback dengan kompleksitas tinggi. Untuk menangani masalah tersebut akan dikembangkan metode online learning, dimana data diperoleh secara sekuensial dan digunakan untuk memperbarui model di setiap timestep. Akan ditunjukkan bahwa metode online learning dapat memperbaiki model yang diperoleh dari metode offline learning berdasarkan Mean Square Error dari setiap jenis data quadcopter.
..... There are so many nonlinear variables in the control system for the quadcopter so it is quite complicated to control the flight dynamics of this vehicle. One of the methods used to build a dynamic quadcopter model is Deep Learning based on Long Short-Term Memory. The learning method commonly used in training the model is offline learning, where training is carried out accumulatively based on the existing dataset. Although offline learning allows for faster learning models, this method results in poor models for vehicles that require high complexity feedback. To deal with this problem, an online learning method will be developed, where data is obtained sequentially and used to update the model at each time step. It will be shown that the online learning method can improve the model obtained from the offline learning method based on the Mean Square Error of each quadcopter data type."
Depok: Fakultas Teknik Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Achmad Fachrezi Az
"

Penelitian ini membahas konstruksi distribusi Marshall-Olkin-Kumaraswamy-Eksponensial (MOKw-E), yang merupakan kombinasi distribusi Marshall-Olkin (MO) dan Kumarawasmy-Eksponensial (Kw-E). Distribusi ini dikenal sebagai model fleksibel yang dapat diaplikasikan untuk data dengan berbagai bentuk distribusi. Estimasi parameter dilakukan menggunakan Maximum Likelihood Estimation (MLE) dengan bantuan dua metode numerik, yaitu metode Nelder-Mead dan metode Gradien Konjugat Fletcher Reeves. Kedua metode ini banyak digunakan dalam penyelesaian permasalahan optimasi karena memiliki tingkat efisiensi yang tinggi dengan komputasi yang sederhana tetapi memberikan hasil yang akurat. Kedua metode ini akan dibandingkan dengan melihat nilai Mean Squared Error (MSE) yang merupakan suatu metrik untuk melihat seberapa cocok model dengan data yang digunakan. Terakhir, model yang dikembangkan diaplikasikan pada data severitas klaim asuransi pengangguran untuk menunjukkan kemampuan model dalam memodelkan data severitas klaim. Model tersebut akan dibandingkan dengan model yang dibangun dari distribusi Kw-E dengan melihat nilai Akaike Information Criteria (AIC) dan Bayessian information criteria (BIC) untuk menunjukan bahwa model yang dikembangkan lebih baik dibandingkan model asalnya.


This research discusses the construction of the Marshall-Olkin-Kumaraswamy-Exponential (MOKw-E) distribution, which is a combination of the Marshall-Olkin (MO) and Kumaraswamy-Exponential (Kw-E) distributions. This distribution is known as a flexible model applicable to data with various distribution shapes. Parameter estimation is performed using Maximum Likelihood Estimation (MLE) with the assistance of two numerical methods the Nelder-Mead method and the Conjugate Gradient Fletcher Reeves method. Both methods are widely used in solving optimization problems due to their high efficiency with simple computations yet accurate results. These methods will be compared by examining the Mean Squared Error (MSE) values, which is a metric to assess how well the model fits the data. Finally, the developed model is applied to unemployment insurance claim severity data to demonstrate the model's capability in representing severity claim data. The model will be compared with a model built from the Kw-E distribution by evaluating the Akaike Information Criteria (AIC) and Bayesian Information Criteria (BIC) values to show that the developed model is superior to the original model.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Eka Aditya Pramudita
"Distribusi Poisson seringkali digunakan untuk menganalisis data count. Distribusi Poisson memiliki asumsi ekuidispersi, yaitu nilai mean sama dengan nilai variansinya. Namun, yang sering terjadi pada data terapan adalah overdispersi, yaitu variansi lebih besar dari mean. Salah satu penyebab overdispersi adalah banyaknya pengamatan bernilai 0 pada data (excess zeros). Distribusi Zero-Inflated Poisson (ZIP) merupakan distribusi yang dapat digunakan pada data count dengan excess zeros. Distribusi ZIP merupakan campuran dari distribusi degenerate di 0 dan distribusi Poisson. Parameter dari distribusi ZIP adalah dan . Dengan menggunakan metode Maximum Likelihood Estimation (MLE), akan dicari taksiran titik untuk parameter dan, di mana menyatakan probabilitas pengamatan 0 merupakan structural zeros dan menyatakan mean dari subpopulasi yang berdistribusi Poisson. Walaupun penaksiran parameter distribusi ZIP menggunakan MLE menghasilkan taksiran parameter dengan nilai MSE yang kecil, namun taksiran parameter tersebut memiliki bias karena penaksiran parameter harus dilakukan secara numerik. Bias dari taksiran parameter tersebut dapat dikurangi menggunakan metode Bias-Reduced MLE. Penggunaan metode ini tidak memengaruhi nilai Mean­-Squared Error (MSE) yang dimiliki oleh penaksir parameter MLE, sehingga bias dari penaksir parameter MLE dapat berkurang tanpa mengubah nilai MSE. Data simulasi digunakan untuk mengilustrasikan penaksiran parameter distribusi ZIP menggunakan Bias-Reduced MLE. Simulasi menunjukkan bahwa penaksiran parameter Bias-Reduced MLE menghasilkan bias penaksir yang lebih kecil daripada penaksir MLE pada ukuran sampel yang kecil. Selain itu, nilai MSE dari penaksir parameter Bias-Reduced MLE tidak berbeda secara signifikan dengan penaksir parameter MLE. Maka dari itu, penaksiran parameter Bias-Reduced MLE dapat mengurangi bias dari penaksir parameter MLE pada ukuran sampel yang kecil tanpa mengubah nilai MSE dari penaksir parameter MLE secara signifikan.
......Poisson distribution is commonly used to analyse count data. It requires equidispersion assumption, i.e. equality of mean and variance. However, what often happened to real data is overdispersion, i.e. variance exceeds mean. One of the cause of overdispersion is excess zeros. Zero-Inflated Poisson (ZIP) distribution can be used to analyse count data with excess zeros. ZIP Distribution is a mixing distribution ofdegenerate at 0 and Poissondistribution. Parameters of ZIP distribution are 𝜔and𝜆, where 𝜔denotes probability of structural zeros and denotes mean of Poisson distributed subpopulation. Those parameterswill be estimated by Maximum Likelihood Estimation (MLE) method. Although MLE estimates provide small MSE, but they are biased because the estimation should use numerical method. A way to reduce the bias is by Bias Reduced MLE method. This method would not compromise MSEso that the bias reduced while MSE remains the same. Illustration of Bias-Reduced MLE parameter estimation is given by generating simulation data.Data simulation shows that with Bias-Reduced MLE, ML estimators bias isreduced in small samples. Besides, the MSE of Bias Reduced ML estimator is not significantly different with ML estimator. So that, Bias-ReducedML estimator would reduce bias of ML estimator without compromise the MSE."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Shabrina
"Microarray merupakan salah satu teknologi pada bidang biologi yang memberikan
informasi tentang ekspresi gen. Data microarray mentah berupa gambar, yang harus
diubah menjadi matriks ekspresi gen dimana baris menunjukkan gen, kolom
menunjukkan kondisi eksperimental. Namun, pada praktiknya data microarray banyak
ditemukan missing values yang tentunya akan menghambat proses dari analisis datanya.
Imputasi merupakan salah satu solusi yang dapat mengatasi adanya missing values pada
data microarray. Dengan menggunakan imputasi, nilai missing values yang terdapat pada
matriks data diprediksi atau diestimasi sehingga diperoleh matriks data yang lengkap.
Metode imputasi yang digunakan pada penelitian ini bernama bi-KNN-RLSP, yang
menggunakan konsep biclustering, principal component analysis, dan regresi kuantil.
Dalam proses pembentukan biclustering, dibutuhkan matriks lengkap sementara yang
diperoleh melalui proses praimputasi dengan KNNimpute. Percobaan bi-KNN-RLSP
dilakukan pada data ekspresi gen garis sel kanker serviks dengan menerapkan missing
rate yang berbeda, yaitu 1%, 5%, 10%, 15%, 20%, 25%, dan 30% dengan menggunakan
parameter k=10 pada proses praimputasi KNNimpute. Hasil percobaan tersebut dievaluasi
performanya menggunakan normalized root mean squared error. Nilai rata-rata NRMSE
pada percobaan yang dilakukan sebanyak lima kali memiliki nilai yang lebih rendah
dibandingkan dengan metode bi-RLSP dan row average. Waktu komputasi untuk metode bi-KNN-RLSP dan bi-RLSP tidak jauh berbeda, sehingga dengan waktu yang tidak
signifikan berbeda, metode bi-KNN-RLSP dapat menghasilkan nilai NRMSE yang lebih kecil dibandingkan dengan bi-RLSP. Oleh karena itu, dapat dikatakan bahwa modifikasi praimputasi row average pada metode bi-RLSP menjadi KNNimpute dapat menghasilkan performa imputasi yang lebih bagus. Selain itu, diperoleh hasil bahwa nilai NMRSE untuk metode bi-KNN-RLSP meningkat seiring dengan meningkatnya missing rate.
......Microarray is a technology in biology that provides information about gene expression. The raw microarray data is in the form of images, which must be converted into a gene expression matrix where rows indicate genes, columns indicate experimental conditions. However, in practice, many missing values are found in microarray data, which of course
will hinder the process of data analysis. Imputation is one solution that can overcome the missing values in microarray data. By using imputation, the missing values contained in the data matrix are predicted or estimated so that a complete data matrix is obtained. The imputation method used in this study is called bi-KNN-RLSP, which uses the concept of
biclustering, principal component analysis, and quantile regression. In the process of forming biclustering, a temporary complete matrix is needed which is obtained through the pre-imputation process with KNNimpute. The bi-KNN-RLSP experiment was carried out on cervical cancer cell line gene expression data by applying different missing rates,
namely 1%, 5%, 10%, 15%, 20%, 25%, and 30% using the parameter k=10. in the KNNimpute pre-imputation process. The results of these experiments were evaluated for their performance using the normalized root mean squared error. The average value of NRMSE in the five times experiment has a lower value than the bi-RLSP and row average methods. The computation time for the bi-KNN-RLSP and bi-RLSP methods is not much different, so with the time that is not significantly different, the bi-KNN-RLSP method can produce a smaller NRMSE value compared to bi-RLSP. Therefore, it can be said that the modification of the row average preimputation in the bi-RLSP method to KNNimpute can produce better imputation performance. In addition, it was found that the NMRSE value for the bi-KNN-RLSP method increased along with the increase in the missing rate."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Panjaitan, Andreas Pangihutan
"Kebutuhan data di zaman sekarang semakin meningkat seiring dengan perkembangan teknologi. Penggunaan dataset dengan ukuran besar sudah menjadi keperluan dalam berbagai bidang, termasuk kebutuhan data di bidang bioinformatika, yang dihasilkan melalui teknologi microarray berbentuk matriks berisi gen dan dan kondisi observasi. Sulit untuk menghasilkan data ekspresi gen yang sempurna dan tidak ada kekurangan karena berbagai keterbatasan dalam proses pengumpulan data. Kehadiran nilai hilang atau missing values pada data ekspresi gen adalah hal yang tidak dapat dihindarkan, sehingga dapat mengganggu jalannya proses analisis data lanjutan. Pada penelitian ini, keberadaan missing values pada data diatasi dengan metode imputasi biclustering berbasis Shifting and Scaling Similarity (SSSim) dan imputasi biclustering berbasis euclidean score. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score adalah 2 metode imputasi berbeda yang dikombinasikan dengan konsep biclustering yang berbeda. Kedua metode imputasi biclustering ini menggunakan konsep least square dan pembobotan gen dalam proses imputasinya, serta menggunakan konsep korelasi SSSim dan korelasi euclidean score dalam proses biclustering-nya. Kedua konsep korelasi tersebut memiliki perbedaan prinsip yang saling berkebalikan, di mana korelasi SSSim dapat mendeteksi pola shifting and scaling dalam data ekspresi gen sedangkan korelasi euclidean score tidak dapat mendeteksi pola shifting and scaling. Metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score diaplikasikan pada data eskpresi gen kanker usus besar dan diukur tingkat performanya bersama dua metode pembanding lain yaitu K-Nearest Neighbor Imputation (KNNimpute) dan column mean impute menggunakan nilai Root Mean Squared Error (RMSE). Berdasarkan penelitian ini, metode imputasi biclustering berbasis SSSim dan imputasi biclustering berbasis euclidean score memiliki tingkat akurasi yang hampir sama, tetapi secara konsisten lebih baik dari metode KNNimpute dan column mean impute pada data dengan missing rate (5%,10%,15%,20% dan 25%).
......The need for data today is increasing along the technological advances. The use of large data sets has become a necessity in various fields, including the need for data in bioinformatics, which is generated through microarray technology and produce data’s form of a matrix containing genes type and genes observation. It is difficult to produce perfect gene expression data, due to various limitations in the data collection process. The presence of missing values in gene expression data is unavoidable, so it can interfere further analysis. In this research, the presence of missing values was handled by the biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation are 2 different imputation methods combined with biclustering concepts. This two methods use the least square concept and gene weighting in the imputation process, and use the SSSim and the Euclidean score correlation in the biclustering process. This two correlation concepts have contradictory basic principles, where SSSim correlation can detect shifting and scaling patterns in gene expression data while Euclidean score correlation cannot detect. Biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation were applied to colon cancer gene expression data and their performance level was measured by Root Mean Squared Error (RMSE) with two other comparison methods, namely K-Nearest Neighbor Imputation (KNNimpute) and column mean impute. Based on this study, biclustering based on Shifting and Scaling Similarity (SSSim) and biclustering based on euclidean score for missing values imputation has almost the same accuracy level, but consistently better than the KNNimpute method and column mean impute on data with missing rate (5%, 10%, 15%, 20% and 25%)."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Isabella Monique Sumanto Laus
"Salah satu model yang digunakan untuk menghitung tarif premi adalah dengan menggunakan model kredibilitas, di mana tarif premi ditentukan menggunakan pengalaman masa lalu. Salah satu model kredibilitas yang telah dikembangkan adalah model kredibilitas Bühlmann. Pada model ini, diasumsikan bahwa setiap pemegang polis memiliki karakter dan tingkat risiko yang berbeda-beda. Model kredibilitas Bühlmann mengestimasi tarif premi menggunakan mean dari besar klaim suatu kontrak. Pada skripsi ini, akan dibahas sebuah modifikasi dari model kredibilitas Bühlmann yang disebut dengan model kredibilitas kuantil, dimana tarif premi diestimasi menggunakan kuantil dari besar klaim kontrak asuransi tersebut. Pembahasan model kredibilitas kuantil dimulai dari penentuan bentuk umum persamaan, lalu dilakukan penentuan faktor kredibilitas dengan meminimumkan mean squared error antara parameter yang digunakan untuk memprediksi tarif premi dengan estimatornya, kemudian dilanjutkan dengan penaksiran parameter pada model menggunakan metode non-parametrik. Kemudian, dilakukan studi kasus untuk membandingkan hasil perhitungan menggunakan model kredibilitas Bühlmann dengan model kredibilitas kuantil. Selain itu, pada studi kasus juga dibandingkan sensitivitas dari hasil estimasi masing-masing model jika terdapat outlier pada data. Secara umum, model kredibilitas kuantil memiliki performa yang baik jika terdapat outlier karena model tersebut kurang sensitif terhadap outlier pada sebagian besar kuantil.
......One of the models used to calculate the premium rate is by using the credibility model, where the premium rate is determined using past experiences. One of the credibility models that has been developed is the Bühlmann credibility model. This model assumes that each policyholder has a different character and level of risk. The Bühlmann credibility model estimates the premium rate using the mean of the claim severity of a contract. This thesis discusses a modification of the Bühlmann credibility model which is called the quantile credibility model, where the premium rate is estimated using the quantile of the claim severity of an insurance contract. The discussion of the quantile credibility model starts from determining the general form of the equation, then determining the credibility factor by minimizing the mean squared error between the parameter used to predict the premium rate and the estimator, then continues with estimating the parameters using non-parametric methods. Then, a case study is conducted to compare the calculation results using the Bühlmann credibility model and the quantile credibility model. In addition, the case study also compares the sensitivity of the estimation results of each model if there are outliers in the data. In general, the quantile credibility model has a good performance if there are outliers because the model is less sensitive to outliers in most of the quantiles."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2   >>