Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 8 dokumen yang sesuai dengan query
cover
Anne Parlina
"Tren adalah suatu pola yang berulang, sementara analisis tren merupakan praktik pengumpulan dan analisis data dalam upaya untuk menemukan pola tersebut. Analisis tren adalah suatu metode untuk memproyeksikan kondisi masa depan berdasarkan data masa lalu hingga saat ini. Tinjauan literatur sistematis, bibliometrik, dan topic modeling adalah beberapa contoh pendekatan yang sering dipakai untuk menangkap fenomena perkembangan tren sains dan teknologi. Penelitian ini bertujuan untuk melakukan pengujian dan implementasi algoritma deteksi topik berbasis clustering yang dikombinasikan dengan analisis kualitatif dalam pendeteksian tren topik untuk mendapatkan gambaran yang menyeluruh mengenai konsep, struktur ilmiah, topik utama, dan perkembangan bidang teknologi big data dan smart sustainable city. Analisis topik dilakukan terhadap kumpulan data bibliografi publikasi ilmiah terkait kedua bidang tersebut yang didapat dari basis data Scopus dan CORE. Pengujian terhadap kinerja algoritma Deep-autoencoder based Fuzzy C-Means (DFCM) untuk deteksi topik dari corpus dokumen publikasi ilmiah menunjukkan bahwa algoritma DFCM menunjukkan kinerja yang baik serta dapat mengungguli kinerja algoritma-algoritma standar yang banyak dipakai untuk pendeteksian topik seperti Non-negatif Matrix Factorization (NMF) dan Latent Dirichlet Allocation (LDA) pada corpus dengan ukuran besar. Analisis hasil clustering terhadap data publikasi ilmiah memberikan gambaran perkembangan dan topik-topik yang menjadi “highlight” dalam periode tertentu, mencari research gap dan mengetahui karakteristik penelitian, serta memprediksi topik penelitian apa saja yang menjanjikan di masa depan.
......A trend is a recurring pattern, while trend analysis is the practice of collecting and analyzing data to find that pattern. Trend analysis is a method for projecting future conditions based on past to present data. Systematic literature review, bibliometrics, and topic modeling are examples of approaches that are often used to capture the phenomenon of the development of science and technology trends. This study examined and implemented clustering-based topic detection algorithms, combined with qualitative analysis, to comprehensively picture the concept, scientific structure, main topics, and developments in big data technology and smart and sustainable city. The topic analysis is performed on collecting bibliographic data from scientific publications related to these two fields obtained from the Scopus and CORE database. In this research, the deep-autoencoder based on the Fuzzy C-Means (DFCM) algorithm's performance for topic detection from the corpus of scientific publication documents was examined. Based on the experiment's results, it can be concluded that the DFCM algorithm shows good performance and can outperform standard algorithms that are widely used for topic detection, such as Non-negative Matrix Factorization (NMF) and Latent Dirichlet Allocation (LDA) on topic detection tasks in huge corpus text. The clustering results analysis on scientific publication data provides an overview of research topics and developments that become "highlights" in a certain period, discover research gaps and characteristics, and predict what research topics are promising in the future."
Depok: Fakultas Teknik Universitas Indonesia, 2021
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Esti Ramaditia Mulatsih
" ABSTRAK
Analisis cluster merupakan teknik multivariat yang digunakan untuk mengelompokkan objek berdasarkan karakteristik yang dimilikinya. Salah satu teknik dalam analisis cluster adalah metode Fuzzy K-Means lebih dikenal dengan Fuzzy C-Means , yang merupakan versi fuzzy dari metode K-Means clustering. Seperti pada metode K-Means, FCM juga sangat sensitif terhadap penentuan pusat-pusat awal cluster. Untuk mengatasi permasalahan tersebut, diusulkan modifikasi dari metode FCM dengan menggunakan metode sampling dengan probabilitas. Metode sampling digunakan untuk menaksir lokasi pusat-pusat awal cluster untuk digunakan ke dalam proses clustering. Dalam tugas akhir ini, metode sampling yang digunakan adalah simple random sampling dan ranked set sampling. Modifikasi dari metode FCM dengan menggunakan kedua metode sampling tersebut masing-masingnya disebut dengan SRS Fuzzy C-Means dan Ranked Fuzzy C-Means. Kedua metode tersebut kemudian diuji pada himpunan data pasien liver di India. Hasil eksperimen menunjukkan bahwa Ranked Fuzzy C-Means lebih efisien dibandingkan SRS Fuzzy C-Means dan FCM.
ABSTRACT Cluster analysis is a multivariate technique that is used to group objects based on characteristics. One technique in cluster analysis is a method Fuzzy C Means or better known as Fuzzy C Means , which is a fuzzy version of K Means clustering method. As the K Means method, FCM is also very sensitive to the determination of the initial cluster centers. To overcome these problems, the proposed modification of the FCM method using probability sampling methods. The sampling method is used to estimate the initial cluster centers to be used in the clustering process. In this thesis, the sampling method used was simple random sampling and ranked set sampling. Modifications of the FCM method using both the sampling method each being with SRS Fuzzy C Means and Ranked Fuzzy C Means. Both methods are then tested on a data set of liver patients in India. The experimental results showed that Ranked Fuzzy C Means is more efficient than SRS Fuzzy C Means and FCM."
Depok: Universitas Indonesia, 2017
S66638
UI - Skripsi Membership  Universitas Indonesia Library
cover
"Ridesharing adalah suatu model transportasi dimana seorang pengendara (driver) berbagi tumpangan dengan penumpang lain (rider) yang memiliki lokasi asal tujuan dan jadwal perjalanan yang hampir sama atau sama dengan driver. Masalah utama dalam ridesharing yaitu menentukan pasangan driver dan rider yang paling optimal untuk melakukan ridesharing. Sebagai proses awal untuk mencari pasangan tersebut, dalam penelitian ini digunakan metode Clustering Large Applications (CLARA) untuk melakukan clustering terhadap titik-titik koordinat origin dan destination dari masingmasing driver dan rider. Sesuai dengan cluster dari masing-masing titik lokasi, dibentuk himpunan yang mungkin untuk berpasangan. Selanjutnya, untuk driver dan rider yang berada dalam himpunan yang sama diperiksa kelayakan (feasibility) untuk berpasangan berdasarkan kendala waktu, sehingga dihasilkan himpunan pasangan driver dan rider yang feasible, !" . Pada proses optimasi, fungsi obyektif yang dipertimbangkan yaitu memaksimumkan total Adjusted Distance Proximity (ADP) Index. ADP Index merupakan indikasi terjadinya efisiensi berdasarkan jarak tempuh dari tiap pasangan dalam melakukan ridesharing. Sesuai dengan hasil ADP index, dibentuk suatu weighted bipartite graph yang menggambarkan keterhubungan pasangan dalam !" . Proses mendapatkan himpunan pasangan yang memaksimumkan fungsi objektif diselesaikan dengan algoritma Hungarian dalam menyelesaikan Maximum-Weighted Matching pada Bipartite Graph. Setelah seluruh proses dilakukan, dihasilkan himpunan pasangan yang akan melakukan ridesharing. Pada penelitian ini ditunjukkan bahwa dengan melakukan clustering, proses optimasi menjadi lebih efisien dengan adanya pereduksian pasangan yang diuji dari 400 pasangan menjadi 131 pasangan dan banyak pasangan dalam hasil optimasi dengan clustering sama dengan hasil optimasi tanpa clustering yaitu 13 pasangan.
......Ridesharing is a model of transportation where the driver share the seat of their vehicle to the rider who has similar departure location and travel schedule with the driver. The main problem in ridesharing is the determination of the optimal pairs of drivers and riders who will conduct ridesharing. As an initial process to find these pairs, in this study the Clustering Large Applications (CLARA) method was used to cluster the coordinate points of origin and destination of each driver and rider. In accordance with the clusters of each location point, a set of possible matches is formed. Furthermore, for drivers and riders who are in the same set, the feasibility of matching is examined based on time constraints, so that a feasible set of driver and rider matches, !" is produced. In the optimization process, the objective function considered is to maximize the total Adjusted Distance Proximity (ADP) Index. The ADP Index is an indication of efficiency based on the distance traveled by each match in ridesharing. In accordance with the results of the ADP index, a weighted bipartite graph is formed which describes the connectedness of the pairs in !" . The process of getting the set of pairs that maximizes the objective function is solved by using the Hungarian algorithm to solve the Maximum-Weighted Matching on a Bipartite Graph. After the whole process is done, a set of pairs that will do ridesharing are generated. In this study it was shown that by clustering, the optimization process became more efficient with the reduction of the matches examined from 400 matches to 131 matches and the number of matches in the optimization results with clustering was the same as the optimization results without clustering, that is 13 matches."
[Depok, Depok]: [Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia], 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Athiyyah Fadillah Eriri
"Pengelompokan atau clustering adalah pengelompokan objek-objek yang dilakukan atas dasar kesamaan atau jarak (perbedaan) di mana tidak ada asumsi yang dibuat mengenai banyaknya cluster atau struktur cluster. Salah satu metode yang banyak digunakan dalam penyelesaian masalah clustering adalah algoritme K-Means. Pada algoritme ini, suatu objek yang telah menjadi anggota cluster tertentu, tidak bisa menjadi anggota cluster yang lainnya. Metode ini dikenal sebagai hard clustering. Pendekatan lain dalam melakukan pengelompokan didasarkan pada teori himpunan fuzzy yang dikenal dengan pengelompokan fuzzy. Teori himpunan fuzzy memiliki nilai kekaburan antara salah atau benar. Jadi, dalam melakukan pengelompokan, setiap objek memiliki peluang menjadi anggota pada setiap cluster. Salah satu metode pengelompokan fuzzy adalah Fuzzy C-Means (FCM). Pada tugas akhir ini, metode K-Means dan FCM digunakan untuk mengelompokkan nagari-nagari di Kabupaten Agam. Nagari-nagari di Kabupaten Agam dikelompokan berdasarkan indikator pembangunan keluarga yang berasal dari Laporan Pendataan Keluarga tahun 2015 yang bersumber dari BKKBN (Badan Kependudukan dan Keluarga Berencana Nasional). Pada penelitian ini diperoleh empat cluster hasil dari indeks xie and beni. Jumlah anggota setiap cluster hasil dari algoritme K-Means adalah 32, 28, 11 dan 11. Sedangkan jumlah anggota setiap cluster hasil dari algoritme Fuzzy C-Means adalah 31, 18, 21, dan 12. Perbedaan jumlah anggota cluster yang dihasilkan algoritme K-Means dan Fuzzy C-Means adalah 14.29%. Karena rasio simpangan baku dalam dan antar cluster pada algoritme K-Means memberikan nilai yang lebih kecil dibandingkan algoritme Fuzzy C-Means maka algoritme K-Means memberikan hasil yang lebih baik dari pada algoritme Fuzzy C-Means dalam pengelompokan nagari-nagari di Kabupaten Agam.
......Grouping or clustering is a method to group objects that are carried out on the basis of similarity or distance (difference) where no assumptions are made regarding the number of clusters or cluster structures. One method that is widely used in solving clustering problems is the K-Means algorithm. In this algorithm, if an object has become a member of a particular cluster, then it cannot become a member of another cluster. This method is known as hard clustering. Another approach to grouping is based on fuzzy set theory, known as fuzzy grouping. Fuzzy set theory has a blurring value between right or wrong. So, in grouping process, each object has the opportunity to become a member in each cluster. One of the fuzzy grouping methods is Fuzzy C-Means. In this study, the two methods, K-Means and Fuzzy C-Means, are used to group nagari-nagari in Agam District. Nagari is equivalent to villages in other provinces in Indonesia. The nagari grouping in Kabupaten Agam is based on family development indicators derived from the 2015 Family Data Collection Report sourced from BKKBN (Badan Kependudukan dan Keluarga Berencana Nasional). In this study four clusters were obtained based on xie and beni’s index. The numbers of members of each cluster as the result of the K-Means algorithm are 32, 28, 11 and 11. While the numbers of members of each cluster as the result of the Fuzzy C-Means algorithm are 31, 18, 21, and 12. The different cluster members produced by the K-Means and Fuzzy algorithms C-Means is 14.29%. Because the standard deviation ratio within and between clusters in the K-Means algorithm gives a smaller value than the Fuzzy C-Means algorithm, the K-Means algorithm gives better results than the Fuzzy C-Means algorithm on the nagari grouping in Agam District."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Evan Haryowidyatna
"Per 9 Februari 2023, 87% dari total populasi kendaraan pribadi di Indonesia merupakan sepeda motor. Persebaran sepeda motor terpadat di Indonesia berada di Pulau Jawa dengan persentase sebesar 60%. Tingginya populasi sepeda motor dan fakta bahwa 80% rumah tangga di Pulau Jawa sudah memiliki sepeda motor membuat pasar sepeda motor semakin mengecil. Dalam jangka panjang, kondisi ini dapat berdampak buruk bagi industri sepeda motor yang terus ingin berkembang. Penelitian ini membahas tentang pengelompokan kabupaten dan kota di Pulau Jawa berdasarkan karakteristik demografinya. Kemudian, diberikan saran keputusan yang dapat dilakukan oleh industri sepeda motor berdasarkan kelompok kabupaten dan kota yang terbentuk menggunakan teknik clustering. Hal ini bertujuan agar produsen yang bergerak di industri sepeda motor dapat memfokuskan produknya pada kelompok kabupaten dan kota yang memiliki potensi terbaik. Terdapat 12 variabel demografi yang digunakan dalam penelitian ini, dan variabel tersebut terbagi menjadi tiga kategori: kondisi ekonomi masyarakat, kondisi kehidupan masyarakat, dan kondisi demografis daerah. Metode yang digunakan dalam penelitian ini adalah metode partitional hard clustering. Sebelumnya, dilakukan pembuatan dataset melalui proses data scrapping pada situs terpercaya, dan dilanjutkan dengan proses Exploratory Data Analysis (EDA) pada dataset. Setelah dataset terbentuk, dilakukan pengelompokan dengan metode partitional hard clustering yang terdiri dari metode K-Means Clustering dan metode K-Medoids Clustering. Kemudian, dilakukan evaluasi cluster untuk menentukan metode clustering yang paling sesuai dengan menggunakan empat metrik evaluasi yaitu Indeks Silhouette, Indeks Dunn, Indeks Davies Bouldin, dan Indeks Calinski Harabasz. Didapatkan hasil bahwa metode K-Medoids Clustering dengan 5 kelompok merupakan yang terbaik untuk mengelompokkan kabupaten dan kota di Pulau Jawa. Setelah kelompok terbentuk, setiap kelompok diberikan rekomendasi keputusan yang sebaiknya diambil oleh industri sepeda motor. Terdapat 4 rekomendasi yang dapat diberikan, yaitu distribusi suku cadang, pembuatan bengkel, penjualan sepeda motor kelas menengah ke atas, dan penjualan sepeda motor kelas menengah ke bawah.
......As of February 9, 2023, 87% of the total population of private vehicles in Indonesia consists of motorcycles. The densest distribution of motorcycles in Indonesia is found on the Island of Java, with a percentage of 60%. The high population of motorcycles and the fact that 80% of households in Java already have motorcycles are causing the motorcycle market to shrink. In the long run, this condition can have negative impacts on the motorcycle industry that continues to seek growth. This research focuses on the clustering of regencies and cities in Java based on their demographic characteristics. Subsequently, decision recommendations will be provided for the motorcycle industry based on the formed groups using clustering techniques. The aim is to enable manufacturers in the motorcycle industry to focus their products on regencies and cities with the best potential. There are 12 demographic variables used in this research, divided into three categories: the economic conditions of society, the living conditions of society, and the demographic conditions of the region. The method used in this research is the partitional hard clustering method. Firstly, a dataset is created through the data scraping process on trusted sites, followed by the Exploratory Data Analysis (EDA) process on the dataset. Once the dataset is formed, clustering is performed using the partitional hard clustering method, consisting of the K-Means Clustering and K-Medoids Clustering methods. Subsequently, cluster evaluation is carried out to determine the most suitable clustering method using four evaluation metrics: Silhouette Index, Dunn Index, Davies Bouldin Index, and Calinski Harabasz Index. The results show that the K-Medoids Clustering method with 5 clusters is the best for grouping regencies and cities in Java. After the groups are formed, each group is given decision recommendations that the motorcycle industry should consider. There are four recommendations: spare parts distribution, workshop establishment, sales of mid- to high-end motorcycles, and sales of mid-range motorcycles and below."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Wiwiek Prihandini
"Salah satu jenis informasi yang perlu diketahui oleh pelaku pasar modal,
khususnya investor adalah informasi yang bersifat fundamental. Informasi ini menggambarkan keadaan suatu perusahaan dan faktor-faktor yang dapat mempengaruhi kondisi suaru perusahaan. Untuk mengetahui jenis informasi ini diperlukan pengetahuan tentang kemampuan manajemen perusahaan, prospek perusahaan, prospek pemasaran, perkembangan teknologi, kemampuan menghasilkan keuntungan, dan hal lain yang secara langsung maupun thiak langsung dapat mempenganihi keadaan perusahaan.
Untuk inemudahkan investor dalam memperoleh informasi tersebut maka PT
Bursa Efek Jakarta (BET) mengeluarkan Monthly Statistic. Laporan ini sarat dengan data keuangan perusahaan yang telah listed di BEJ. Dengan bantuan teknik Multivariale Data Analysis data tersebut dapat menjadi informasi yang dapat digunakan oleh investor sebelum melakukan transaksi di pasar modal.
Salah satu bentuk Multivariate Data Analysis adalah Cluster Analysis, yang
merupakan suatu cara pengelompokan untuk mengidentifikasi ciri-ciri suatu entitas yang sejenis berdasarkan karakteristik yang dimiliki.
Pengolahan data dalam penelitian ini menggunakan empat variabel yang
mewakili karakterisitik saham yang akan dikelompokan. Variabel tersebut adalah Earning per Share (EPS), Price Book Value (PBV), Return on Equity (ROE), dan Operating Net Profit (OPM). Dipilihnya empatflnancial ratio ini karena keempat rasio tersebut memuliki koefisien korelasi yang lebih tinggi dibanding dengan financial ratio Iainnya yang terdapat pada Monthly Statistic.
Penelitian menyimpulkan bahwa tidak ada satu kelompok pun yang semua
anggotanya terdiri dari saham-saham yang dikeluarkan dan perusahaan yang bergerak di bidang industri yang sama. Dengan demikian setiap kelompok beranggotakan dan saham yang dikeluarkan oleh perusahaan dengan bidang usaha yang berbeda. Anggota suatu kelompok lebih didasarkan pada kedekatanjarak dan vanabel yang telah disebut di atas.
Dengan kata lain kriteria suatu kelompok sangat bergantung paI karateristik perusahaan yang menjadi anggota dalam kelompok tersebut dalam hal ini karateristik itu diwakili
oleh EPS, PBV, ROE, dan OPM
Dengan demikian dan hasil pengelompokan dapat digunakan oleh investor untuk memilih saham-saham yang mana saja yang memiliki karakteristik yang hampir sama
dan saham-saham mana saja yang niemiliki karakteristik yang berbeda. Hal ini sangat
berguna bagi investor dalarn upaya untuk melakukan diversifikasi saham yang akan
membentuk portfolionya.
"
Depok: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 1996
T-pdf
UI - Tesis Open  Universitas Indonesia Library
cover
Muhammad Reza Maullanna
"Kegiatan berbelanja secara daring di e-commerce meningkat seiring dengan peningkatan pengguna internet di Indonesia. Kondisi ini mengakibatkan melonjaknya kegiatan pengiriman barang. Dalam proses pengiriman barang terdapat tahap last-mile delivery. Adapun tantangan yang dihadapi pada tahap ini adalah jumlah pengiriman yang banyak dan waktu pengiriman yang panjang. Hal ini bisa mengakibatkan penambahan jumlah alat transportasi yang digunakan. Salah satu alat transportasi untuk last-mile delivery adalah truk. Penggunaan truk dalam last-mile delivery dapat menyebabkan polusi udara serta tidak dapat mengirimkan paket tepat waktu karena kemacetan lalu lintas (dalam kasus daerah perkotaan). Karena hal itu, harus dicari jalan keluar yang dapat menurunkan polusi udara serta menurunkan kasus pengiriman paket tidak tepat waktu dalam last-mile delivery. Penelitian ini menggabungkan pemakaian truk dan drone yang bermaksud untuk menurunkan kasus pengiriman paket tidak tepat waktu serta menurunkan polusi udara dengan keunggulan drone. Metode yang dipakai melibatkan implementasi Fuzzy C-Means (FCM) clustering untuk mengelompokkan data pelanggan dengan mempertimbangkan kendala jumlah drone yang tersedia serta radius terbang drone dan implementasi Algoritma Genetika untuk merancang rute pengiriman yang optimal dengan mempertimbangkan kendala Time Windows pada depot dan semua cluster. Penerapan kedua metode itu dipakai pada data 90 pelanggan. FCM bisa menurunkan 63,15% jumlah cluster, menurunkan 36,03% keseluruhan jarak tempuh rute, menurunkan 28,77% keseluruhan waktu tempuh rute, serta pengurangan 4,06% nilai fungsi objektif bila ketimbang dengan yang didapat dari clustering secara intuitif.
......Online shopping activities in e-commerce are increasing along with the rise in internet users in Indonesia. This trend has led to a surge in goods delivery activities. In the delivery process, there is a crucial last-mile delivery stage. The challenges faced during this stage include a high volume of deliveries and extended delivery times, leading to the necessity of deploying additional transportation means. One commonly used transportation method for last-mile delivery is trucks. However, the utilization of trucks in last-mile delivery poses challenges such as air pollution and the inability to ensure timely package deliveries due to traffic congestion, particularly in urban areas. To address these issues, a solution must be found that not only reduces air pollution but also mitigates instances of delayed package deliveries in last-mile delivery. This research proposes a novel approach by integrating the use of trucks and drones to capitalize on the advantages offered by drones. The methodology employed incorporates the implementation of Fuzzy C-Means (FCM) clustering to categorize customer data, considering constraints related to the number of available drones and the flying radius of the drones. Additionally, a Genetic Algorithm is applied to optimize delivery routes, considering time window constraints at the depot and within all clusters. The application of these two methods was tested on a dataset comprising 90 customers. FCM demonstrated the ability to reduce the number of clusters by 63.15%, decrease the overall route travel distance by 36.03%, and minimize the overall route travel time by 28.77%. Furthermore, it led to a 4.06% reduction in the objective function values compared to intuitive clustering."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adib Hanafi
"Teknologi microarray merupakan salah satu teknologi yang berkembang dalam bidang bioinformatika. Salah satu teknologi microarray dalam bidang kesehatan, yaitu untuk mendeteksi adanya gen pada DNA individu yang menghasilkan data ekspresi gen. Pada data ekspresi gen, sering kali ditemukan informasi yang hilang sehingga membuat terhambatnya analisis lebih lanjut pada data ekspresi gen. Pada penelitian ini, diusulkan metode imputasi missing values Sequential Biclustering berbasis Shifting-and-Scaling Similarity dan Mean Square Residue (SSSim-MSR). Penentuan anggota bicluster dengan kesamaan sifat co-expressed dan pendeteksian pola shifting-and-scaling dilakukan berdasarkan pada skor Mean Squared Residue (MSR) dan skor Shifting-and-Scaling Similarity (SSSim) antara masing-masing gen dengan gen yang mengandung missing values. Performa metode diukur dengan skor korelasi Pearson dan skor NRMSE, lalu dibandingkan dengan metode Chronological Biclustering berbasis PCor-MSRE. Berdasarkan pada skor korelasi Pearson, metode Sequential Biclustering dengan basis SSSim-MSR merupakan metode yang cukup baik dibandingkan metode Chronological Biclustering berbasis PCor-MSRE pada missing rate sebesar 20% dan 50% untuk setiap nilai k. Untuk setiap missing rate pada nilai k lainnya, skor korelasi Pearson yang dihasilkan belum tentu bernilai lebih besar untuk nilai k yang lebih besar. Hal ini dapat terjadi karena perseberan porporsi pola shifting-and-scaling dan yang tidak berpola shifting-and-scaling pada data yang digunakan cenderung sama, sehingga pada tahap pembentukan bicluster yang didasarkan pada keserupaan pola dan pendeteksian pola shifting-and-scaling dapat memengaruhi keserupaan pola yang dibentuk.
......Microarray technology is one of the emerging technologies in the field of bioinformatics. One of the microarray technologies in the health sector is to detect the presence of genes in individual DNA that produce gene expression data. In gene expression data, missing information is often found, which hinders further analysis of gene expression data. In this study, a method of imputing missing values Sequential Biclustering based on Shifting-and-Scaling Similarity and Mean Square Residue (SSSim - MSR) is proposed. Determination of bicluster members with similar co-expressed characteristics and detection of shifting-and-scaling patterns is carried out based on the score. Mean Squared Residue (MSR) and Shifting-and-Scaling Similarity (SSSim) scores between each gene and genes containing missing values. The performance of the method was measured by the Pearson correlation score and the NRMSE score, then compared with the Chronological Biclustering method on the basis of PCor – MSRE. Based on the Pearson correlation score, the Sequential Biclustering method on the basis of SSSim – MSR is a fairly good method compared to the Chronological Biclustering method at a missing rate of 20% and 50% for each value of k. For each other missing rate for k values, the resulting Pearson correlation score is not necessarily greater for larger k values. This can happen because the proportions of shifting-and-scaling and non-shifting-and-scaling patterns in the data used tend to be the same, so that at the stage of bicluster formation based on pattern similarity and detection of shifting-and-scaling patterns can detect similarity of pattern."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library