Hasil Pencarian

Ditemukan 196641 dokumen yang sesuai dengan query

Rifanti Putri Tallisha

Analisis Pengaruh Recommendation Accuracy, Novelty, dan Diversity pada Subscription Video on Demand terhadap Continuance Intention = Analysis of Influence Between Recommendation Accuracy, Novelty, and Diversity in Subscription Video on Demand and Continuance Intention

"Subscription Video on Demand (SVoD) merupakan layanan video streaming dengan metode subscription yang dibayarkan pengguna pada periode tertentu untuk dapat mengakses seluruh konten yang disediakan SVoD. Banyaknya judul program baik film, series, tv show, dan konten video lainnya yang ada pada SVoD memberikan penggunanya semakin banyak pilihan untuk menentukan program mana yang ingin ditonton. Untuk menghindari kebingungan dan kesulitan yang dirasakan pengguna dari banyaknya pilihan program, SVoD menyediakan rekomendasi yang disesuaikan dengan personalisasi pengguna dengan harapan dapat mempermudah pengguna dalam menentukan tontonan program yang mungkin disukai. Dalam rangka mengidentifikasi faktor-faktor yang dapat memengaruhi niat keberlanjutan penggunaan SVoD, penelitian ini menyertakan kualitas rekomendasi untuk menganalisis pengaruhnya terhadap kepuasan, manfaat yang dirasakan, dan experience pengguna dalam menggunakan SVoD. Flow theory digunakan dalam penelitian ini untuk mengukur pengalaman holistik pengguna ketika dalam keterlibatan dan merasakan kenikmatan dari menggunakan SVoD. Metode analisis yang digunakan pada penelitian ini yaitu mixed-method dengan melakukan analisis kuantitatif terlebih dahulu, lalu dilanjutkan dengan analisis kualitatif. Analisis data kuantitatif dilakukan dengan metode PLS-SEM dengan data yang berhasil terkumpul melalui penyebaran kuesioner online sebanyak 394 pengguna SVoD. Hasil dari pengolahan analisis data didapatkan bahwa recommendation accuracy, recommendation novelty, dan recommendation diversity memengaruhi perceived usefulness dan flow. Selain itu, kualitas rekomendasi yang memengaruhi satisfaction hanya recommendation novelty dan satisfaction juga dipengaruhi oleh perceived usefulness dan flow. Selanjutnya, satisfaction, perceived usefulness, dan flow terbukti memengaruhi continuance intention. Hasil yang didapatkan dari penelitian ini diharapkan dapat memberikan saran praktis bagi penyedia layanan SVoD untuk meningkatkan pengembangan kualitas rekomendasi yang dapat memengaruhi niat keberlanjutan penggunaan SVoD.

Subscription Video on Demand (SVoD) is one of the video streaming service kind with a subscription method that the user pays within a certain period of time to get full access to watch all content provided by SVoD. The increasing number of program titles, including movies, series, tv shows, and other video content provided by SVoD gives users more choices to determine which programs they want to watch. SVoD provides recommendations that are customized to the user’s personalization in the hope that it can make it easier for users to determine which programs they might like to watch. In order to identify factors that may affect the continuance intention of using SVoD, this research included the quality of recommendation to analyze its influence on user’s satisfaction, perceived usefulness, and experience in using SVoD. Flow theory is used in this research to measure the user’s holistic experience when engaging and feel the enjoyment of using SVoD. Mixed-method is used in this research as an analysis method by conducting the quantitative method first, then continued with the qualitative method. Quantitative data analysis was carried out using the PLS-SEM method with data collected through the distribution of online questionnaires with a total of 394 SVoD users as respondents in this research. The result of processing data analysisi found that recommendation accuracy, recommendation novelty, and recommendation diversity affects perceived usefulness and flow. In addition, the quality of recommendations that affect satisfaction is only recommendation novelty, and satisfaction is also influenced by perceived usefulness and flow. Lastly, satisfaction, perceived usefulness, and flow are proven to affect continuance intention. The results obtained from this research are expected to provide practical advice for SVoD service providers to improve the development of the recommendation quality that can affect the continuance intention on using SVoD."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Nadhira Rafik

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

M. Rasyid Rabbani

Interpretasi dan Analisis Akurasi Model Imbalance-XGBoost untuk Prediksi Fraud Asuransi = Interpretation and Analysis Accuracy of Imbalance-XGBoost Model for Insurance Fraud Prediction

"Fraud atau kecurangan merupakan salah satu permasalahan yang masih dihadapi oleh industri asuransi dan masih memberikan kerugian yang sangat besar bagi industri ini. Biaya yang dikeluarkan pun untuk mengatasi permasalahan ini masih cukup besar, untuk itu dikembangkanlah sebuah model machine learning untuk membantu pencegahan terjadinya fraud pada asuransi. Salah satu model yang sedang sangat berkembang adalah model Imbalance-XGBoost, penelitian ini dilakukan untuk meninjau kemampuan model Imbalance-XGBoost dalam mendeteksi fraud sebagai langkah pencegahan fraud pada asuransi. Penelitian ini berhasil mendapati bahwa Imbalance-XGBoost memiliki performa yang lebih baik jika dibandingkan dengan model dasarnya yaitu XGBoost tanpa penanganan kelas tidak seimbang.

Fraud or dishonesty is one of the persistent challenges faced by the insurance industry and continues to result in significant losses for the industry. The costs incurred to address this issue are also quite substantial. Therefore, a machine learning model has been developed to assist in preventing insurance fraud. One of the models that is currently gaining traction is the Imbalance-XGBoost model. This research was conducted to assess the ability of the Imbalance-XGBoost model in detecting fraud as a preventive measure in insurance. The study found that Imbalance-XGBoost performs better compared to its base model, XGBoost, which does not handle imbalanced classes."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Roviani Amelia

Peningkatan Akurasi Model Klasifikasi Hujan pada Algoritma XGBoost melalui Hyperparameter Tuning = Improving the Accuracy of Rainfall Classification Models in the XGBoost Algorithm through Hyperparameter Tuning

"Curah hujan menjadi faktor cuaca yang sangat berpengaruh terhadap aktivitas penerbangan, mulai dari saat pesawat akan lepas landas, ketika berada di udara, dan saat akan melakukan pendaratan. Oleh karena itu, penelitian ini bertujuan untuk mengembangkan sebuah model prediksi curah hujan di Bandara Silangit, Tapanuli Utara yang memiliki variasi curah hujan yang tinggi, karena dipengaruhi oleh posisi geografisnya di dekat garis khatulistiwa. Model prediksi curah hujan tersebut dibangun dengan memanfaatkan data dari AWOS dan menerapkan algoritma XGBoost dan selanjutnya dioptimasi dengan menggunakan dua metode, yaitu random search dan bayesian optimization untuk mencari kombinasi hyperparameter optimal dan meningkatkan akurasi model prediksi tersebut. Hasil penelitian menunjukkan bahwa model XGBoost sebelum dioptimasi berhasil mencapai akurasi prediksi 74.8%. Sementara itu, dengan hyperparameter tuning melalui metode bayesian optimization, akurasi model meningkat hingga 76.6%, dengan kombinasi nilai hyperparameter optimal yang didapatkan, diantaranya max_depth: 17, min_child_weight: 3, learning_rate: 0.1, n_estimators: 100, subsample: 0.91, dan colsample_bytree: 0.88. Temuan ini menegaskan potensi yang besar dalam penggunaan teknologi canggih untuk prediksi curah hujan dalam rangka mendukung keselamatan penerbangan di wilayah dengan kondisi cuaca yang kompleks dan dinamis.

Rainfall is a weather factor that significantly affects aviation activities, from takeoff and in-flight operations to landing. Therefore, this study aims to develop a rainfall prediction model for Silangit Airport in North Tapanuli, an area with high rainfall variability due to its geographic location near the equator. The rainfall prediction model is constructed using data from the Automated Weather Observing System (AWOS) and employs the XGBoost algorithm, which is further optimized using two methods: random search and Bayesian optimization. These methods are used to find the optimal hyperparameter combinations and improve the model's prediction accuracy.The results of the study show that the XGBoost model achieved a prediction accuracy of 74.8% before optimization. However, with hyperparameter tuning using Bayesian optimization, the model's accuracy increased to 76.6%. The optimal hyperparameter values obtained were max_depth: 17, min_child_weight: 3, learning_rate: 0.1, n_estimators: 100, subsample: 0.91, and colsample_bytree: 0.88. These findings highlight the significant potential of advanced technology in predicting rainfall, thereby supporting aviation safety in regions with complex and dynamic weather conditions."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Aplikasi transformasi rank dalam pengujian hipotesis beda mean dari dua populasi independen dan berpasangan (Studi kasus : Analisis data rating televisi).

"Dalam pengujian hipotesis prinsip metode statistika parametrik adalah mencocokkan data di bawah asumsi distribusi dari populasinya. Namun pada kenyataannya, banyak permasalahan yang tidak memenuhi asumsi ini. Permasalahan seperti itu dapat diselesaikan dengan dua pendekatan. Pendekatan pertama adalah menggunakan prosedur bebas distribusi. Pendekatan kedua adalah mentransformasi data ke dalam bentuk yang bisa mendekati distribusi normal, seperti transformasi log, transformasi akar kuadrat dan lainnya. Transformasi rank (TR) merupakan prosedur yang mengkombinasikan kedua pendekatan tersebut. Prosedur ini mentransformasi data yang bebas distribusi ke dalam bentuk rank kemudian mengaplikasikan metode parametrik pada data yang telah ditransformasi. Dalam skripsi ini dibahas mengenai aplikasi dari transformasi rank pada data rating televisi. Nilai yang diperoleh dengan prosedur transformasi rank dapat disetarakan dengan nilai yang diperoleh dengan metode parametrik maupun nonparametrik. "

Universitas Indonesia, 2006

S27628

UI - Skripsi Membership Universitas Indonesia Library

Analisis keinginan remaja untuk menggunakan alat/cara KB setelah menikah dengan menggunakan metode cart dan quest (Studi kasus data skrri 2002-2003)

"Besarnya angka statistik pernikahan dini (pengantin di bawah usia 16 tahun) di beberapa daerah di Indonesia secara keseluruhan cukup tinggi. Dalam rangka menanggulangi hal tersebut perlu dilakukan upaya untuk mempersiapkan remaja agar memiliki pengetahuan berkaitan dengan program KB. Untuk itu, peneliti ingin menganalisis keinginan remaja untuk menggunakan alat/cara KB setelah menikah dengan menggunakan metode CART dan QUEST berdasarkan data Survei Kesehatan Reproduksi Remaja Indonesia (SKRRI) 2002-2003. Berdasarkan hasil analisis antara metode CART dan QUEST diperoleh faktor-faktor yang mempengaruhi keinginan remaja untuk menggunakan alat/cara KB setelah menikah, serta karakteristik dari remaja berkaitan dengan hal tersebut. Selain itu diperoleh keakuratan tingkat klasifikasi dari kedua metode, dimana keakuratan tingkat klasifikasi metode CART sedikit lebih tinggi dibandingkan dengan metode QUEST. "

Universitas Indonesia, 2007

S27684

UI - Skripsi Membership Universitas Indonesia Library

Ihsan Izzuddin

Analisis Faktor-faktor Yang Memengaruhi Keengganan Melakukan Uji PCR Swab Covid-19 Pada Mahasiswa FMIPA UI = Analysis Of Factors Affecting The Reluctance To Carry Out Covid-19 PCR Swab Tests On Stundents Faculty Of Science And Mathematics University Of Indonesia

"Uji PCR swab adalah salah satu jenis pemeriksaan untuk seluruh pasien yang terduga COVID-19. Hingga saat ini, tes PCR swab merupakan tes yang paling direkomendasikan oleh WHO untuk mendiagnostik COVID-19. Namun tes ini memiliki kerumitan proses dan harga alat yang lebih tinggi sehingga banyak orang enggan untuk melakukan PCR Swab, walaupun sudah ada gejala terpapar COVID-19 atau lebih memilih jenis tes pemeriksaan yang lain. Penelitian ini merupakan studi kasus yang diambil di FMIPA UI. Tujuan dari penelitian ini adalah menganalisis faktor-faktor apa saja yang signifikan menjelaskan keengganan mahasiswa FMIPA UI melakukan PCR swab seandainya memiliki gejala terpapar COVID-19. Metode analisis yang digunakan untuk mencapai tujuan tersebut yaitu metode analisis regresi logistik. Penelitian ini menggunakan data primer yang didapat menggunakan metode purposive sampling dengan cara menyebar survey online ke grup online departemen di MIPA UI dan responden yang dilibatkan adalah mahasiswa FMIPA UI yang aktif. Hasil yang diperoleh yaitu faktor-faktor yang memengaruhi keengganan melakukan uji PCR Swab pada mahasiswa FMIPA UI adalah tingkat pendidikan orang tua, penghasilan orang tua, dan melakukan protokol kesehatan.

The PCR swab test is one type of examination for all patients suspected of COVID-19. Until now, the PCR swab test is the most recommended test by WHO to diagnose COVID-19. However, this test has the complexity of the process, and the cost of the equipment is higher, so many people are reluctant to do a COVID-19 swab even though there are already symptoms of being exposed to Covid-19 or prefer other types of examination tests. This research is a case study taken at FMIPA UI. This study aims to analyze the factors that significantly explain the reluctance of FMIPA UI students to carry out PCR swabs if symptoms of being exposed to COVID-19 have appeared. The analytical method used is the method of logistic regression analysis. This study used primary data obtained using the purposive sampling method by distributing online surveys to each department’s online groups at FMIPA UI and the respondents involved were active FMIPA UI students. The results obtained are the factors that influence the reluctance to do the PCR Swab test on FMIPA UI students: the level of education of parents, parents' income, and health protocols."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Ilham Randi

Analisis Perbandingan Metode-metode Rebalancing Dalam Menangani Imbalanced Data Pada Klasifikasi Tingkat Keparahan Covid-19 Dengan Metode Random Forest = Comparative Analysis of Rebalancing Methods in Handling Imbalanced Data on COVID-19 Severity Classification with Random Forest

"Dalam melakukan klasifikasi, tidak jarang terdapat data dengan jumlah anggota kategori yang tidak seimbang. Khususnya dalam dunia kesehatan dimana kategori yang diamati umumnya lebih jarang terjadi. Jika ketidakseimbangan ini tidak ditangani terlebih dahulu maka dapat memberikan hasil klasifikasi yang bias dan kurang akurat. Terdapat beberapa metode rebalancing konvensional untuk menanganinya seperti random oversampling dan random undersampling, namun keduanya diklaim memiliki beberapa kelemahan sehingga beberapa metode yang lebih kompleks dikembangkan. Namun jumlah metode yang dapat digunakan untuk menangani data kategorik selain metode konvensional tersebut masih minim. Salah satu metode yang dapat menangani data kategorik adalah synthetic minority over sampling-technique nominal continuous atau SMOTE-NC yang merupakan ekstensi dari SMOTE yang dikembangkan untuk menangani dataset dengan variabel campuran. Skripsi ini membahas perbandingan dari metode random oversampling dan SMOTE-NC juga metode gabungannya dengan undersampling yaitu random oversampling + undersampling dan SMOTE-NC + undersampling untuk menangani ketidakseimbangan data. Masing-masing metode tersebut akan diterapkan untuk klasifikasi tingkat keparahan COVID-19 berdasarkan urgensi perawatan rumah sakit dengan menggunakan metode random forest dimana selanjutnya dapat dilihat kombinasi metode yang menghasilkan performa terbaik. Penelitian ini juga bertujuan untuk melihat faktor-faktor manakah yang paling penting dalam memprediksi tingkat keparahan COVID-19 berdasarkan urgensi rumah sakit. Digunakan metode Leave-One-Out Cross-Validation untuk mengukur konsistensi model. Diperoleh hasil bahwa metode SMOTE-NC dengan undersampling memberikan performa terbaik dengan komorbid paru-paru, kadar c-reactive protein dan prokalsitonin merupakan variabel terpenting dalam model. Selain itu diperoleh kesimpulan bahwa pemilihan metode rebalancing yang tepat bergantung pada karakteristik data yang dimiliki.

In conducting classification, it is not uncommon for data with an unbalanced number of category members. Especially in the world of health where the categories we observe are generally less common. If this imbalance is not handled first, it can give biased and less accurate classification results. There are several conventional rebalancing methods to handle it, such as random oversampling and random undersampling, but both are claimed to have several weaknesses so that several more complex methods were developed. However, the number of methods that can be used to handle categorical data other than the conventional methods is still minimal. One method that can handle categorical data is synthetic minority over sampling-technique nominal continuous or SMOTE-NC which is an extension of SMOTE which was developed to handle datasets with mixed variables. This thesis discusses the comparison of random oversampling and SMOTE-NC methods as well as their combined methods with undersampling, namely random oversampling + undersampling and SMOTE-NC + undersampling to handle data imbalances. These methods will be applied to the classification of the severity of COVID-19 based on the urgency of hospital care using the random forest method, wherein the combination of methods that produces the best performance will be seen. This study also aims to see which factors are the most important in predicting the severity of COVID-19 based on hospital urgency. The Leave-One-Out Cross-Validation method is used to measure the consistency of the model. It was found that the SMOTE-NC method with undersampling gave the best performance with lung comorbidities, c-reactive protein and procalcitonin levels were the most important variables in the model. In addition, it can be concluded that the selection of the right rebalancing method depends on the characteristics of the data held."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Michael Mario Bramanthyo Adhi

Analisis Variabel-variabel yang Menjelaskan Angka Harapan Hidup (AHH) di Provinsi Jawa Barat Tahun 2021 Menggunakan Model Geographically Weighted Regression (GWR) dan Mixed Geographically Weighted Regression (MGWR). = Analysis of Variables that Explain Life Expectancy in West Java Province in 2021 Using Geographically Weighted Regression (GWR) and Mixed Geographically Weighted Regression (MGWR) Models.

"Angka Harapan Hidup (AHH) merupakan rata-rata perkiraan banyak tahun yang dapat ditempuh oleh seseorang sejak lahir. Badan Pusat Statistik (BPS) mencatat bahwa AHH penduduk di Provinsi Jawa Barat tahun 2021 mencapai 73,23 tahun dan menempati posisi keempat dengan nilai AHH tertinggi di Indonesia pada 2021. Penelitian ini bertujuan untuk menganalisis variabel-variabel yang menjelaskan AHH di setiap kabupaten/kota di Provinsi Jawa Barat tahun 2021 menggunakan model regresi linear berganda, Geographically Weighted Regression (GWR), dan Mixed Geographically Weighted Regression (MGWR) yang kemudian dievaluasi untuk memeroleh model terbaik. Pada penelitian ini, model regresi linier berganda digunakan untuk mengetahui seberapa besar pengaruh variabel-variabel independen terhadap variabel AHH dimana nilai estimasi parameter regresi sama untuk setiap wilayah penelitian atau disebut dengan model regresi global. Provinsi Jawa Barat terdiri dari 27 kabupaten/kota yang memiliki karakteristik berbeda antarwilayah sehingga memungkinkan adanya heterogenitas spasial. Model GWR bertujuan untuk mengeksplor heterogenitas spasial dengan membentuk model regresi yang berbeda pada setiap lokasi pengamatan atau dapat disebut dengan model regresi lokal. Hal ini akan menimbulkan permasalahan apabila terdapat variabel independen yang tidak bersifat lokal atau tidak mempunyai pengaruh lokasi, tetapi diduga memiliki pengaruh terhadap variabel dependen secara global. Oleh karena itu, dikembangkan lagi menggunakan model MGWR. Model MGWR menghasilkan estimasi parameter yang bersifat global dan lokal sesuai dengan lokasi pengamatan. Variabel yang bersifat global, yaitu Tingkat Pengangguran Terbuka (TPT) dan Pengeluaran Per Kapita (PPK), sedangkan variabel yang bersifat lokal, yaitu Jumlah Penduduk Miskin (JPM), Harapan Lama Sekolah (HLS), dan Persentase Penduduk yang Mempunyai Keluhan Kesehatan Sebulan Terakhir (KK). Hasil penelitian ini menunjukkan bahwa kedua variabel global berpengaruh terhadap AHH, sedangkan variabel lokal yang berpengaruh terhadap AHH berbeda pada setiap wilayahnya, begitu pula dengan model yang terbentuk juga akan berbeda untuk setiap wilayahnya. Selain itu, model terbaik yang diperoleh adalah model GWR dengan fungsi pembobot fixed Gaussian kernel dengan nilai AIC terkecil, adjusted R-squared terbesar, dan RMSE terkecil dibandingkan model regresi linier berganda dan MGWR.

Life Expectancy (AHH) is an estimate of the years that a person will take from birth. Badan Pusat Statistik (BPS) notes that the AHH of the population in West Java Province in 2021 reached 73.23 years and ranked fourth with the highest AHH value in Indonesia in 2021. This study aims to analyze the variables that explain AHH in each district/city in West Java Province in 2021 using multiple linear regression models, Geographically Weighted Regression (GWR) models, and Mixed Geographically Weighted Regression (MGWR) models which are then evaluated to obtain the best model. In this study, the multiple linear regression model is used to determine how much influence the independent variables had on the AHH variable where the estimated values of the regression parameters were the same for each study area or called the global regression model. West Java Province consists of 27 districts/cities which have different characteristics between regions, thus allowing for spatial heterogeneity. The GWR model aims to explore spatial heterogeneity by forming a different regression model at each observation location or it can be called a local regression model. This will cause problems if there are independent variables that are not local in nature or do not have a location effect, but are suspected of having an influence on the dependent variable globally. Therefore, it is further developed using the MGWR model. The MGWR model produces parameter estimates that have global and local characteristics according to the observation location. Global variables are Open Unemployment Rate (TPT) and Per Capita Expenditures (PPK), while local variables are Number of Poor Population (JPM), Expected Years of Schooling (HLS), and Percentage of Population with Health Complaints in the Last Month (KK). The results of this study indicate that both global variables have a significant effect on AHH, while local variables which have a significant effect on AHH are different in each region, as well as the model formed will also be different for each region. In addition, the best model obtained is the GWR model with a fixed Gaussian kernel weighting function with the smallest AIC value, the largest adjusted R-squared, and the smallest RMSE compared to the multiple linear regression model and MGWR model."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Yudhistira Jinawi Agung

Analisis Sensitivitas Parameter Model EFCM Berbasis BERT untuk Pendeteksian Topik = Parameter Sensitivity Analysis of BERT-based EFCM Model for Topic Detection

"Pendeteksian topik adalah suatu proses untuk mendapatkan pokok bahasan atau topik pada suatu dokumen teks. Pada data yang besar, pendeteksian topik dapat dilakukan dengan lebih efisien menggunakan metode machine learning. Clustering merupakan salah satu metode machine learning yang bertujuan untuk mengelompokkan data yang memiliki karakteristik serupa ke dalam suatu kelompok/cluster. Beberapa contoh metode clustering adalah K-Means, Fuzzy C-Means (FCM), dan Eigenspace-Based Fuzzy C-Means (EFCM). Metode clustering hanya memproses data numerik, oleh sebab itu diperlukan metode representasi teks. Metode representasi teks yang umum digunakan sebelumnya adalah Bag of Words (BoW) dan Term-Frequency Inversed Document Frequency (TFIDF). Namun, metode BoW dan TFIDF kurang baik dalam merepresentasikan teks secara kontekstual. Pada tahun 2018 metode representasi teks yang baru ditemukan yaitu metode Bidirectional Encoder Representation from Transformers (BERT). Model BERT dapat merepresentasikan teks secara kontekstual dan menghasilkan representasi teks berdimensi tinggi. EFCM merupakan teknik clustering yang menggunakan kombinasi teknik reduksi dimensi Truncated Singular Value Decomposition (TSVD) dengan teknik clustering FCM. Pada tahun 2022 terdapat penelitian yang mengombinasikan BERT dan EFCM untuk pendeteksian topik. Pada model kombinasi BERT dan EFCM terdapat beberapa nilai parameter yang dapat diatur, antara lain adalah pemilihan lapisan encoder BERT, dimensi EFCM, dan derajat fuzziness. Penelitian ini berfokus pada analisis sensitivitas parameter untuk melihat pengaruh dari nilai parameter terhadap kinerja model EFCM berbasis BERT untuk pendeteksian topik. Analisis sensitivitas parameter menggunakan metode Sobol untuk menentukan parameter yang tidak sensitif dan yang paling sensitif. Kinerja model dievaluasi menggunakan metrik evaluasi topic coherence, topic diversity, dan topic quality. Hasil penelitian menunjukkan bahwa parameter lapisan encoder, dimensi EFCM, dan derajat fuzziness sensitif terhadap kinerja model. Selain itu, diperoleh model optimal pada tiga dataset menggunakan parameter tuning metode grid search. Penerapan parameter tuning dapat meningkatkan performa model pada ketiga dataset berdasarkan nilai topic quality.

Topic detection is a process to get the subject matter or topic in a text document. In large data, topic detection can be done more efficiently using machine learning methods. Clustering is a machine learning method aiming to group data with similar characteristics into a group/cluster. Some examples of clustering methods are K-Means, Fuzzy C-Means (FCM), and Eigenspace-Based Fuzzy C-Means (EFCM). The clustering method only processes numeric data; therefore, a text representation method is needed. Previously used text representation methods were Bag of Words (BoW) and Term-Frequency Inverse Document Frequency (TFIDF). However, the BoW and TFIDF methods are not good at representing text contextually. In 2018 a new text representation method was discovered, namely the Bidirectional Encoder Representation from Transformers (BERT) method. The BERT model can contextually represent text and produce high-dimensional text representations. EFCM is a clustering technique that combines the Truncated Singular Value Decomposition (TSVD) dimension reduction technique with the FCM clustering technique. In 2022 there will be research that combines BERT and EFCM for topic detection. In the BERT and EFCM combination model, there are several parameter values that can be set, including the selection of the BERT encoder layer, EFCM dimensions, and the degree of fuzziness. This study focuses on parameter sensitivity analysis to see the effect of parameter values on the performance of the BERT-based EFCM model for topic detection. Parameter sensitivity analysis uses the Sobol method to determine which parameters are insensitive and the most sensitive. Model performance was evaluated using evaluation metrics of topic coherence, topic diversity, and topic quality. The results showed that the parameters of the encoder layer, EFCM dimensions, and degree of fuzziness were sensitive to model performance. In addition, the optimal model was obtained for three datasets using the grid search method parameter tuning. Parameter tuning can improve the model performance on the three datasets based on topic quality values."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian