Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 92 dokumen yang sesuai dengan query
cover
Umar Ruswandi
Abstrak :
Tujuan dari penelitian ini adalah menguji akurasi dari metode faktorisasi matriks probabilitas (pmf) pada data rating film MovieLens. Dalam pmf, data ini dapat direprentasikan dalam bentuk matriks R. yang berukuran n x m, dimana n adalah banyaknya pengguna sedangkan m adalah banyaknya judul film. Keluaran dari model ini adalah berupa dua buah matriks W dan H. Dimana W adalah matriks fitur pengguna sedangkan H adalah matriks fitur film. Akurasi dari model tercermin dari besarnya norm Frobenius 'R-WH' pada data testing. Matriks W dan H dapat diestimasi dengan menggunkan Teorema Bayes. Berdasarkan Teorema ini, model yang baik adalah model yang memiliki probabilitas posterior maksimum. Dari eksperimen, kondisi tersebut dicapai saat parameter k=17 dan lambda=0.2 dengan RMSE=0.920661. Pada nilai RMSE tersebut model ini masuk kategori yang baik dalam memprediksi banyaknya genre dan skor kosong dalam matriks R.
The purpose of this study is to test the accuracy of the method of probabilistic matrix factorization (PMF) on MovieLens movie rating data. In PMF, this data can be represents by the sparse matrix R. size nxm, where n is the number of users, while m is the number of movie titles. The output of the model is in the form of two matrices W and H. Where W is the matrix of user features, while H is the matrix of films features. The accuracy of the model is reflected in the size of the Frobenius norm 'R-WH' in the data testing. Matrices W and H can be estimated by using Bayes theorem. Based on this theorem, a good model is a model that has a maximum posterior probability. From these experiments, the condition is achieved when the parameters k = 17 and lambda = 0.2 with RMSE = 0.920661. In this model, the RMSE values in the category of good in predicting the number of genre and empty scores in the matrix R.
Depok: Universitas Indonesia, 2012
T31552
UI - Tesis Open  Universitas Indonesia Library
cover
Mohammad Luthfi Pratama
Abstrak :
Perkembangan teknologi informasi khususnya internet di Indonesia terbilang sangat pesat. Media sosial hadir sebagai sarana baru dalam berkomunikasi dengan perantara internet. Salah satu media sosial pemicu hal tersebut adalah twitter. Banyak sekali variasi topik yang dihasilkan para pengguna twitter. Setiap topik yang dihasilkan memiliki nilai sentimen. Nilai sentimen dibagi menjadi positif, negatif, dan netral. Untuk mengetahui nilai sentimen, digunakanlah analisis sentimen. Namun dengan banyaknya pengguna twitter, akan memakan waktu banyak untuk mengetahui nilai sentimen. Sehingga digunakanlah Support Vector Machine (SVM). Tetapi SVM hanya bisa mengklasifikasikan 2 kelas. Sehingga diperlukan pendekatan Multiclass. terdapat dua cara dalam melakukan pendekatan Multiclass, yaitu pendekatan One Vs One dan One Vs All. ......The growth of information technology, especially the Internet in Indonesia, is rapidly increasing. Social media is the new way to communicate with other users on the internet. Twitter is one of the social media that contribute the growth. There are many topics that are generated by the users. Each topic that is generated by the users has the sentiment value. The sentiment value is divided into positive, negative, and neutral. To determine the value of the sentiment, we need to use the sentiment analysis. However, with so many twitter users, it will take a lot of time. That is why we use Support Vector Machine (SVM). However, SVM can only classify two classes. Therefore, we need multiclass approach. There are two ways of doing multiclass approach: One Vs One and One vs All.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2014
S58011
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hans Kristian
Abstrak :
Fraud asuransi merupakan tindakan yang sangat merugikan, baik untuk perusahaan asuransi dalam bentuk kerugian maupun untuk pemegang polis lainnya dalam bentuk kenaikan premi untuk menutupi kerugian. Salah satu cara yang dapat dilakukan adalah menggunakan jasa claim investigator untuk mendeteksi fraud yang mungkin terjadi. Namun, semakin banyak klaim yang perlu dianalisis, semakin tinggi juga biaya yang akan dikeluarkan. Solusi untuk mengatasi masalah scalability tersebut adalah dengan menggunakan machine learning. Metode machine learning yang saat ini cukup populer dan banyak digunakan untuk berbagai aplikasi adalah deep learning. Metode deep learning banyak dipakai untuk memproses data tidak terstruktur contohnya pemrosesan data gambar dengan menggunakan convolutional neural networks (CNN). Kesuksesan metode CNN dalam memproses data tidak terstruktur menjadi dasar dari pengembangan algoritma IGTD (image generator for tabular data) yang bertujuan untuk memproses data terstruktur menjadi data berbentuk gambar agar dapat diproses oleh metode CNN. Penelitian ini bertujuan untuk menganalisis kinerja algoritma IGTD dan model CNN dalam memprediksi fraud asuransi dengan menggunakan data fraud asuransi kendaraan bermotor. Kinerja algoritma IGTD dan model CNN akan dibandingkan dengan model XGBoost dengan pembobotan data, imbalance-XGBoost weighted function, decision tree, serta random forest. Selain itu, pada penelitian ini dianalisis juga modifikasi dari algoritma IGTD terhadap kinerja model CNN yang digunakan. Hasil simulasi menunjukkan bahwa algoritma IGTD dan model CNN masih belum mampu menandingi model XGBoost dengan pembobotan data dan imbalance-XGBoost weighted function yang masih menjadi model terbaik dalam memprediksi fraud asuransi. Selain itu, model CNN berbasis modifikasi algoritma IGTD memiliki kinerja yang serupa dengan model CNN berbasis algoritma IGTD. ......Insurance fraud is an act that could inflict serious damage not only for the insurance company in the form of net loss, but also for other policyholders in the form of increased premium rates to cover the net loss. Insurance companies might use claim investigator to detect possible fraud by policyholders. However, as more claims need to be investigated, the cost of investigation will also increase. Machine learning is the solution for this scalability issue, especially the deep learning method which is popular and widely used in numerous applications. Deep learning method is commonly used to process unstructured data such as image by using convolutional neural networks (CNN). The success of CNN model motivates the invention of IGTD (image generator for tabular data) algorithm to process structured data into images to ensure it can be processed by the CNN model. The purpose of this research is to analyze the performance of IGTD algorithm and CNN model to predict insurance fraud using auto insurance fraud dataset. The performance of IGTD algorithm and CNN model is compared to XGBoost sample weighted, imbalance-XGBoost weighted function, decision tree, and random forest. In this research the impact of IGTD algorithm modification to the performance of CNN model is analyzed. The simulation result shows that the IGTD algorithm and CNN model is unable to outperform the best model to predict insurance fraud, XGBoost sample weighted and imbalance-XGBoost weighted function. Moreover, CNN model based on IGTD algorithm and modified IGTD algorithm yield similar performance.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Siallagan, Pitua
Abstrak :
Tugas akhir ini membahas penyelesaian persoalan matching lengkap dengan menggunakan graf bipartite sebagai modelnya. Teori yang digunakan untuk menentukan penyelesaian persoalan tersebut adalah teorema Hall. Dan algoritma yang dibahas untuk menjawab ada atau tidaknya matching lengkap pada persoalan tersebut adalah algoritma Hungarian.
Depok: Universitas Indonesia, 2003
S42402
UI - Skripsi Open  Universitas Indonesia Library
cover
Seli Siti Sholihat
Abstrak :
Bank dipersyaratkan oleh pemerintah untuk mengelola risiko-risiko perbankan, salah satunya adalah risiko operasional. Risiko operasional merupakan salah satu jenis risiko yang melekat pada setiap aktifitas fungsional bank. Bank mengelola risiko operasional dengan cara menghitung kerugian yang diperkirakan sebagai kebutuhan modal bagi risiko operasional (Economic Capital). Loss distribution Approach (LDA) merupakan salah satu metode untuk perhitungan Economic Capital (EC). Dalam metode LDA, bank harus mengestimasi loss severity distribution (distribusi severitas) dan frequency distribution (distribusi frekuensi) kemudian membentuk compound distribution (distribusi majemuk). Nilai EC diperoleh dari Value at Risk (VaR) dari distribusi majemuk dengan tingkat kepercayaan 99,9%. Estimasi distribusi severitas umumnya menggunakan model distribusi tertentu yang telah ada, namun pada banyak kasus kurang baik dalam menggambarkan data. Estimasi distribusi severitas berbasis data diharapkan mampu menjadi solusi permasalahan ini. Salah satu metode yang mengestimasi distribusi severitas dengan berbasis pada data adalah Gaussian Mixture Model (GMM). GMM merupakan suatu metode parametrik untuk mengestimasi fungsi distribusi probabilitas dari suatu variabel acak. Model GMM ini merupakan model kombinasi linear sederhana dari beberapa komponen distribusi Gaussian. Hasil penelitian menunjukkan bahwa GMM mampu menggambarkan data lebih baik dibandingkan dengan menggunakan model distribusi yang ada. Nilai EC yang dihasilkan oleh metode LDA yang distribusi severitasnya menggunakan GMM lebih kecil 2-2,8% dibandingkan nilai EC yang dihasilkan oleh metode LDA yang menggunakan model distribusi tersebut. ......Bank must be able to manage all of banking risk, on of them is operational risk. Operational risk is a risk that come from any functional activity of bank. Bank manage operational risk by calculate estimated risk (Economic Capital). Loss Distribution Approach (LDA) is a popular method to estimate Economic Capital (EC) of operational risk on banking. In LDA method, loss severity distribution (severity distribution) and loss frequency distribution (frequency distribution) must be estimated and then compound distribution is formed from both of them. Through LDA method, the value of EC can be gotten from Value at Risk (VaR) in compound distribution with the level of confidence reaches 99,9%. Severity distribution estimation that used a model on particular distribution cannot describe a data well through. So, Severity distribution estimation based on data is used to solved this problem. One of methode that estimated severity distribution based on data is Gaussian Mixture Model (GMM). GMM is parametric methode that estimate probability density of random variable. Model of GMM is a linear combination of many Gaussian distribution . The result on this research is estimation of severity distribution through GMM is better than existing distribution model in describing the data. The value at EC of LDA method using GMM is smaller 2 % - 2,8 % than the value at EC of LDA using existing distribution model.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2015
T42867
UI - Tesis Membership  Universitas Indonesia Library
cover
Silalahi, Desri Kristina
Abstrak :
[Penilaian kredit merupakan sistem atau cara yang digunakan oleh bank atau lembaga pembiayaan lainnya dalam menentukan calon debitur layak atau tidak mendapatkan pinjaman. Salah satu metode dalam penilaian kredit yang digunakan untuk mengklasifikasikan karakteristik calon debitur adalah Support Vector Machine (SVM). SVM mempunyai kemampuan generalisasi yang baik untuk menyelesaikan masalah klasifikasi dalam jumlah data yang besar dan dapat menghasilkan fungsi pemisah yang optimal untuk memisahkan dua kelompok data dari dua kelas yang berbeda. Salah satu keberhasilan menggunakan metode SVM adalah proses pemilihan fitur yang akan mempengaruhi tingkat akurasi klasifikasi. Berbagai metode dilakukan untuk pemilihan fitur, karena tidak semua fitur mampu memberikan hasil klasifikasi baik. Pemilihan fitur yang digunakan dalam penelitian ini adalah Variance Threshold, Univariate Chi – Square, Recursive Feature Elimination (RFE) dan Extra Trees Clasifier (ETC). Data dalam penelitian ini menggunakan data sekunder dari database dalam UCI machine learning responsitory. Berdasarkan simulasi untuk membandingkan nilai akurasi penggunaan metode pemilihan fitur pada SVM dalam klasifikasi penilaian risiko kredit, diperoleh bahwa metode Variance Threshold dan Univariate Chi – Square dapat mengurangi akurasi sedangkan metode RFE dan ETC dapat meningkatkan akurasi. Metode RFE memberikan akurasi yang lebih baik;Credit scoring is a system or method used by banks or other financial institutions to determine the debtor feasible or not get a loan. One of credit scoring method is used to classify the characteristics of debtor is Support Vector Machine (SVM). SVM has an excellent generalization ability to solve classification problems in a large amount of data and can generate an optimal separator function to separate two groups of data from two different classes. One of the success using SVM method is dependent on features selection process that will affect the level of classification accuracy. Various methods have done to features selection, because not all the features are able to give best classification results. Features selection that used this study is Variance Threshold, Univariate Chi - Square, Recursive Feature Elimination (RFE) and Extra Trees Classifier (ETC). Data in this study use secondary data from the database in UCI machine learning responsitory. Based on simulations to compare the accuracy of using feature selection method on SVM in classification of credit risk scoring, obtained that Variance Threshold and Univariate Chi – Square method can decrease accuracy while RFE and ETC method can increase accuracy. RFE method gives better accuracy., Credit scoring is a system or method used by banks or other financial institutions to determine the debtor feasible or not get a loan. One of credit scoring method is used to classify the characteristics of debtor is Support Vector Machine (SVM). SVM has an excellent generalization ability to solve classification problems in a large amount of data and can generate an optimal separator function to separate two groups of data from two different classes. One of the success using SVM method is dependent on features selection process that will affect the level of classification accuracy. Various methods have done to features selection, because not all the features are able to give best classification results. Features selection that used this study is Variance Threshold, Univariate Chi - Square, Recursive Feature Elimination (RFE) and Extra Trees Classifier (ETC). Data in this study use secondary data from the database in UCI machine learning responsitory. Based on simulations to compare the accuracy of using feature selection method on SVM in classification of credit risk scoring, obtained that Variance Threshold and Univariate Chi – Square method can decrease accuracy while RFE and ETC method can increase accuracy. RFE method gives better accuracy.]
Universitas Indonesia, 2015
T44513
UI - Tesis Membership  Universitas Indonesia Library
cover
Muhammad Arief Fauzan
Abstrak :
Tren kenaikan frekuensi dan severitas klaim untuk klaim asuransi kendaraan bermotor menyebabkan dibutuhkannya metode otomatisasi baru untuk memprediksi probabilitas seorang pemegang asuransi kendaraan akan mengajukan klaim jika diberikan data historis mengenai pemegang asuransi tersebut, agar perusahaan asuransi dapat memilah dan memproses lebih lanjut para pemegang polis yang kemungkinan mengajukan klaimnya tinggi. Masalah ini dapat diselesaikan dengan berbagai metode, salah satunya dengan machine learning, yang mengkategorisasikan masalah tersebut sebagai masalah supervised learning. Volume data yang besar dan banyaknya kemungkinan adanya missing values pada data pemegang asuransi menjadi dua aspek yang mempengaruhi pemilihan model machine learning yang tepat. XGBoost merupakan model gradient boosting machine learning baru yang dapat mengatasi missing value dan volume data besar sehingga XGBoost diklaim merupakan metode yang tepat untuk digunakan pada masalah tersebut. Dalam skripsi ini akan diaplikasikan metode XGBoost kepada masalah ini, dan akan dibandingkan hasilnya dengan berbagai metode machine learning lainnya, seperti AdaBoost, Stochastic Gradient Boosting, Random Forest, Neural Network, dan Logistic Regression. ......The increasing trend of claim frequency and claim severity for auto-insurance result in a need of new methods to predict whether a policyholder will file an auto-insurance claim or not, given historical data about said policyholder, so that insurance industries can further process policyholders with high claim probability. This problem can be solved with many methods, one of which is machine learning, which categorizes this problem as a supervised learning problem. The high data volume and the existence of missing values on a policyholders historical data are aspects that the chosen machine learning model must be able to handle. XGBoost is a novel gradient boosting machine learning problem that is able to inherently handle missing values and high volume of data, which should make the model suitable for this problem. In this thesis, XGBoost will be applied to this problem, and its performance will be compared by other machine learning models, such as AdaBoost, Stochastic Gradient Boosting, Random Forest, Neural Network, and Logistic Regression.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adhimas Yudha Prawira
Abstrak :
Twitter merupakan salah satu media sosial yang digunakan secara massive di Indonesia. Para pengguna Twitter ini membicarakan berbagai macam hal, salah satunya terkait pencalonan presiden. Perbincangan para pengguna Twitter ini memiliki nilai sentimen baik positif maupun negatif. Dukungan masyarakat terhadap masing-masing kandidat calon presiden dapat diketahui dengan melihat sentimen masyarakat melalui perbincangan mereka di Twitter, hal ini sering disebut juga sebagai analisis sentimen. Namun, jumlah pengguna dan obrolan para pengguna Twitter yang sangat banyak mengakibatkan data yang akan diproses membutuhkan waktu yang cukup lama. Untuk melakukan proses analisis sentimen para pengguna Twitter secara cepat dan otomatis dapat digunakan bantuan mesin. Salah satu metode yang digunakan untuk melakukan proses analisis sentimen adalah Support Vector Machine (SVM). Pada dasarnya, semakin banyak data yang digunakan sebagai data training dalam pemilihan model fungsi klasifikator maka akan memberikan generalisasi akurasi analisis sentimen untuk data testing yang tinggi pula. Namun di sisi lain, semakin banyaknya data training juga akan menyebabkan besarnya dimensi ruang fitur. Hal ini membuat mesin membutuhkan waktu yang cukup lama dalam melakukan pembentukan fungsi klasifikator. Untuk menanggulangi hal ini, akan dilakukan metode optimasi fitur sehingga mesin dapat tetap membentuk fungsi klasifikator dengan akurasi yang tinggi namun dengan dimensi ruang fitur yang rendah.
Twitter is a social media that used in Indonesia massively. Twitter users talk (tweet) about various things, one of them is about presidential nomination. Twitter user conversations have a positive or negative sentiment. Community support for each presidential candidate can be determined by looking at the public sentiment through their conversations on Twitter, this is often referred to sentiment analysis. However, the number of users and tweets cause the data to be processed requires quite a long time. Machine can be used to make the process of Twitter sentiment analysis quickly and automatically. One method that used to perform the sentiment analysis process is a Support Vector Machine (SVM). Basically, the more data that used as data training in the model selection function will give a high accuracy generalization sentiment analysis on data testing. On the other hand, the increasing number of training data will also cause large dimensional feature space. This makes the machine takes a long time to perform model selection. To overcome this problem, feature optimization will be performed. Feature optimization will preserve the high accuracy of the model, but with a low dimensional feature space.
Universitas Indonesia, 2014
S57179
UI - Skripsi Membership  Universitas Indonesia Library
cover
Reri Nandar Munazat
Abstrak :
Seiring meningkatnya tren kecelakaan kerja selama periode 2007-2017 serta berjalannya kembali kegiatan usaha secara normal pascapandemi COVID-19, lini usaha asuransi kompensasi pekerja menjadi sangat potensial untuk dikembangkan. Sebagai komponen penting dalam model bisnis asuransi, severitas klaim perlu diprediksi seakurat mungkin karena berpengaruh terhadap penetapan tarif premi bagi tertanggung serta bermanfaat dalam mekanisme pengamatan klaim selama proses penyelesaian klaim. Proses prediksi ini dikategorikan sebagai masalah regresi yang biasanya ditangani oleh model-model pembelajaran mesin untuk data tabular. Namun dalam perkembangan studi pembelajaran mesin, terdapat upaya untuk memanfaatkan model Convolutional Neural Network (CNN) untuk melakukan prediksi terhadap data tabular dengan cara mentransformasikan data tersebut ke dalam representasi gambarnya, salah satunya melalui algoritma Image Generator for Tabular Data (IGTD). Penelitian ini bertujuan untuk menguji akurasi model CNN berbasis algoritma IGTD dalam memprediksi klaim asuransi kompensasi pekerja serta membandingkan performa model tersebut dengan model Multi-Layer Perceptron, Random Forest, serta eXtreme Gradient Boosting. Hasil simulasi dengan metode repeated holdout sebanyak lima iterasi menunjukkan bahwa model CNN dapat memprediksi klaim dengan baik meskipun secara umum belum mampu menyaingi model-model non-CNN secara signifikan. ......Along with the increasing trend of work accidents during 2007-2017 period as well as the resumption of business activities normally after the COVID-19 pandemic, the workers’ compensation insurance business line has great potential to be developed. As an important component in the insurance business model, the claim severity needs to be predicted as accurate as possible because it affects the determination of premium rates for the insured and is useful in the claim watching mechanism during the claim settlement process. This prediction process is categorized as a regression problem which is usually handled by machine learning models for tabular data. However, in the development of machine learning studies, there are emerging efforts to utilize the Convolutional Neural Network (CNN) model to predict tabular data by transforming the data into its image representation, one of which is through Image Generator for Tabular Data (IGTD) algorithm. This study aims to test the accuracy of the CNN model based on the IGTD algorithm in predicting workers’ compensation insurance claims and to compare the model performance with the Multi-Layer Perceptron, Random Forest, and eXtreme Gradient Boosting models. The simulation result using the repeated holdout method for five iterations shows that the CNN model can well predict the claims, although in general, it has not been able to significantly compete with non-CNN models.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ravialdy Hidayat
Abstrak :
Issue keselamatan atau safety merupakan salah satu capaian yang paling penting di industri pertambangan. Hal ini dikarenakan adanya kecelakaan kerja dapat berakibat fatal bagi intensitas produksi yang dapat dilakukan hingga berpotensi untuk terjadinya pencabutan izin operasional perusahaan oleh pemerintah. Pada PT X sendiri, pelanggaran atau deviasi yang berisiko sangat tinggi untuk terjadinya kecelakaan kerja yang mengakibatkan kematian adalah terkait dengan adanya manusia di area operasional pertambangan tanpa izin dan jarak tidak aman dari kendaraan-kendaraan yang ada, khususnya kendaraan dengan muatan berat seperti HD (Heavy Duty Dump Truck). Oleh karena itu, pada penelitian ini akan diusulkan metode deteksi objek yang berbasis deep learning YOLOv4 untuk mendeteksi objek manusia dan HD beserta penggunaan jarak Euclidean untuk estimasi jarak tidak aman antar kendaraan HD. Dengan menggunakan sebanyak 2009 gambar sebagai data latih dan sebanyak 201 gambar sebagai data uji, dihasilkan nilai mAP terbaik selama proses pelatihan model sebesar 88,76% dan nilai recall objek manusia dan HD pada sebanyak 10 video uji masing-masing sebesar 56,96% dan 55,73%. Nilai recall tersebut dapat meningkat cukup signifikan manakala teknologi CCTV dilakukan proses zoom in. Adanya penelitian ini diharapkan dapat membantu pengawas untuk mendeteksi deviasi-deviasi yang terjadi di area operasional pertambangan, khususnya untuk deteksi objek manusia dan HD beserta prediksi jarak tidak aman antar HD. ......The safety issue is one of the most important achievements in the mining industry. This is because work accidents can be fatal for the intensity of production that can be carried out and the government has the potential to revoke the company's operating license. At PT X itself, violations or deviations that pose a very high risk for work accidents resulting in death are related to the presence of humans in the mining operational area without a permit and an unsafe distance from existing vehicles, especially vehicles with heavy loads such as HD. Therefore, in this study, an object detection method based on deep learning YOLOv4 will be proposed to detect human and HD (Heavy Duty Dump Truck) objects along with the estimation of unsafe distances between HD vehicles using euclidean distance method. By using as many as 2009 images as training data and as many as 201 images as test data, the best mAP value during the model training process is 88.76% and the recall value of human and HD objects in 10 test videos are 56.96% and 55.73%. The recall value can increase significantly when CCTV technology is zoomed in. The existence of this research is expected to help supervisors to detect deviations that occur in the mining operational area, especially for the detection of human objects and HD along with predictions of unsafe distances between HD.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>