Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 151950 dokumen yang sesuai dengan query
cover
Kartika Syskya Wydya
"Analisis sentimen merupakan proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi. Pada penelitian ini, analisis sentimen diterapkan pada media sosial, yaitu Twitter. Pada dasarnya analisis sentimen merupakan masalah klasifikasi. Support Vector Machine SVM adalah salah satu metode machine learning untuk menyelesaikan masalah klasifikasi. Pada pendekatan SVM model dibangun dengan data dari domain yang sama. Namun, ketika terjadi perubahan domain, maka model machine learning harus dibangun kembali dari awal dengan menggunakan data pelatihan yang baru. Data pelatihan yang baru membutuhkan proses pelabelan yang dilakukan secara manual.
Dalam kasus ini, akan lebih efektif dan efisien jika dilakukan transfer learning agar dapat menggunakan data pelatihan dari domain yang sudah tersedia untuk menangani masalah klasifikasi pada domain yang berbeda. Data pelatihan dari sebuah domain digunakan untuk melakukan klasifikasi pada domain yang berbeda. Dalam penelitian masalah analisis sentimen untuk tweets berbahasa Indonesia ini, nilai akurasi transfer learning masih lebih rendah dari pada metode SVM tanpa transfer learning. Penggunaan fitur bi-gram dapat meningkatkan kinerja transfer learning.

Sentiment analysis is the process of understanding, extracting and processing textual data automatically to obtain information. In this experiment, sentiment analysis applied to social media, Twitter. Basically, sentiment analysis is a classification problem. Support Vector Machine SVM is one of machine learning method to solve two class classification problem. In the SVM approach the model is built with data from the same domain. However, when domain changes occur, the machine learning model must be rebuilt from scratch using new training data. New training data requires manual labeling process.
In this case, it would be more effective and efficient to transfer learning to use the training data from an already available domain to deal with classification problems on different domains. Training data from a domain will be used to classify on different domains. In the research problem of sentiment analysis for tweets in Bahasa, the value of transfer learning accuracy is still lower than the SVM method without transfer learning. Use of bi gram feature can improve the performance of transfer learning.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47815
UI - Tesis Membership  Universitas Indonesia Library
cover
Amanda Nydia Augustizhafira
"Analisis sentimen merupakan bagian dari data mining text mining , yaitu proses memahami, mengekstrak, dan mengolah data tekstual secara otomatis untuk mendapatkan informasi. Pada penelitian ini, analisis sentimen diterapkan pada salah satu media sosial, yaitu Twitter. Analisis sentimen tergolong sebagai masalah klasifikasi yang dapat diselesaikan menggunakan salah satu metode machine learning, yaitu Neural Network. Pada machine learning, data dibagi menjadi data pelatihan dan data pengujian yang berasal dari domain yang sama.
Permasalahan utama pada penelitian ini adalah data pelatihan dan data pengujian berasal dari dua domain yang berbeda, sehingga perlu diterapkan pembelajaran lain selain machine learning. Masalah tersebut dapat diselesaikan dengan menggunakan transfer learning. Transfer learning merupakan suatu pembelajaran model yang dibangun oleh suatu data pelatihan dari suatu domain dan diuji oleh suatu data pengujian dari domain yang berbeda dari domain data pelatihan. Simulasi dalam penelitian ini menghasilkan suatu akurasi transfer learning dengan metode Neural Network yang nantinya akan diuji dengan fitur n-gram bi-gram dan tri-gram serta satu metode seleksi fitur, yaitu Extra-Trees Classifier.
Dalam penelitian ini, nilai akurasi transfer learning tertinggi didapat saat hidden layer berjumlah satu. Sebagian besar nilai akurasi tertinggi didapat saat penggunaan 250 neuron pada hidden layer. Fungsi aktivasi ReLU dan tanh menghasilkan nilai akurasi yang lebih tinggi dibandingkan fungsi aktivasi logistic sigmoid. Penggunakan metode seleksi fitur dapat meningkatkan kinerja transfer learning sehingga nilai akurasinya lebih tinggi dibandingkan simulasi tanpa penggunaan metode seleksi fitur.

Sentiment analysis is a part of data mining text mining , which is the process of understanding, extracting, and processing textual data automatically to obtain information. In this research, sentiment analysis is applied to one social media called Twitter. Sentiment analysis is categorized as a classification problem that can be solved using one of machine learning methods, namely Neural Network. In machine learning, data is divided into training data and test data from the same domain.
The main problem in this research is training data and test data come from two different domains, so it is necessary to apply other learning beside machine learning. The problem can be solved by using transfer learning. Transfer learning is a model learning constructed by a training data from a domain and tested by a test data from a different domain from the training data domain. The simulation in this research resulted in an accuracy of learning transfer with Neural Network method which will be tested using n grams bi grams and tri grams and one feature selection method called Extra Trees Classifier.
In this research, the highest value of transfer learning accuracy is obtained when one hidden layer is used. Most of the highest accuracy values are obtained from the use of 250 neurons on the hidden layer. The activation function of ReLU and tanh yield a higher accuracy value than the logical activation function sigmoid . The use of feature selection method can improve the transfer learning performance so that the accuracy value is higher than simulation without the use of feature selection method.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Chris Solontio
"Analisis sentimen merupakan permasalahan klasifikasi data mining dengan proses memahami, mengekstrak dan mengolah data teks secara otomatis untuk mendapatkan informasi. Dalam menganalisis pendapat di media sosial digunakan machine learning untuk mendapatkan hasil klasifikasi. Banyak metode machine learning untuk melakukan klasifikasi, dalam penelitian ini akan digunakan convolutional neural network. Dalam machine learning, data dibagi menjadi data training dan data test dengan domain data yang sama.
Permasalahan utama skripsi ini adalah data yang digunakan memiliki dua domain berbeda, sehingga metode machine learning tradisional tidak dapat diterapkan. Sehingga agar dapat menerapkan convolutional neural network untuk dua data berbeda diperkenalkan suatu cara yaitu transfer learning. Transfer learning merupakan suatu proses pembelajaran model yang didapatkan dari training data A oleh data B dengan domain berbeda. Simulasi dalam penelitian ini menghasilkan suatu akurasi transfer learning dengan metode convolutional neural network.

Sentiment analysis is classification problem in data mining with process of understanding, extracting and processing text data to obtain information. Machine learning is needed in analyzing sentiment of the people to get the result of classification. There are many methods in machine learning to do classification, this research will use convolutional neural network. In machine learning, data is divided into train and test data with the same domain.
The main problem of this research is the data has a different domain, so the traditional machine learning method can not be applied. In order to apply convolutional neural network into data with different domain, it will be introduced transfer learning method. Transfer learning is learning model process obtained from training data A then tested by data B. In this research, the simulations result is accuracy of transfer learning with convolutional neural network.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Furida Lusi S.
"Salah satu media sosial yang berkembang saat ini adalah twitter, twitter menjadi salah satu tempat bagi masyarakat untuk memberikan opini atau pendapat terhadap hal-hal yang menarik bagi masyarakat, sehingga opini-opini dan pendapat yang tertuang di dalam twitter dapat menjadi acuan bagi orang yang membutuhkan. Sehingga dibutuhkan metode otomatis untuk menganalisis hal tersebut yaitu dengan analisis sentiment sentiment analysis. Secara umum, masalah sentimen analisis merupakan suatu masalah klasifikasi, yaitu bagaimana mengklasifikasikan suatu data tekstual ke dalam kelas sentimen positif atau negatif.
Salah satu metode klasifikasi yang dapat digunakan adalah Support vector machine SVM. Pada proses klasifikasi sentimen dari data tekstual, data tekstual tersebut umunya direpresentasikan dalam vektor dengan fitur atau dimensi berupa kata. Disamping fitur kata, saat ini ada metode untuk mendeteksi topik pada suatu data tekstual yaitu dengan Nonnegative Matrix Factorization NMF.
Pada penelitian yang dianalisis adalah menggunakan fitur topik untuk analisis sentimen dengan cara menggabungkan metode Nonnegative Matrix Factorization NMF dan Support vector machine SVM . Nilai akurasi dari metode penggabungan ini menunjukkan hasil yang lebih baik.

One social media developed at this time is twitter, twitter became one of the places for the public to give opinions or views on matters of interest to the public, so that the opinions and views expressed in twitter can be a reference for people in need. So it takes an automatic method for analyzing it is by analysis of sentiment sentiment analysis. In general, sentiment analysis problem is a problem of classification., Namely how to classify a class of textual data into a positive or negative sentiment.
One method of classification that can be used is Support vector machine SVM. In the process of sentiment classification of textual data, textual data are generally represented by a vector with a feature or dimension in the form of words. Besides the features of the word, at this time there is a method for detecting a topic in a textual data that is with nonnegative Matrix Factorization NMF.
In the study are analyzed using the feature topic for sentiment analysis by combining methods nonnegative Matrix Factorization NMF and Support vector machine SVM. Rated accuracy of this incorporation method showed better results.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47000
UI - Tesis Membership  Universitas Indonesia Library
cover
Syahrul Amrie
"Perkembangan media sosial telah berkembang pesat, tidak hanya sebagai alat komunikasi sosial antar individu. Fungsi dan kegunaannya semakin berkembang serta banyak dimanfaatkan organisasi swasta maupun pemerintah untuk mengukur tingkat layanan. Ditjen Imigrasi selaku organisasi pemerintah merupakan salah satu organisasi yang memanfaatkan media sosial, salah satu fungsinya untuk mengetahui apakah layanan yang diberikan telah diterima dengan baik oleh masyarakat. Selain melalui media sosial, Imigrasi juga telah meluncurkan aplikasi M-Paspor di platform Google Play Store, di platform tersebut Imigrasi juga dapat mengetahui tingkat efektivitas dari aplikasi yang telah diluncurkan. Berdasarkan survei yang dilakukan oleh Balitbangham yang merupakan internal dari Kemenkumham, layanan yang diberikan oleh imigrasi mendapat nilai sangat baik, namun faktanya pada media sosial maupun google play store banyak komentar maupun ulasan yang kurang puas dengan pelayanan pihak imigrasi. Hal tersebut menjadi kontradiksi antara hasil survei Balitbangham dan data di media sosial. Namun, akan sulit untuk melakukan analisis data media sosial dikarenakan jumlah yang banyak. Oleh karena itu, perlu dilakukan untuk mengusulkan sistem untuk melakukan analisis sentimen menggunakan data teks komentar dan ulasan. Sehingga pihak Imigrasi dapat mengambil langkah terbaik untuk dapat memperbaiki layanan yang masih belum maksimal. Dataset yang digunakan berupa data yang diambil dari media sosial Twitter dan Instagram serta ulasan pada Google Play Store. Hasil penelitian menunjukan jika fitur ekstraksi TF-IDF Unigram yang dipadukan dengan algoritma Support Vector Machine (SVM) serta SMOTE menghasilkan performa paling tinggi dibandingkan dengan nave Bayes (NB) maupun Random Forest (RF). dalam melakukan klasifikasi, SVM menghasilkan dengan hasil Precision 72%, Recall 69%, Accurasy 69, serta F1-Score sebesar 68%. Model tersebut dapat digunakan Imigrasi untuk mengetahui umpan balik pelayanan dari masyarakat yang dapat digunakan sebagai pertimbangan dalam melakukan perbaikan pelayanan serta merumuskan strategi pelayanan oleh Direktorat terkait agar pelayanan lebih efisien untuk kedepannya. Sehingga, Imigrasi akan mampu dengan cepat merespon kendala yang dihadapai oleh masyarakat.

The development of social media has grown rapidly, not only as a means of social communication between individuals. Its functions and uses are growing and are widely used by private and government organizations to measure service levels. The Directorate General of Immigration as a government organization is one of the organizations that utilizes social media. Its function is to find out whether the services provided have been well received or not by the public. Apart from social media, Immigration has also launched the M-Passport application on the Google Play Store platform, on the platform, Immigration officials can also find out the effectiveness of the applications that have been launched. Based on a survey conducted by Balitbangham which is internal to the Ministry of Human Rights, the services provided by immigration get a very good score, but the fact is that on social media and the Google Play Store some many comments and reviews are not satisfied with the services of the immigration authorities. This is a contradiction between the results of the Balitbangham survey and data on social media. However, it will be difficult to analyze social media data due to the large number. Therefore, it is necessary to propose a system to perform sentiment analysis using commentary and reviewing text data. So that Immigration can take the best steps to be able to improve services that are still not optimal. The dataset used is in the form of data taken from social media Twitter and Instagram as well as reviews on the Google Play Store. The results show that the TF-IDF Unigram extract feature combined with the Support Vector Machine (SVM) and SMOTE algorithms produces the highest performance compared to Naïve Bayes (NB) and Random Forest (RF). In classifying, SVM produces 72% Precision, 69% Recall, 69% Accuracy, and 68% F1-Score. This model can be used by Immigration to find out service feedback from the community as a consideration in making service improvements and formulating more efficient service strategies for the future. Thus, Immigration will be able to quickly respond to the obstacles faced by the community."
Jakarta: Fakultas Ilmu Kompter Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Dilla Fadlillah Salma
"Kepemilikan dan penggunaan kendaraan mobil memiliki berbagai risiko negatif, seperti terjadinya kecelakaan. Untuk mengurangi beban risiko tersebut, perusahaan menjual produk asuransi mobil. Asuransi mobil merupakan salah satu produk perusahaan asuransi kendaraan yang bertujuan sebagai upaya perlindungan pemilik kendaraan mobil dari kerugian finansial yang terjadi pada kendaraan yang diasuransikannya. Untuk menawarkan produk asuransi, beberapa perusahaan menggunakan teknik penjualan dengan cara cold calling. Teknik penjualan tersebut akan lebih efektif menjual produk asuransi jika terlebih dahulu data nasabah calon pembeli asuransi diprediksi atau diklasifikasi ke dalam kelas membeli atau tidak membeli.
Pada skripsi ini, dilakukan klasfikasi dengan metode Support Vector Machine (SVM), Random Forest (RF),dan Logistic Regression (LR) dengan implementasi metode seleksi fitur One Dimensional Naïve Bayes Classifier (1-DBC). Data yang diperoleh berjumlah 4000 data dengan total 18 fitur. Diperoleh hasil bahwa akurasi SVM lebih tinggi dibandingkan dengan kedua metode lainnya. Selain itu, mplementasi metode seleksi fitur telah berhasil meningkatkan akurasi dari metode Random Forest, dan Logistic Regression. Dengan implementasi 1-DBC, ketiga metode klasifikasi memperoleh hasil akurasi tertinggi pada penggunaan 15 fitur.

Ownership and use of car vehicles have a variety of negative risks, such as accidents. To reduce the risk burden, the company sells car insurance products. Car insurance is one of the products of a vehicle insurance company that aims to protect vehicle owners from financial losses that occur on their insured vehicles. To offer insurance products, some companies use sales techniques using cold calling. The sales technique will be more effective in selling insurance products if first the prospective customer buyer data is predicted or classified into the class of buying or not buying.
In this paper, classification is done using the method of Support Vector Machine (SVM), Random Forest (RF), and Logistic Regression (LR) by implementing the One Dimensional NaA-ve Bayes Classifier (1-DBC) feature selection method. The data obtained amounted to 4000 data with a total of 18 features. The results were obtained that the accuracy of SVM was higher compared to the other two methods. In addition, the implementation of the feature selection method has succeeded in increasing the accuracy of the Random Forest, and Logistic Regression. With the implementation of 1-DBC, the three classification methods obtained the highest accuracy results with the use of 15 features.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rinawati
"Pesatnya perkembangan jumlah halaman web memotivasi banyak pihak untuk membangun suatu search engine dengan kinerja yang optimal. Proses ranking merupakan bagian penting dalam alur kerja suatu search engine. Salah satu metode alternatif machines learning yang cukup mendapatkan perhatian para peneliti adalah metode ranking SVM. Metode pembelajaran pada ranking SVM berupa model linear yang bertujuan mendapatkan fungsi ranking berdasarkan ide dasar SVM (Support Vector Machines). Studi eksperimental ini bertujuan mengukur kinerja metode ranking SVM pada data LETOR. Data LETOR merupakan data yang diorganisir oleh Microsoft yang ditujukan untuk pembelajaran ranking (leraning to rank). Hasil eksperimen menunjukkan bahwa akurasi MAP (Mean Average Precision) metode ranking SVM pada data LETOR adalah sebesar 47.38%. Hal ini menunjukkan bahwa persoalan ranking merupakan persoalan yang masih bersifat tantangan sehingga diperlukan penelitian lanjutan yang akan memberikan akurasi yang lebih tinggi.

Fast growth of web pages motivates many people to build an optimal search engine. Ranking process is an important part in the workflow of a search engine. One alternative method of machines learning which attracting more researchers? attention is a ranking SVM method. Ranking SVM has a learning system in a linear model form. Its aims to get a ranking function based on the basic idea of SVM (Support Vector Machines). This experimental study aims to measure the performance of SVM ranking methods in LETOR. LETOR benchmark dataset is organized by Microsoft. It have been released to facilitate the research on learning to rank.. The experimental results show that MAP (Mean Average Precision) accuracy of ranking SVM method on LETOR is 47.38%. This shows that the ranking is a challenging issue and required further research to provide higher accuracy."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2012
T31855
UI - Tesis Open  Universitas Indonesia Library
cover
Woro Sudaryanti
"Penelitian ini melakukan studi mengenai sistem identifikasi pembicara berbahasa Indonesia menggunakan SVM. Parameter sistem terdiri atas silence removal, PCA, nilai rata-rata dan varians MFCC. Ujicoba menggunakan data berita berbahasa Indonesia dari televisi dan radio yang disegmen dalam 5, 10, 15 detik dengan jumlah data 26 jam (715 pembicara).
Hasil penelitian ini menunjukkan ketepatan pengenalan pembicara sebesar 94-98% untuk kombinasi parameter silence removal dan rata-rata MFCC dengan akurasi terbaik pada segmen waktu 10 detik. Namun dengan bertambahnya jumlah pembicara, ketepatan pengenalan cenderung berkurang. Penelitian ini dapat dikembangkan untuk sistem perolehan informasi data speech berdasarkan siapa yang berbicara dalam suatu sesi data.

This research studies speaker identification system for Indonesian speech based on SVM. Parameters of this system are silence removal, PCA, average and varians values of MFCC. The experiments use 26 hours (715 speakers) Indonesian broadcast news from radio and television segmented into 5, 10, 15 seconds.
The results achieve 94-98% identification accuracy for combination of parameters silence removal and average of MFCC. The best accuracy comes from 10 seconds time segment. However, the accuracy falls when the number of speakers increases. This study could be used for speech retrieval system based on who speaks in a speech session.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
T-Pdf
UI - Tesis Open  Universitas Indonesia Library
cover
Muhammad Nur Ichsan
"Saat ini, Indonesia menempati peringkat kedua sebagai produsen karet terbesar di dunia, menyumbang sekitar 29,8% dari kebutuhan global. Namun, produksi karet di Indonesia mengalami penurunan dari tahun ke tahun, salah satu faktornya adalah serangan penyakit gugur daun yang disebabkan oleh jamur Pestalotiopsis sp. Pada tahun 2021, luas perkebunan karet yang terkena penyakit mencapai 30.328,84 hektar dan tanaman yang terinfeksi oleh penyakit tersebut mengalami penurunan produksi lateks hingga 30%. Penyakit ini menyerang daun dengan gejala pembentukan bercak berukuran 0,5-2 cm yang menyebabkan nekrosis dan gugur. Penklasifikasian tingkat keparahan penyakit Pestalotiopsis sp. secara morfologi melalui pengamatan jumlah bintik dan warna pada daun karet membutuhkan waktu dan tenaga besar, terutama karena luasnya perkebunan yang terinfeksi. Oleh karena itu, penggunaan metode machine learning diusulkan untuk mengurangi waktu dan usaha yang dibutuhkan dalam menklasifikasi penyakit gugur daun akibat jamur Pestalotiopsis sp. Pada penelitian ini, model machine learning digunakan untuk mengklasifikasi 5 kelas tingkat keparahan penyakit Pestalotiopsis sp. yaitu tingkat 0 (sehat), tingkat 1 (terinfeksi ringan), tingkat 2 (terinfeksi sedang), tingkat 3 (terinfeksi parah), dan tingkat 4 (terinfeksi sangat parah). Dataset yang digunakan adalah citra daun tanaman karet yang diperoleh dari Pusat Penelitian Karet Sembawa. Model machine learning menerima input data citra daun tanaman karet, lalu citra disegmentasi menggunakan k-mean clustering. Data yang telah tersegmentasi kemudian diekstraksi dengan fitur warna hue, saturation, dan value (HSV) dan fitur jumlah bintik dengan metode contour detection menggunakan Suzuki’s contour algorithm. Selanjutnya, fitur-fitur ini diklasifikasikan menggunakan Support Vector Machine (SVM) tipe one vs rest multiclass classification dan Grid Search Cross Validation dengan 5 fold untuk menemukan hyperparameter terbaik untuk SVM. Hyperparameter terbaik adalah kernel radial basis function dengan C=100. Berdasarkan hasil percobaan sebanyak 5 kali, diperoleh kesimpulan bahwa model dengan akurasi tertinggi adalah model yang menggunakan fitur warna dan jumlah bintik dengan nilai rata-rata akurasi sebesar 81,86% dan nilai rata-rata Cohen’s kappa statistic sebesar 0,77 yang artinya model mampu mengklasifikasi data citra daun tanaman karet dengan cukup baik.

Currently, Indonesia ranks as the second largest rubber producer in the world, contributing about 29.8% of global demand. However, rubber production in Indonesia has decreased from year to year, one of the factors is the attack of leaf fall disease caused by the fungus Pestalotiopsi sp. In 2021, the area of rubber plantations affected by the disease reached 30,328.84 hectares with infected plants have a 30% decrease in latex production. The disease attacks the leaves with symptoms of spot formation measuring 0.5-2 cm which causes necrosis and fall. Detecting the severity of Pestalotiopsis sp. morphologically through the observation of the number of spots and colors on rubber leaves requires a lot of time and energy, especially due to the large area of infected plantations. Therefore, the use of machine learning methods is proposed to reduce the time and effort required in classifying leaf fall disease caused by the fungus Pestalotiopsis sp. In this study, a machine learning model is used to classify 5 classes of Pestalotiopsis sp. disease severity, namely level 0 (healthy), level 1 (mild infected), level 2 (moderate infected), level 3 (severe infected), and level 4 (very severe infected).  The dataset used is an image of rubber plant leaves obtained from the Sembawa Rubber Research Center. The machine learning model received input data of rubber plant leaf images, then the image is segmented using k-mean clustering. The segmented data will then be extracted with hue, saturation, and value (HSV) color features and the number of spots feature with the contour detection method using Suzuki’s contour algorithm.  In this study, the performance evaluation used is accuracy and Cohen's kappa statistic. Furthermore, these features are classified using Support Vector Machine (SVM) type one vs rest multiclass classification and Grid Search Cross Validation with 5 folds to find the best hyperparameter for SVM. The best hyperparameter is the radial basis function kernel with C=100. Based on the results of 5 experiments, it is concluded that the model with the highest accuracy is a model that uses color and the number of spots features with an average accuracy value of 81.86% and an average Cohen's kappa statistic value of 0.77, which means that the model is able to classify rubber plant leaf image data quite well."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rosyda Hanavania
"Curse of dimensionality atau kutukan dimensi merupakan permasalahan nyata terkait dengan dimensi tinggi pada data. Fenomena ini menyebabkan model bekerja secara tidak optimal, terjadinya overfitting, dan sulitnya proses komputasi data. Kasus data dengan dimensi tinggi ini banyak ditemukan pada data IoT (Internet of Things). Kompleksitas pada ekosistem IoT tersebut membuat sistem mengalami kesulitan dalam penangkapan properti serangan dan memaksa sistem untuk memperkuat keamanannya. Salah satu upaya yang paling banyak digunakan untuk pertahanan sistem IoT adalah dengan Intrusion Detection System (IDS). Penelitian ini menggunakan dataset Aegean WIFI Intrusion Dataset (AWID2) yang berisikan lalu lintas trafik internet pada jaringan WIFI. Data AWID2 berisi 2 juta records dan dikelompokkan ke dalam empat kelas yaitu normal, impersonation, injection, dan flooding. Untuk menyelesaikan permasalahan dimensi tinggi pada data ini, dilakukan teknik reduksi dimensi yaitu seleksi fitur jenis filter. Metode filter yang digunakan yaitu, Correlation based Feature Selection (CFS), Information Gain (IG), dan ANOVA F-test. Setiap metode seleksi fitur tersebut dilanjutkan dengan metode multiclass Support Vector Machines (SVM) one vs rest dan one vs one. Hasil dari penelitian ini menunjukkan bahwa metode fitur seleksi ANOVA F-test dengan metode klasifikasi SVM kernel polynomial dengan menggunakan 7 fitur terbaik merupakan metode paling baik untuk digunakan pada klasifikasi WIFI attacks data AWID2. Hal tersebut ditunjukkan melalui nilai accuracy=0,9766, F1score=0,8385, precision=0,9854, dan recall=0,7708.

Curse of dimensionality is a problem related to high dimensions of data. This phenomenon can cause the non-optimal performance model, overfitting, and the data will be computationally expensive. This high dimensional data is mostly found in IoT (Internet of Things) data. The complexity of the IoT ecosystem makes it difficult for the system to capture potential attacks and forces the system to strengthen its security. One of the most widely used efforts to defend IoT systems is the Intrusion Detection System (IDS). This research will use the Aegean WIFI Intrusion Dataset (AWID2) which contains internet traffic on WIFI networks. AWID2 dataset contains of 2 million records and are grouped into four classes, namely normal, impersonation, injection, and flooding. To overcome the problem of high dimensions, this study used dimensional reduction techniques, namely feature selection filter method. The filter methods used are Correlation based Feature Selection (CFS) Information Gain (IG), and ANOVA F-test. Each of these feature selection methods is then followed by building a classification model using multiclass Support Vector Machines (SVM) one vs one and one vs rest method. This study tells that combination of feature selection ANOVA F-test method and SVM with polynomial kernel is the best method to use on WIFI attacks classification. It is indicated by the score of performance metrics namely, accuracy=0,9766, F1score=0,8385, precision=0,9854, and recall=0,7708. "
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>