Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 9 dokumen yang sesuai dengan query
cover
Nicholas Ramos Richardo
"Pendeteksian topik adalah suatu proses untuk menentukan suatu topik dalam teks dengan menganalisis kata di dalam teks tersebut. Pendeteksian topik dapat dilakukan dengan membaca isi dari teks tersebut. Namun, cara ini semakin sulit apabila data yang dimiliki semakin besar. Memanfaatkan metode machine learning dapat menjadi alternatif dalam menangani data yang berjumlah besar. Metode clustering adalah metode pengelompokkan data yang mirip dari suatu kumpulan data. Beberapa contoh metode clustering adalah K-Means, Fuzzy C-Means (FCM), dan Eigenspaced-Based Fuzzy C-Means (EFCM). EFCM adalah metode clustering yang memanfaatkan metode reduksi dimensi Truncated Singular Value Decomposition (TSVD) dengan metode FCM (Murfi, 2018). Dalam pendeteksian topik, teks harus direpresentasikan kedalam bentuk vektor numerik karena model clustering tidak dapat memproses data yang berbetuk teks. Metode yang sebelumnya umum digunakan adalah Term-Frequency Inversed Document Frequency (TFIDF). Pada tahun 2018 diperkenalkan suatu metode baru yaitu metode Bidirectional Encoder Representations from Transformers (BERT). BERT merupakan pretrained language model yang dikembangkan oleh Google. Penelitian ini akan menggunakan model BERT dan metode clutering EFCM untuk masalah pendeteksian topik. Kinerja performa model dievaluasi dengan menggunakan metrik evaluasi coherence. Hasil simulasi menunjukkan penentuan topik dengan metode modifikasi TFIDF lebih unggul dibandingkan dengan metode centroid-based dengan dua dari tiga dataset yang digunakan metode modifikasi TFIDF memiliki nilai coherence yang lebih besar. Selain itu, BERT lebih unggul dibandingkan dengan metode TFIDF dengan nilai coherence BERT pada ketiga dataset lebih besar dibandingkan dengan nilai coherence TFIDF.

Topic detection is a process to determine a topic in the text by analyzing the words in the text. Topic detection can be done with reading the contents of the text.However, this method is more difficult when bigger data is implemented. Utilizing machine learning methods can be an alternative approach for handling a large amount of data. The clustering method is a method for grouping similar data from a data set. Some examples of clustering methods are K-Means, Fuzzy C-Means (FCM), and Eigenspaced-Based Fuzzy C-Means (EFCM). EFCM is a clustering method that utilizes the truncated dimension reduction method Singular Value Decomposition (TSVD) with the FCM method (Murfi, 2018). In topic detection, the text must be represented in numerical vector form because the clustering model cannot process data in the form of text. The previous method that was most commonly used is the Term-Frequency Inverse Document Frequency (TFIDF). In 2018 a new method was introduced, namely the Bidirectional Encoder method Representations from Transformers (BERT). BERT is a pretrained language model developed by Google. This study will use the BERT model and the EFCM clustering method for topic detection problems. The performance of the model is evaluated using the coherence evaluation metric. The simulation results show that modified TFIDF method for topic determination is superior to the centroid-based method with two of the three datasets used by modified TFIDF method having a greater coherence value. In addition, BERT is superior to the TFIDF method with the BERT coherence value in the three datasets greater than the TFIDF coherence value."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Warren, Hans
Amsterdam: Bert Bakker, 1990
BLD 839.36 WAR st
Buku Teks  Universitas Indonesia Library
cover
Achmad Rizki Aditama
"Pertumbuhan industri e-commerce di Indonesia telah meningkat secara signifikan dalam beberapa tahun terakhir. Nilai transaksi di sektor e-commerce di Indonesia diproyeksikan akan tumbuh sekitar 115%. Respons cepat terhadap keluhan pelanggan di platform digital menjadi krusial dalam mempertahankan kepercayaan dan loyalitas pelanggan di tengah persaingan yang ketat. Salah satu strategi yang digunakan oleh perusahaan adalah pendekatan multi-channel, di mana media sosial berperan penting. Namun, penggunaan media sosial sebagai saluran komplain menghadapi tantangan dalam membedakan keluhan yang sebenarnya dari noise yang tidak relevan. Saat ini, PT XYZ mengalami kesulitan dalam mengidentifikasi secara akurat interaksi mana yang memerlukan penanganan khusus dan mana yang tidak. Sistem yang ada saat ini mengharuskan tim khusus melakukan penyaringan secara manual. Metode ini menyebabkan tim tidak dapat mengimbangi saat terjadi peningkatan volume interaksi yang pesat. Akibatnya, waktu respon menjadi lebih lambat hingga 20%. Penelitian ini bertujuan untuk mengevaluasi performa model berbasis klasifikasi yang dapat dimanfaatkan serta menyusun rekomendasi dalam upaya meningkatkan skalabilitas untuk mengatasi tantangan tersebut. Desain penelitian ini menggunakan metode experimental research, di mana data yang diolah berasal dari interaksi pelanggan di media sosial dari rentang waktu tertentu. Dalam pengembangan model klasifikasi, digunakan beberapa metode meliputi Random Forest (RF), Support Vector Machine (SVM), Neural Network (NN), dan XGBoost menggunakan TF-IDF sebagai metode ekstraksi fitur, serta menggunakan BERT untuk ekstraksi fitur hingga klasifikasi. Pemodelan interaksi pelanggan dilakukan sebanyak lima kali dengan pengaturan k-fold cross-validation untuk menghindari bias. Hasil penelitian ini menunjukan bahwa dari persebaran data interaksi yang terdiri terdapat 6.220 keluhan dan 4.572 bukan keluhan. Akun sosial media perusahaan yang dikhususkan sebagai saluran komplain terbukti menjadi saluran yang efektif untuk menangani keluhan pelanggan, sementara akun yang bersifat umum lebih sering digunakan untuk interaksi yang lebih luas yang tidak terkait dengan keluhan. Tipe keluhan juga teridentifikasi bahwa keluhan yang berkaitan dengan logistik mendominasi, mencakup isu-isu seperti keterlambatan pengiriman, serta pelayanan dari kurir atau ekspedisi. Model klasifikasi terbaik yang berhasil dikembangkan menggunakan BERT dengan indobert-p1 mencapai F1-score sebesar 98,3%. Implementasi model ini berpotensi mengurangi beban pekerjaan hingga 97,58% dan menghasilkan ROI sebesar 23,52 kali. Dengan pengurangan beban pekerjaan ini, perusahaan dapat mengurangi jumlah headcount yang dibutuhkan untuk proses klasifikasi manual menjadi hanya 1 orang.

The e-commerce industry in Indonesia has experienced significant growth in recent years, with transaction values projected to increase by around 115%. Rapid responsiveness to customer complaints on digital platforms is crucial for maintaining trust and loyalty amidst intense competition. One strategy utilized by companies involves a multi-channel approach, where social media plays a pivotal role. However, using social media as a complaint channel faces challenges in accurately discerning genuine complaints from irrelevant noise. Currently, PT XYZ encounters difficulties in precisely identifying which interactions necessitate specialized handling, relying on manual screening by dedicated teams. This method proves inadequate during periods of increased interaction volumes, resulting in response times slowing by up to 20%. To address these challenges, this research aims to evaluate the performance of machine learning models and provide recommendations for enhancing scalability. The study employs an experimental research design, analyzing customer interactions on social media over a specified timeframe. Various classification methods, including Random Forest (RF), Support Vector Machine (SVM), Neural Network (NN), and XGBoost, utilize TF-IDF for feature extraction and BERT for feature extraction and classification. Customer interaction modeling is conducted five times with k-fold cross-validation to mitigate bias. The findings reveal that the dataset comprises 6,220 complaints and 4,572 non-complaints. Company-designated social media accounts prove effective for handling customer complaints, while general accounts are more commonly used for broader interactions unrelated to complaints. Issues related to logistics, such as delivery delays and courier services, dominate the identified types of complaints. The best-performing classification model, leveraging BERT with indobert-p1, achieves an impressive F1-score of 98.3%. Implementation of this model has the potential to reduce workload by 97.58% and yield an ROI of 23.52 times. By minimizing the need for manual classification, the company could potentially reduce required headcount to only 1 person.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Maulana Nurhendronoto
"Emosi adalah perasaan yang muncul dalam diri seseorang sebagai respon dari situasi tertentu. Perasan ini dapat memengaruhi pikiran, perilaku, dan persepsi seseorang terhadap suatu peristiwa. Klasifikasi emosi adalah bagian dari analisis sentimen yang bertujuan untuk menganalisis dan memperoleh emosi dari suatu data. Penelitian klasifikasi emosi berbasis teks perlu dilakukan karena dapat diimplementasikan pada berbagai bidang, seperti kesehatan dan pendidikan. Bahasa Indonesia menduduki peringkat 11 bahasa dengan penutur terbanyak di dunia dengan 200 juta penutur. Namun, penelitian klasifikasi emosi berbasis teks bahasa Indonesia masih sedikit dilakukan. Algoritma machine learning dapat digunakan untuk mengatasi berbagai tantangan dalam penelitian klasifikasi emosi seperti memahami emosi dan menganalisis emosi dari data yang tidak terstruktur. Penelitian ini berfokus pada pengembangan model machine learning dengan teknik convolutional neural network (CNN), long short-term memory (LSTM), dan bidirectional encoder representation from transformer (BERT). Berdasarkan pengujian yang dilakukan, metode convolutional neural network (CNN) mendapatkan F1 score sebesar 84,2%, metode long short term memory mendapatkan F1 score sebesar 82%, metode BERT en uncased mendapatkan F1 score sebesar 22%, dan metode BERT multi cased mendapatkan F1 score sebesar 32%. Hasil pengujian ini menandakan metode CNN merupakan metode dengan hasil pengujian terbaik dan BERT en uncased merupakan metode dengan hasil pengujian terburuk dibanding ketiga metode lainnya.

Emotions are feelings that arise within a person in response to a particular situation. These feelings can affect a person's thoughts, behavior, and perception of an event. Emotion classification is a part of sentiment analysis that aims to analyze and derive emotions from data. Text-based emotion classification research needs to be done because it can be implemented in various fields, such as health and education. Indonesian is ranked the 11th most spoken language in the world with 200 million speakers. However, there is still little research on Indonesian text-based emotion classification. Machine learning algorithms can be used to overcome various challenges in emotion classification research such as understanding emotions and analyzing emotions from unstructured data. This research focuses on developing machine learning models with convolutional neural network (CNN), long short-term memory (LSTM), and bidirectional encoder representation from transformer (BERT) techniques. Based on the tests conducted, the convolutional neural network (CNN) method gets an F1 score of 84,2%, the long short term memroy method gets an F1 score of 82%, the BERT en uncased method gets an F1 score of 22%, and the BERT multi cased method gets an F1 score of 32%. These results indicate that the CNN is the bets method while the BERT en uncased is the worst method compared to the three other methods."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dwi Guna Mandhasiya
"Ilmu Data adalah irisan dari matematika dan statistika, komputer, serta keahlian domain. Dalam beberapa tahun terakhir inovasi pada bidang ilmu data berkembang sangat pesat, seperti Artificial Intelligence (AI) yang telah banyak membantu kehidupan manusia. Deep Learning (DL) sebagai bagian dari AI merupakan pengembangan dari salah satu model machine learning yaitu neural network. Dengan banyaknya jumlah lapisan neural network, model deep learning mampu melakukan proses ekstrasi fitur dan klasifikasi dalam satu arsitektur. Model ini telah terbukti mengungguli teknik state-of-the-art machine learning di beberapa bidang seperti pengenalan pola, suara, citra, dan klasifikasi teks. Model deep learning telah melampaui pendekatan berbasis AI dalam berbagai tugas klasifikasi teks, termasuk analisis sentimen. Data teks dapat berasal dari berbagai sumber, seperti sumber dari media sosial. Analisis sentimen atau opinion mining merupakan salah satu studi komputasi yang menganalisis opini dan emosi yang diekspresikan pada teks. Pada penelitian ini analisis peforma machine learning dilakukan pada metode deep learning berbasis representasi data BERT dengan metode CNN dan LSTM serta metode hybrid deep learning CNN-LSTM dan LSTM-CNN. Implementasi model menggunakan data komentar youtube pada video politik dengan topik terkait Pilpres 2024, kemudian evaluasi peforma dilakukan menggunakan confusion metric berupa akurasi, presisi, dan recall.

Data Science is the intersection of mathematics and statistics, computing, and a domain of expertise. In recent years innovation in the field of data science has developed very rapidly, such as Artificial Intelligence (AI) which helped a lot in human life. Deep Learning (DL) as part of AI is the development of one of the machine learning models, namely neural network. With the large number of neural network layers, deep learning models are capable of performing feature extraction and classification processes in a single architecture. This model has proven to outperform state-of-the-art machine learning techniques in areas such as pattern recognition, speech, imagery, and text classification. Deep learning models have gone beyond AI-based approaches in a variety of text classification task, including sentiment analysis. Text data can come from various sources, such as source from social media. Sentiment analysis or opinion mining is a computational study that analyze opinions and emotions expressed in text. In this research, machine learning performance analysis is carried out on a deep learning method based on BERT data representation with the CNN and LSTM and hybrid deep learning CNN-LSTM and LSTM-CNN method. The implementation of the model uses YouTube commentary data on political videos related to the 2024 Indonesia presidential election, then performance analysis is carried out using confusion metrics in the form of accuracy, precision, and recall."
Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Zihan Nindia
"Pesatnya perkembangan teknologi informasi dan komunikasi telah membawa banyak perubahan dalam kehidupan manusia. Salah satu perkembangan yang paling signifikan adalah munculnya teknologi pesan singkat atau Short Message Service (SMS).  Media SMS sering disalahgunakan sebagai media penipuan terhadap pengguna telepon. Penipuan sering terjadi dengan cara mengirimkan SMS secara masif dan acak hingga mencapai sepuluh ribu per hari kepada semua pengguna dan menjadi SMS spam bagi banyak orang. Klasifikasi teks menggunakan Long-Short Term Memory (LSTM) dan BERT Embbeddings dilakukan untuk mengklasifikasi data SMS ke dalam dua kategori, yaitu spam dan non-spam. Data terdiri dari 5575 SMS yang telah diberi label. Dengan menggunakan metode LSTM + BERT, penelitian ini dapat mencapai nilai accuracy sebesar 97.85%. Metode ini menghasilkan hasil yang lebih baik dari ketiga model sebelumnya. Model LSTM + BERT menghasilkan nilai accuracy 0.65% lebih baik dari LSTM.

The rapid development of information and communication technology has brought many changes in human life. One of the most significant developments is the emergence of short message service (SMS) technology.  SMS media is often misused as a medium for fraud against telephone users. Fraud often occurs by sending massive and random SMS up to ten thousand per day to all users and becomes SMS spam for many people. Text classification using Long-Short Term Memory (LSTM) and BERT Embeddings is performed to classify SMS data into two categories, namely spam and ham. The data consists of 5575 SMS that have been labeled. By using the LSTM + BERT method, this research can achieve an accuracy value of 97.85%. This method produces better results than the three previous models. The LSTM + BERT model produces an accuracy value of 0.65% better than LSTM."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Agung Firmansyah
"Jurnal ini membahas tentang pengembangan Sistem Penilaian Esai Otomatis (SIMPLE-O) untuk Bahasa Indonesia menggunakan BERT (Bidirectional Encoder Representations from Transformers) dan Bidirectional LSTM. BERT digunakan untuk melakukan sentence embedding pada jawaban mahasiswa dan dosen, yang kemudian diproses oleh Bidirectional LSTM. Kemiripan antara jawaban diukur dengan menggunakan Manhattan Distance dan Cosine Similarity. Hasil pengujian menunjukkan bahwa rata-rata selisih absolut antara nilai model dengan nilai human rater adalah 22.83 dengan error MAE dan RMSE sebesar 0.2462 dan 0.2850 untuk Manhattan Distance, dan 12.88 dengan error MAE dan RMSE sebesar 0.1614 dan 0.1946 untuk Cosine Similarity.

This paper presents the development of an Automatic Essay Scoring System (SIMPLE-O) for the Indonesian using BERT (Bidirectional Encoder Representations from Transformers) and Bidirectional LSTM. BERT is used to perform sentence embedding on both student and lecturer answers, which are then processed by Bidirectional LSTM. The similarity between the answers is measured using Manhattan Distance and Cosine Similarity. The test results show that the average absolute difference between the model score and the human rater score is 22.83 with MAE and RMSE error of 0.2462 and 0.2850 for Manhattan Distance, and 12.88 with MAE and RMSE error of 0.1614 and 0.1946 for Cosine Similarity."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Paasman, B.
Amsterdam: Em. Querido's Uitgeverij B.V, 1991
BLD 839.33 PAA w
Buku Teks  Universitas Indonesia Library
cover
Mochammad Shaffa Prawiranegara
"Skripsi ini bertujuan untuk mengembangkan model klasifikasi teks berbasis Convolutional Neural Network (CNN) dan BERT Language Model untuk mendeteksi SQL Injection pada Apache Web Server. Skripsi ini melibatkan pengumpulan dan pemrosesan dataset, literasi teori dasar, perancangan sistem, implementasi sistem, dan evaluasi kinerja model deep learning. Dengan menggunakan dataset publik dari Kaggle, model yang dikembangkan berhasil mendeteksi SQL Injection dengan akurasi yang tinggi. Hasil eksperimen menunjukkan bahwa model BERT memberikan performa yang lebih baik dibandingkan dengan CNN dalam hal accuracy, precision, recall, dan F1-score. Implementasi teknik deep learning pada sistem SQL Injection Detection juga mempermudah log file analysis pada Apache Web Server. Kesimpulan dari skripsi ini adalah berhasilnya pengembangan sistem SQL Injection Detection berbasis Convolutional Neural Network (CNN) dan BERT Language Model dengan akurasi masing-masing sebesar 95.99% dan 99.84%.

This undergraduate thesis aims to develop a text classification model based on Convolutional Neural Network (CNN) and BERT Language Model to detect SQL Injection on the Apache Web Server. The research involves data collection and preprocessing, basic theory literature review, system design, system implementation, and evaluation of deep learning model performance. By using a public dataset from Kaggle, the developed model successfully detects SQL Injection with high accuracy. The experimental results show that the BERT model outperforms CNN in terms of accuracy, precision, recall, and F1-score. The implementation of deep learning techniques in the SQL Injection Detection system also simplifies log file analysis on the Apache Web Server. The conclusion of this undergraduate thesis is the successful development of an SQL Injection detection system based on Convolutional Neural Network (CNN) and BERT Language Model with accuracies of 95.99% and 99.84% respectively."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library