Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 13 dokumen yang sesuai dengan query
cover
Muhammad Yudistira Hanifmuti
"Morphological analyzer merupakan sebuah alat yang digunakan untuk melihat bagaimana proses pembentukan kata, menentukan kata dasar pembentuk, dan menge- tahui informasi linguistik yang terkandung pada suatu kata. Universal Dependencies (UD) merupakan sebuah framework acuan yang digunakan pada proses anotasi morfologi untuk berbagai bahasa. Sayangnya, belum ditemukan morphological analyzer untuk bahasa Indonesia yang menerapkan pedoman UD ini. Penelitian ini mengembangkan morphological analyzer untuk bahasa Indonesia yang diberi nama Aksara. Aksara dibangun menggunakan finite state compiler bernama Foma yang digunakan pada Mor- phind, morphological analyzer pada penelitian sebelumnya. Foma dapat memodelkan aturan-aturan pembentukan kata dalam bentuk finite state transducer. Pada Aksara juga dikembangkan tokenizer yang hasilnya menyesuaikan dengan hasil tokenisasi pada treebank UD. Implementasi Aksara menerapkan pedoman UD versi terbaru yaitu UDv2. Pengujian Aksara dilakukan dengan membandingkan performa Aksara dengan Morhpind. Hasil pengujian menunjukkan bahwa komponen tokenizer Aksara berhasil memiliki akurasi tokenisasi sebesar 96.60%, meningkat 23.89% dari akurasi tokenisasi oleh Mor- phind. Evaluasi POS tagging Aksara juga berhasil melewati hasil pemetaan Morphind dengan akurasi F1-score sebesar 87%, dengan kenaikan relatif sebesar 18% dari baseline.

Morphological analyzer is a tool used to do an analysis on word formation process, to identify the lemma for each word, and to do an analysis on the linguistic information. Universal Dependencies (UD) is a framework commonly used in morphological annota- tion process. Unfortunately, there is not a single Indonesian morphological analyzer that applies UDv2. This research is a development of morphological analyzer for Indonesian language named Aksara. Aksara was build using finite state compiler named Foma, which was used in Morphind, the previous research on Indonesian morphological analyzer. Foma can model the rules of word formation which is represented in the form of finite state transducer. This research also develops a tokenizer which its results are adjusted to the tokenization example on UD treebank. The Aksara implementation applies the latest UD guidelines, UDv2. Testing of Aksara is done by comparing the performance of Aksara with Morphind. The test results show that the tokenizer component of Aksara managed to have a tokenization accuracy of 96.60%, an increase of 23.89% from the accuracy of tokenization by Morphind. Evaluation of POS tagging with Aksara also managed to pass Morphind with an accuracy of F1-score of 87%, with a relative increase of 18% from the accuracy of Morphind."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Darian Texanditama
"Pemelajaran mesin dikenal sangat berguna dalam menyelesaikan permasalahan prediksi dan klasifikasi melalui pembelajaran pola dan perilaku data yang tersedia. Oleh karena itu, pemelajaran mesin dapat dimanfaatkan di berbagai bidang kehidupan dan industri modern. Namun, kinerja pemelajaran mesin sangat tergantung dari model pemelajaran mesin yang digunakan maupun dari kualitas data yang digunakan untuk pemelajaran. Data yang tidak bersih, tidak representatif, dan ketersediaannya terbatas akan mengurangi kualitas hasil prediksinya.
Penelitian ini bertujuan untuk menguji kombinasi beberapa metode pemrosesan data (yaitu MissForest, GAIN, ENN, dan TabGAN oversampling) dengan model pembelajaran mesin (yaitu model CatBoost dan model klasifikasi biner berbasis neural network) untuk memprediksi kasus mahasiswa putus studi di beberapa universitas di Indonesia menggunakan data dari PDDikti. Penambahan fitur dilakukan untuk memberi label bidang studi terhadap dataset tersebut. Selain penambahan fitur seleksi fitur relevan menggunakan korelasi Pearson serta feature importances juga dilakukan setelah pelatihan model awal. Google Colab dengan bahasa pemrograman Python digunakan untuk menjalankan algoritma pemrosesan data dan pelatihan model.
Hasil penelitian menunjukkan bahwa model CatBoost dengan kombinasi metode imputasi GAIN, undersampling ENN, dan tanpa fitur kelompok bidang studi memberikan F1-score tertinggi yaitu 66,38% dengan nilai precision 71,75% dan nilai recall 61,76%. Apabila digunakan model klasifikasi biner pemelajaran dalam akan didapatkan metrik terbaik F1-score 62,32%. Hasil terbaik penelitian ini menunjukkan peningkatan F1-score sebesar 2,15% dibandingkan dengan F1-score pada penelitian sebelumnya yang menggunakan model CatBoost bersama kombinasi Missforest dan ENN tanpa fitur kelompok
bidang studi. Penelitian ini menunjukkan bahwa oversampling dan undersampling memberikan dampak yang berlawanan terhadap metrik precision dan recall. Penelitian juga menemukan seleksi fitur dapat meningkatkan kinerja model namun tidak berdampak besar dibandingkan teknik-teknik lain misalnya balancing dan optimisasi hyperparameter.

Machine learning is known to be very useful in solving prediction and classification problems
by learning the patterns and behavior of available data. Therefore, machine learning can be utilized in various areas of modern life and industry. However, the performance of machine learning is highly dependent on the machine learning model used as well as on the quality of the data used for learning. Data that is not clean, not representative, and scarce will reduce the quality of the prediction results.
This study aims to test the combination of several data processing methods (namely MissForest, GAIN, ENN, and TabGAN oversampling) with machine learning models (CatBoost and binary classification models based on neural networks) to predict dropout cases at several Indonesian universities using data from PDDikti. The addition of features is done to label data with their respective fields of study. Other than adding features, selection of relevant features using Pearson’s correlation as well as feature importances is also carried out after initial model training. Google Colab with the Python programming language is used to run data processing algorithms and train models.
This study shows that CatBoost with the combination of GAIN imputation, ENN undersampling, and no field of study feature results in the highest F1-score of 66.38%, which are composed of 71.75% in precision and 61.76% in recall. If a deep learning binary classification model is used instead, the best F1-score result is 62.32%. The best result from this study shows an increase in F1-score of 2.15% compared to the F1-score of the previous study (64.23%) which used CatBoost along with a combination of Missforest, ENN and no field of study features. This research shows oversampling and undersampling produce opposite effects on precision and recall scores. Research has also
found that feature selection can improve model performance but does not have a large impact compared to other techniques such as balancing and hyperparameter optimization
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Faraya Agatha Putri
"

Karya sastra merupakan hal yang perlu dilestarikan, karena melestarikan karya sastra juga berarti melestarikan bahasa. Upaya pelestarian dapat dilakukan dengan berbagai cara, salah satunya dengan memanfaatkan teknologi. Implementasi upaya yang dapat dilakukan dengan memanfaatkan teknologi adalah dengan melakukan ekstraksi entitas karya sastra secara otomatis. Dari data ekstraksi tersebut dapat dibangun knowledge base agar informasi menjadi lebih terstruktur dan dapat diatur dengan mudah. Penelitian ini menggunakan sumber data dari 435 halaman sastrawan Indonesia pada Wikipedia berbahasa Indonesia. Terdapat dua proses ekstraksi pada penelitian ini, yaitu ekstraksi daftar dan ekstraksi tabel. Pada akhir penelitian ini, diperoleh 4953 entitas karya sastra yang terpetakan ke dalam 14 kategori karya sastra. Kualitas hasil ekstraksi pada penelitian ini diukur dengan nilai precision dan recall. Nilai precision dan recall didapatkan dari hasil perbandingan data hasil ekstraksi dengan data golden result yang merupakan data yang disusun secara manual dari halaman-halaman sastrawan Indonesia. Nilai precision dan recall pada penelitian ini adalah 0.608 untuk precision dan 0.571 untuk recall.


Literature work needs to be preserved because it also means preserving a language. There are many preserving methods, one of them is using technology. The implementation of using technology as a preserving method is by automatically extracting the literature work entities. From that data extraction, a knowledge base can be built to make the information more structured and easy to manage. This research used 435 Wikipedia pages about Indonesian litterateur as a source of data extraction. Two extraction processes have been implemented, which are list extraction and table extraction. At the end of this research, 4953 literature work entities that mapped into 14 literature work categories were obtained. The quality of the data extraction results in this research was measured by precision and recall value. The precision and recall value was obtained from comparing the data extraction result with the golden result which is data that was organized manually from Wikipedia pages about Indonesian litterateur. The precision and recall value of this research are 0.608 for precision value and 0.571 for recall value.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rocky Arkan Adnan Ahmad
"Model natural language processing (NLP) ditantang tidak hanya memiliki kemampuan “mengingat” secara statistik, tapi juga dapat melakukan semantic reasoning mendekati kemampuan manusia dalam memahami bahasa. Tugas ini disebut juga sebagai tugas yang menguji penalaran (commonsense reasoning) untuk suatu model. Tugas commonsense reasoning pada bahasa Indonesia sudah ada, tetapi performa mesin pada tugas tersebut masih terbilang rendah. Penelitian ini mencoba meningkatkan performa mesin dalam tugas commonsense reasoning bahasa Indonesia. Digunakan tiga buah metode, yaitu intermediate-task transfer learning, cross-lingual transfer learning, dan task recasting. Ditemukan kalau intermediate-task transfer learning efektif dilakukan untuk data commonsense reasoning bahasa Indonesia, dengan peningkatan performa di berbagai tugas. Metode cross-lingual transfer learning juga ditemukan sangat efektif dilakukan. Didapatkan performa yang melebihi baseline pada tugas IndoGrad hanya dengan melatih model dalam data bahasa Inggris dan melakukan klasifikasi secara zero-shot pada data bahasa Indonesia. Lalu didapatkan juga performa state-of-the-art (SOTA) baru dalam IndoGrad yaitu 0.803, naik 0.116 dari performa tertinggi penelitian sebelumnya. Performa tersebut dicapai menggunakan model yang dilakukan fine-tuning pada data bahasa Indonesia setelah dilatih dengan data bahasa Inggris. Pada metode task recasting, performa model masih rendah dan didapatkan performa chance pada data uji. Dilakukan juga penjelasan terhadap model dalam menjawab tugas commonsense reasoning bahasa Indonesia. Penjelasan dilakukan dengan visualisasi attention dan probing task. Ditemukan model mendapatkan kenaikan performa dalam probing task ketika performa pada tugas commonsense reasoning juga naik. Ditemukan juga model dapat menjawab dengan benar dengan memberikan attention yang lebih besar ke pada jawaban yang benar dan mengurangi attention pada jawaban yang salah.

A natural language processing (NLP) model is challenged to not only ’remember’ statistically, but can also perform semantic reasoning close to human ability on language understanding. This task is also known as a commonsense reasoning task. Commonsense reasoning tasks in Indonesian already exist, but the machine performance is still relatively low. This research aims to improve the machine performance on commonsense reasoning tasks in Indonesian. Three methods are used: intermediate-task transfer learning, cross-lingual transfer learning, and task recasting. It was found that intermediate-task transfer learning was effective for commonsense reasoning tasks in Indonesian, with improved performance on various tasks. Cross-lingual transfer learning was also found to be very effective. A model that only trained on English data and performs zero-shot classification was found to have performance that exceeds baseline on the IndoGrad task. A new state-of-the-art (SOTA) performance was also achieved on the IndoGrad task, which is 0.803, up 0.116 from the highest performance in the previous study. This result is achieved using a model that was fine-tuned on Indonesian data after being trained on English data. On the task recasting method, the model performance is still low and chance performance is achieved on the test set. Model explanation on answering a commonsense reasoning task in Indonesian is also conducted. Probing task and attention visualization are used for model explanation. It was found that the model that got increased performance on probing task also got increased performance on commonsense reasoning task. It was also found that the model can answer correctly by giving more attention to the correct answer and reducing attention to the incorrect answer."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Andrew Theodore Tjondrowidjojo
"Kabut merupakan fenomena atmosfer di mana asap, debu dan partikel kering lainnya berada di atmosfer. Kabut ini tentunya dapat memunculkan efek blur dan buram pada citra sehingga dapat mengurangi informasi yang terkandung di dalamnya. Hal ini dapat menyebabkan penurunan performa dari permasalahan pembelajaran mesin, seperti identifikasi dan klasifikasi. Image dehazing merupakan suatu proses yang bertujuan untuk memulihkan gambar yang jelas dari gambar yang rusak oleh kabut atau asap. Terdapat berbagai metode image dehazing yang telah dikembangkan, baik yang berbasiskan pixel intensity dan deep learning. Salah satu metode deep learning yang telah dikembangkan sebelumnya untuk image dehazing adalah Mod PDR-Net. Pada penelitian ini, penulis mengajukan suatu deep network untuk image dehazing baru dengan menggunakan Mod PDR-Net di dalam suatu Conditional Generative Adversarial Network. Data yang digunakan dalam penelitian ini adalah dataset standar citra berkabut luar ruangan. Untuk mengetahui kualitas dari hasil image dehazing yang didapat, penulis membandingkan hasil metode usulan dengan Mod PDR-Net original dan didapatkan bahwa metode usulan memiliki hasil yang lebih baik dibandingkan dengan Mod PDR-Net berdasarkan metrik yang digunakan, yaitu SSIM, RMSE, Delta E, dan BRISQUE dengan nilai berturut-turut sebesar 0.785, 0.109, 9.750. dan 28.375.

Haze is an atmospheric phenomenon where smoke, dust, and other dry particles are present in the atmosphere. Haze can create blurring effects in captured images, resulting in reduced information contained in the image. This can lead to performance degradation from machine learning problems, such as identification and classification. Image dehazing is a process that aims to recover a clear image from a hazy image. Various image dehazing methods have been developed, both based on the pixel intensity and deep learning. One of the deep learning methods that has been previously developed for image dehazing is Mod PDR-Net. In this study, the author proposes a deep network for image dehazing by using Mod PDR-Net in a Conditional Generative Adversarial Network. The data used in this study consists of a standard dataset of outdoor hazy images. In order to determine the quality of the obtained image dehazing results, the author compared the result of the proposed method with the original Mod PDR-Net and found that the proposed method has better results than the Mod PDR-Net based on the metric used, namely SSIM, RMSE, !E, and BRISQUE with values respectively 0.785, 0.109, 9.750. and 28.375."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nur Hafsari Setyorini
"Kecerdasan Artifisial atau Artificial Intelligence (AI) merupakan teknologi yang memungkinkan mesin untuk menerima, mengolah, dan membuat keputusan berdasarkan data yang diterima. Kehadiran AI yang semakin menjamur di kehidupan masyarakat membuat pemerintah di berbagai negara berinisiatif untuk mengimplementasikan AI secara publik dengan mengeluarkan strategi AI nasional. Indonesia yang sudah mengeluarkan strategi AI nasional namun belum mengadopsi AI secara menyeluruh memiliki kesempatan untuk belajar dari negara lain agar adopsi AI di Indonesia berlangsung dengan efektif dan efisien.
Penelitian ini berfokus untuk menemukan pelajaran atau hikmah yang dapat digunakan oleh Indonesia dalam mengadopsi AI di ranah publik. Hal ini dicapai dengan meninjau aspek sosioteknis dalam implementasi AI dengan membandingkan kerangka kultur Hofstede, indeks kesiapan AI pemerintah 2022, dan survei menyangkut sikap publik dan perusahaan terhadap AI dari negara-negara pembanding. Aspek strategi juga diteliti dengan melihat strategi AI nasional di negara-negara pembanding dalam kerangka yang sama. Adapun negara-negara yang dilibatkan dalam penelitian ini adalah Singapura, Malaysia, Jepang, Korea Selatan, Australia, dan Indonesia.
Hal pertama yang dilakukan dalam penelitian ini adalah mengidentifikasi aspek-aspek yang diperlukan untuk memahami strategi AI nasional. Setelah itu, dilakukan literature review dengan metode 3C+2S (compare, contrast, criticize, synthesize, summary) terhadap semua data untuk menentukan apakah kondisi sosial dan teknologi dipertimbangkan dalam strategi AI nasional dan menemukan kesamaan serta perbedaan dari seluruh aspek. Semua jawaban dari penelitian ini kemudian ditarik kesimpulan untuk menemukan poin-poin penting yang perlu diperhatikan dalam implementasi AI di Indonesia.
Hasil dari penelitian adalah kerangka kerja untuk memahami strategi AI nasional yang secara umum terdiri dari kondisi saat ini, strategi yang digunakan, dan komunikasi strategi kepada pihak lain. Dengan meneliti strategi AI nasional di keenam negara menggunakan kerangka kerja yang telah dibuat, ditemukan bahwa aspek sosial masih jarang dipertimbangkan dalam strategi AI nasional dibandingkan dengan aspek teknologi.
Penelitian ini juga menunjukkan walaupun Indonesia memiliki beberapa kemiripan secara budaya dengan negara lain, Indonesia mengalami ketertinggalan jauh dalam kesiapannya untuk mengadopsi AI khususnya dari sektor teknologi. Kesamaan lain terlihat pada bidang yang diprioritaskan dalam strategi dan kesediaan setiap negara untuk membentuk ekosistem yang dapat mendukung perkembangan AI di negaranya masing-masing.
Temuan dari penelitian ini mencakup beberapa poin, yaitu: penyatuan langkah strategis, berfokus untuk menyelesaikan permasalahan mendasar, dan penekanan pada pengembangan manusia.

Artificial Intelligence (AI) is technology that enables machine to accept, process, and make decisions based on data given. As AI becomes ubiquitous in the society, governments in multiple countries plan to implement AI in public sector through National AI Strategy. Indonesia as a country that hasn't fully adopt AI still has the chance to learn from other countries so that AI implementation in Indonesia's public sector could be done in an effective and efficient manner.
This study focuses on finding lesson learned that could be used by Indonesia in adopting AI in public. This study was done through reviewing sociotechnical aspect in AI implementation by comparing Hofstede's cultural framework, Government AI Readiness Index 2022, and surveys related to public and companies' attitude towards AI from compared countries. Strategy aspect is also studied by looking at national AI strategies in compared countries through the same lens. Countries that are involved in this study are Singapore, Malaysia, Japan, South Korea, Australia, and Indonesia.
The first step from this study is to identify aspects needed to understand national AI strategy. Afterwards, literature review with 3C+2S method (compare, contrast, criticize, synthesize, summary) is conducted to all data to determine whether social and technological condition is considered in national AI strategy and found similarities and differences from all aspects. All answers from the study then summarized to identify important points for AI implementation in Indonesia.
The result from this study is a newly created framework to understand national AI strategies that generally consists current condition, strategy used, and strategy communication to other parties. By using the framework to compare national AI strategies in six countries, it is found that social aspect is still rarely considered in national AI strategy comparing to the technology aspect.
This study also shows that despite the similarities in culture between Indonesia and other countries, Indonesia is lagging far behind in its readiness to adopt AI especially technology-wise. Other similarities are seen at national priorities in the strategy and each countries' willingness to build an ecosystem that supports AI development in their respective countries.
Findings from this study covers points as follows: strategic steps unity, focus to solve the root problems, and emphasis on human development.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Naufal Hilmi Irfandi
"Perusahaan XYZ menerapkan Customer Life Cycle atau CLC yang sudah disesuaikan dengan kebutuhan perusahaan demi menjaga loyalitas pengguna. Tak hanya menjaga loyalitas, Perusahaan XYZ menerapkan CLC guna memperluas bisnis yang dijalani olehnya. Dengan bantuan teknologi, CLC dapat dengan mudah untuk dianalisis lebih mendalam. Teknologi yang digunakan berupa pembelajaran mesin. Pembelajaran mesin ini diimplementasikan untuk mendapatkan insight dari data yang dimiliki Perusahaan XYZ. Dalam mendapatkan insight tersebut, digunakan beberapa metode seperti Support Vector Machine, Logistic Regression, Gradient Boosting, Random Forest, Decision Tree, dan FPGrowth. Insight yang didapatkan selanjutnya ditampilkan dalam bentuk visualisasi data yang diaplikasikan ke dalam website. Terdapat tiga permasalahan berbeda yaitu prediksi pembeli potensial, prediksi produk yang akan dibeli, dan prediksi waktu pembelian berikutnya. Permasalahan pertama dapat diselesaikan dengan model Logistic Regression dengan f1-score sebesar 76.35%. Permasalahan kedua diselesaikan dengan model FP-Growth dengan nilai minimum support dan confidence sebesar 0.001. Untuk permasalahan ketiga dapat diselesaikan dengan model Decision Tree dengan nilai akurasi 78.76% dan f1-score sebesar 77.01%. Dilakukan pula pengujian terhadap response time serta SQL query yang digunakan pada setiap endpoint yang bekerja sebagai aktor untuk melakukan distribusi data kepada aplikasi frontend dan aktor untuk melakukan update database. Terakhir, dilakukan pula pengujian terhadap visualisasi data. Pengujian terhadap visualisasi data dilakukan secara kualitatif. Pengujian ini dilakukan dengan menerapkan beberapa tipe visualisasi data untuk tiap business question yang ada. Setelah itu, dilakukan perbandingan pada tiap tipe visualisasi data sehingga mendapatkan visualisasi data yang tepat untuk tiap business question yang ada.

XYZ Company implements customized Customer Life Cycle or CLC that fits with company’s needs in order to maintain user loyalty. Not only maintaining user loyalty, XYZ Company implements CLC in order to expand its business. With the help of technology, CLC can be easily analyzed with more depth. Technology that is being used within this research is machine learning. Machine learning is implemented to gain insights from data owned by Company XYZ. While obtaining insights, machine learning use several various methods such as Support Vector Machine, Logistic Regression, Gradient Boosting, Random Forests, and Decision Trees. The insights obtained from machine learning are displayed in the form of data visualization that is applied to website. Examination on the machine learning model was formed with different data balancing techniques. Examination using Undersampling balancing technique along with Decision Tree model gives the highest f1-score value at 88.70%. Examination were also conducted on the response time and SQL queries were also carried out for each endpoint that works as an actor to distribute data to frontend applications and actors to update the database. Finally, examination and comparison is conducted on data visualization using qualitative approach. Moreover, this examination is conducted by applying several types of data visualization for each existing business questions. At the end, comparisons were made for each type of data visualization to get the optimum visualization regarding each business question."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Reynard Adha Ryanda
"Mahasiswa drop out memiliki dampak negatif untuk mahasiswa serta perguruan tinggi. Mahasiswa dikatakan drop out apabila mahasiswa tersebut belum dapat menyelesaikan masa studinya dalam rentang waktu yang telah ditentukan. Data mengenai status penyelesaian serta data akademis mahasiswa terekap pada Pangkalan Data Pendidikan Tinggi (PDDikti). Berdasarkan data tersebut, mahasiswa drop out pada tahun 2019 mencapai 602.208 mahasiswa atau 7% dari total mahasiswa. Penelitian menggunakan data PDDikti untuk memprediksi drop out telah dilakukan untuk mahasiswa yang telah mencapai tujuh tahun masa studi. Namun, belum terdapat sistem berbasis web yang dapat memprediksi mahasiswa drop out menggunakan data semester yang lebih sedikit dan visualisasi yang menggambarkan mahasiswa drop out berdasarkan data yang diperoleh dari PDDikti melalui API tertentu. Penelitian ini membandingkan empat model pembelajaran mesin untuk memprediksi drop out dimana model CatBoost dengan teknik undersampling edited nearest neighbors merupakan classifier terbaik untuk memprediksi drop out dengan f1-score sebesar 64.23%. Selain itu, penelitian ini berhasil mengimplementasi sistem berbasis web yang dapat digunakan untuk melakukan visualisasi data berdasarkan API yang digunakan untuk memperoleh data dari PDDikti dan juga prediksi mahasiswa yang berpotensi drop out berdasarkan data dari PDDikti. Visualisasi mahasiswa drop out berhasil divisualisasi dengan menggunakan diagram sankey, diagram geo, dan diagram bar. Perolehan data dapat dilakukan menggunakan query data dengan API yang dibuat menggunakan Express.js dan Flask.

Dropped out student giving negative impact to the student itself and also university. A student is said to have dropped out if they can’t complete their studies within the specified timeframe. Data regarding completion status as well as student academic data are recorded in Higher Education Database (PDDikti). Based on these data, the drop out students in 2019 reached 602,208 students or 7% of the total student. Research using PDDikti data to predict drop out has been conducted for students who have reached seven years of study. However, there is no web-based system that could predict drop out student using data with fewer semesters and visualizations portraying dropout students based on PDDikti data through particular API. This study compares four machine learning models to predict drop outs where CatBoost model with undersampling edited nearest neighbors technique is the best classifier to predict drop outs with an f1-score of 64.23%. Other than that, this study succeeded to implement web-based system that could visualize PDDikti data through API and to predict potential students dropping out based on PDDikti data. The visualization of drop out students was successfully visualized using Sankey diagrams, geo diagrams, and bar charts. Data retrieval can be done using data queries with APIs created using Express.js and Flask"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Bahy Helmi Hartoyo Putra
"PT Nusa Satu Inti Artha atau lebih dikenal dengan DOKU merupakan salah satu perusahaan fintech yang bergerak di sektor pembayaran. DOKU telah digunakan oleh lebih dari 100.000 merchant online dalam kedua layanannya, yaitu payment gateway dan transfer service. Semakin banyaknya merchant yang melakukan registrasi, menuntut DOKU untuk lebih efisien dalam menjalankan salah satu tahapan pada proses registrasi tersebut, yaitu verifikasi situs merchant. Penilitian ini memiliki tujuan untuk mengem- bangkan sebuah aplikasi web crawler yang dapat digunakan untuk melakukan ekstraksi kelengkapan data situs merchant dan melakukan prediksi tingkatan fraud situs tersebut secara otomatis. Web crawler dibuat menggunakan micro web framework bernama Flask dan berisi modul-modul yang dapat melakukan ekstraksi fitur-fitur untuk kemudian dilakukan scoring menggunakan model machine learning yang diimplementasi di dalamnya. Pemilihan model dilakukan dengan cara melakukan nested cross-validation terhadap empat jenis classifier, yaitu Decision Tree Classifier, Random Forest Classifier, Extreme Gradient Boost Classifier, dan Bernoulli Naive Bayes Classifier. Hasil analisis menunjukkan bahwa Bernoulli Naive Bayes Classifier memiliki hasil performa terbaik, sehingga classifier ini juga yang akan diimplementasikan pada web crawler. Hasil dari pengembangan web crawler menunjukkan bahwa efisiensi waktu proses verifikasi dapat ditingkatkan sebesar 4900% dengan AUC sebesar 0.953 dan recall sebesar 0.864.

PT Nusa Satu Inti Artha or better known as DOKU is one of the fintech companies engaged in the payment sector. DOKU has been used by more than 100,000 online mer- chants in its two services, namely payment gateway and transfer service. More and more merchants are registering, demanding DOKU to be more efficient in carrying out one of the stages in the registration process, namely merchant site verification. This research aims to develop a web crawler application that can be used to extract the the merchant site data and to predict the fraud level of the site automatically. Web crawler is created using a micro web framework named Flask and contains modules that can extract features to then do scoring using the machine learning model implemented in it. Model selection is done by doing nested cross-validation of four types of classifier namely Decision Tree Classifier, Random Forest Classifier, Extreme Gradient Boost Classifier, and Bernoulli Naive Bayes Classifier. The analysis shows that the Bernoulli Naive Bayes Classifier has the best performance results, so this classifier will be the one that implemented on the web crawler. The results of the development of web crawler show that the efficiency of the verification process can be increased by 4900% with AUC of 0.953 and recall of 0.864."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Eko Julianto Salim
"Pembangkitan komentar dari data terstruktur adalah tugas yang menantang dalam bidang pembangkitan bahasa alami dengan berbagai potensi aplikasi dalam bidang olahraga dan esports. Penelitian-penelitian sebelumnya sering berfokus pada penyesuaian model datake-teks khusus, namun eksperimen awal penulis menemukan bahwa pretrained language model menunjukkan performa yang lebih baik dalam pembangkitan komentar. Penelitian ini berfokus pada bagaimana pretrained language model dapat diadaptasi untuk menghasilkan performa yang lebih baik pada permasalahan pembangkitan komentar menggunakan data replay Counter-Strike. Penulis menemukan bahwa penyesuaian pretrained language model dapat meningkatkan kualitas semantik dan alami dari pembangkitan komentar. Namun, penulis juga menemukan bahwa peningkatan kualitas semantik dan alami ini didampingi dengan penurunan pada kualitas leksikal akibat tantangan intrinsik yang ada dalam pembangkitan komentar.

Generating commentary from structured data poses a significant challenge in natural language generation, with extensive applications in sports and esports domains. Previous research has predominantly centered on tailoring specialized data-to-text models for this task. However, our preliminary investigation indicates that pretrained language models exhibit superior performance in commentary generation. This study focuses on further adapting pretrained language models to enhance their suitability for esports commentary generation, specifically utilizing Counter-Strike replay data. Our findings reveal that through this adaptation, pretrained language models can augment the semantic quality and naturalness of generated commentary. Nevertheless, we observed a trade-off, as the improvement in semantic quality and naturalness was accompanied by a decline in lexical quality, owing to the inherent complexities involved in commentary generation."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
<<   1 2   >>