Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 82713 dokumen yang sesuai dengan query
cover
Abdul Akbar
"Keberadaan Cumulonimbus dapat menyebabkan hujan lebat, tornado, badai petir dan peristiwa ekstrem lainnya. Pengamatan Radiosonde telah digunakan untuk memprediksi potensi keberadaan awan CB dalam periode prakiraan cuaca jangka pendek dengan menggunakan pendekatan machine learning. Salah satu metode machine learning yang populer dan handal digunakan untuk prediksi potensi pertumbuhan awan CB adalah Artificial Neural Network (ANN). Namun, ANN masih sensitif terhadap inisialisasi nilai awal pada parameter weight dan bias. Metode yang terbukti paling handal untuk mengatasi masalah tersebut adalah Grey Wolf Optimizer (GWO). Oleh sebab itu, studi ini menggunakan GWO untuk mengoptimalkan parameter weight dan bias pada ANN berdasarkan kinerja MSE di setiap iterasi sehingga dapat meningkatkan kinerja ANN dalam memprediksi keberadaan awan CB. Hasil studi menunjukkan bahwa GWO memberikan peningkatan kinerja ANN dengan rata rata peningkatan akurasiakurasi sebesar 14,88 %. Akurasi terbaik didapatkan dengan nilai 89.6% dengan menggunakan 5 input indeks Radiosonde SI, LI, TT, CAPE, SWEAT pada epoch 250, dengan nilai MSE 0.071, serta nilai koefisien korelasinya sebesar 0.86

The presence of Cumulonimbus can cause heavy rain, tornadoes, thunderstorms and other extreme events. Radiosonde observations have been used to predict the potential presence of CB clouds in the short-term weather forecast period using a machine learning approach. One of the popular and reliable machine learning methods used to predict the potential growth of CB clouds is Artificial Neural Network (ANN). However, ANN is still sensitive to initialization of initial values ​​in weight and bias parameters. The most reliable proven method to solve this problem is the Gray Wolf Optimizer (GWO). Therefore, this study uses GWO to optimize weight and bias parameters on ANN based on MSE performance in each iteration so as to improve ANN performance in predicting the presence of CB clouds. The results of the study show that GWO provides an increase in ANN performance with an average increase in accuracy of 14.88%. The best accuracy was obtained with a value of 89.6% using 5 inputs Radiosonde SI, LI, TT, CAPE, SWEAT at epoch 250, with an MSE value of 0.071, and the correlation coefficient value of 0.86"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Ibnu Rais Syukran
"Paduan super merupakan jenis paduan yang dapat mempertahankan kekuatan mekanis dan kestabilan permukaannya pada temperatur yang sangat tinggi sehingga cocok diaplikasikan pada bidang kedirgantaraan, khususnya turbin gas. Jenis paduan super yang paling banyak digunakan adalah paduan super berbasis nikel karena memiliki struktur kristal FCC yang stabil di segala temperatur. Agar dapat digunakan dalam jangka waktu yang lama, kegagalan pada paduan super berbasis nikel dapat dicegah dengan mengetahui kekuatan tarik dari paduannya. Selain itu untuk mencegah terjadinya keausan pada komponen mesin, kekerasan pada paduan super berbasis nikel juga harus diketahui. Adapun titik leleh dari paduan super berbasis nikel juga harus dapat diketahui untuk mencegah terjadinya pelunakan paduan super pada temperatur yang sangat tinggi. Biaya produksi paduan super berbasis nikel tergolong mahal, karena dibuat berdasarkan pendekatan trial and error yang memakan waktu. Pada penelitian ini, dilakukan pembuatan sebuah program yang dapat memprediksi sifat mekanis paduan super berbasis nikel menggunakan pembelajaran mesin dengan metode deep learning. Melalui pembelajaran mesin, biaya produksi paduan super berbasis nikel dapat ditekan serta mempersingkat siklus perkembangan material. Penelitian ini menghasilkan suatu program deep learning dengan jenis model regresi yang dapat memprediksi kekuatan tarik, kekerasan, dan titik leleh paduan super berbasis nikel dengan keakurasian model menurut metrik R2 sebesar 98,77% berdasarkan variasi hyperparameter yang ditetapkan sebanyak tiga hidden layer dengan dense 256, 128, 64, test size sebesar 25%, random state dengan nilai 75, batch size sebesar 32, epoch sebanyak 300, dan learning rate sebesar 0,001.

A superalloy is a type of alloy that can maintain its mechanical strength and surface stability at very high temperatures so that it is suitable for application in the aerospace field, especially in gas turbines. The most widely used type of superalloy is Ni-based superalloy because it has a stable FCC crystal structure at all temperatures. The failure of Ni-based superalloys can be prevented by knowing the tensile strength of the alloy for a longer-term used. In addition, to prevent wear on the engine components, the hardness of Ni-based superalloys must also be known. The melting point of Ni-based superalloys must also be known to prevent softening of the superalloy at very high temperatures. The production cost of Ni-based superalloys is quite expensive because they are made based on a time-consuming trial and error approach. In this research, a program is developed that can predict the mechanical properties of Ni-based superalloys using machine learning with deep learning methods. Through machine learning, the production cost of Ni-based superalloys can be reduced, and the material development cycle can be shortened. The result of this research is a deep learning program with a regression model which can predict the tensile strength, hardness, and melting point of Ni-based superalloys with a model accuracy of 98.77% according to the R2 metric based on the hyperparameter variations set as three hidden layers wi"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Siagian, Borris Ficthe
"Artificial Intelligence (AI) model Machine Learning (ML) merupakan perkembangan teknologi yang memiliki potensi untuk berperan sebagai pengambil keputusan dalam kehidupan manusia. Teknolgi harus dijaga agar memberikan dampak positif dalam kehidupan masyarakat sesuai amanat dalam
Pasal 28C UUD 1945. Pemerintah yang memiliki kewajiban untuk memenuhi hal tersebut. Tujuan dari penelitian ini untuk menganalisa pengaturan terkait AI model ML terkait penggunaan dan pemanfaatan di Indonesia. Penelitian ini juga akan menganlisa peraturan hukum Indonesia dalam melingkupi prinsip Ethical and trustworty AI dalam penyelenggaraan AI model ML. Kemudian penelitian ini
juga mengalisa bentuk pertanggunjawaban hukum terkait AI di Indonesia. Metode yang digunakan dalam penelitian ini adalah penelitian yuridis normatif dengan pendekatan kualitif yang bersifat exploratoris. Hasil dari penelitian ini menunjukan Indonesia memiliki sisnas IPTEK untuk mencapai tujuan Pasal 28C UUD 1945. AI yang tergolong dalam sistem elektronik, menjadikan tunduk pada
aturan terkait penyelenggaraan sistem elektronik dalam UU ITE. Utilitarian purposes yang melekat pada teknologi AI membuat perlindungan kekayaan intelektual berada dalam perlindungan Paten. Ethical dan trustworthy pada AI
dapat dikrucutkan kedalam 5 prinsip utama dalam penggunaan dan pemanfaatan AI dalam industri. Prinsip tersebut adalah Keaman dan Keselamatan, Privasi, Keadilan, Transparansi serta Akuntabilitas. Prinsip ini telah tertanggulangi dalam prinsip dalam strategi nasional kecerdasan Artifisial. Pemenuhan standar produk AI dan Kode Etik yang mengadopsi prinsip ethical and trustworthy AI diperlukan dalam peraturan hukum di Indonesia saat ini. Berdasarkan peraturan yang ada, pertanggungjawaban dalam penyelenggaraan Sistem Elektronik, termasuk AI, menerapkan prinsip praduga bersalah. Besarnya risiko pada AI membuatnya termasuk kedalam dengerous activities, sehingga perlu diterapkan strict liability.

Artificial Intelligence (AI) Machine Learning (ML) model is a technologicaldevelopment that has the potential to be a decision maker in human life. According to the article 28C of the UUD 1945, technology must be maintained to has a positive impact on people's lives. Government has the obligation to fulfill this. The purpose of this research is to analyze regulations related to AI model ML about its use and utilization in Indonesia. This research will also analyze Indonesian regulations covering principles of Ethical and trustworthiness of AI in implementation of AI model ML. Then this reasearch also analyzes forms of legal liabiility related to AI in Indonesia. Analysis method used a normative juridical research with a qualitative approach. The results show that Indonesia has Sisnas IPTEK to achieve a possitive impact. AI is classified as an electronic system, making it subject to rules related to the implementation of electronic systems in UU ITE. AI being protect by Paten, because of utilitarian purposes attached to it.
Ethical and trustworthy of AI can be narrowed down into 5 main principles. These are Security and Safety, Privacy, Fairness, Transparency and Accountability. They have been addressed in Stragtegi Nasional Kecerdasan Artifisial. Current regulations require product standard and Code of Ethics that adopts ethical and trustworthy principles of AI. Based on existing regulations, legal liability in operation of Electronic Systems, including AI, applies the presumption of guilt.
Big risk in AI makes it included in dengerous activities, so it is necessary to applystrict liability.
"
Depok: Fakultas Hukum Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Reynard Adha Ryanda
"Mahasiswa drop out memiliki dampak negatif untuk mahasiswa serta perguruan tinggi. Mahasiswa dikatakan drop out apabila mahasiswa tersebut belum dapat menyelesaikan masa studinya dalam rentang waktu yang telah ditentukan. Data mengenai status penyelesaian serta data akademis mahasiswa terekap pada Pangkalan Data Pendidikan Tinggi (PDDikti). Berdasarkan data tersebut, mahasiswa drop out pada tahun 2019 mencapai 602.208 mahasiswa atau 7% dari total mahasiswa. Penelitian menggunakan data PDDikti untuk memprediksi drop out telah dilakukan untuk mahasiswa yang telah mencapai tujuh tahun masa studi. Namun, belum terdapat sistem berbasis web yang dapat memprediksi mahasiswa drop out menggunakan data semester yang lebih sedikit dan visualisasi yang menggambarkan mahasiswa drop out berdasarkan data yang diperoleh dari PDDikti melalui API tertentu. Penelitian ini membandingkan empat model pembelajaran mesin untuk memprediksi drop out dimana model CatBoost dengan teknik undersampling edited nearest neighbors merupakan classifier terbaik untuk memprediksi drop out dengan f1-score sebesar 64.23%. Selain itu, penelitian ini berhasil mengimplementasi sistem berbasis web yang dapat digunakan untuk melakukan visualisasi data berdasarkan API yang digunakan untuk memperoleh data dari PDDikti dan juga prediksi mahasiswa yang berpotensi drop out berdasarkan data dari PDDikti. Visualisasi mahasiswa drop out berhasil divisualisasi dengan menggunakan diagram sankey, diagram geo, dan diagram bar. Perolehan data dapat dilakukan menggunakan query data dengan API yang dibuat menggunakan Express.js dan Flask.

Dropped out student giving negative impact to the student itself and also university. A student is said to have dropped out if they can’t complete their studies within the specified timeframe. Data regarding completion status as well as student academic data are recorded in Higher Education Database (PDDikti). Based on these data, the drop out students in 2019 reached 602,208 students or 7% of the total student. Research using PDDikti data to predict drop out has been conducted for students who have reached seven years of study. However, there is no web-based system that could predict drop out student using data with fewer semesters and visualizations portraying dropout students based on PDDikti data through particular API. This study compares four machine learning models to predict drop outs where CatBoost model with undersampling edited nearest neighbors technique is the best classifier to predict drop outs with an f1-score of 64.23%. Other than that, this study succeeded to implement web-based system that could visualize PDDikti data through API and to predict potential students dropping out based on PDDikti data. The visualization of drop out students was successfully visualized using Sankey diagrams, geo diagrams, and bar charts. Data retrieval can be done using data queries with APIs created using Express.js and Flask"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Yudhistira Erlandinata
"Korpus relasi semantik dapat menunjang berbagai penelitian di bidang pengolahan bahasa manusia. Untuk Bahasa Indonesia, korpus relasi semantik yang berukuran besar dan berkualitas baik masih belum tersedia. Korpus relasi semantik dapat dibuat secara manual dengan melibatkan anotator dan juga dapat dihasilkan secara otomatis menggunakan algoritma rule-based atau machine learning. Penelitian ini bertujuan untuk mengevaluasiseberapa baik kualitas korpus relasi semantik Bahasa Indonesia, khususnya relasi hiponim-hipernim, apabila dibangun dengan pendekatan machine learning dan metode crowdsourcing yang menerapkan gamifikasi. Algoritma pattern-based yang sebelumnya pernah diteliti untuk Bahasa Indonesia akan digunakan untuk menghasilkan data training algoritma machine learning dan kandidat entri korpus untuk dianotasi dengan metode crowdsourcing. Kualitas korpus hasil metode crowdsourcing diukur berdasarkan tingkat persetujuan antar anotator dan diperoleh hasil yang cukup baik walaupun belum sempurna. Untuk pendekatan machine learning, beberapa model
machine learning yang diterapkan masih belum memberikan hasil optimal karena
keterbatasan resource.
Kata kunci: relasi semantik, hiponim-hipernim, crowdsourcing, gamifikasi, machine
learning, pattern-based

Semantic relations corpus is vital to support research in the field of Natural Language
Processing. Currently, there is no existing corpus of semantic relations in Indonesian
language which is enormous and high-quality. The corpus can be constructed manually
by employing human annotators or built automatically using rule-based or machine
learning algorithms. This research aims to evaluate the quality of Indonesian hyponym-
hypernym semantic relations corpus that is produced by crowdsourcing mechanism with
gamification, and to test the model for semantic relations prediction using machine
learning algorithms. The pattern-based method is applied to obtain the training data for
machine learning experiments and corpus entry candidates to be annotated using the
crowdsourcing method. The quality of the crowdsourced corpus is measured using inter-
annotator agreement. The experimental result shows that the gamification-based
crowdsourcing method is promising to produce the corpus. On the other hand, machine
learning models tested in this research have not given optimal results yet due to the
limitations of the lexical resources in Indonesian language.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dessy Ana Laila Sari
"ABSTRAK
Klasifikasi emosi manusia merupakan salah satu topik hangat yang dapat dimanfaatkan dalam berbagai bidang, baik medis maupun militer. Emosi manusia sendiri dapat diklasifikasi dengan berbagai metode, salah satunya adalah Machine Learning (ML). Machine learning merupakan proses pembelajaran computer untuk menyelesaikan task tertentu, dengan menggunakan metode ini hasil yang didapatkan akan lebih akurat dan konstan. Dalam tesis ini akan dikembangkan sistem klasifikasi emosi manusia berdasarkan sinyal EEG dari DEAP yang berbasis ML dengan berbagai studi metode ML, seperti Backpropagation Neural Network (BPNN), k-Nearest Neighbor (k-NN), Support Vector Machine (SVM) hingga Random Forest (RF). Sistem klasifikasi kemudian akan dikembangkan kembali menggunakan metode Convolutional Neural Network (CNN). Dari penelitian ini didapatkan bahwa nilai recognition rate yang dihasilkan hanya berkisar 50% dengan nilai maksimal 62%. Sistem juga diberikan feature selection layer untuk memaksimalkan recognition rate, namun penambahan ini tidak memberikan hasil yang signifikan. Dengan demikian recognition rate pada sistem klasifikasi menggunakan sinyal EEG sangat bergantung pada pemrosesan sinyal raw.

ABSTRACT
The classification of human emotions is a hot topic that can be utilized in various fields, both medical and military. Human emotions themselves can be classified by various methods, one of which is Machine Learning (ML). Machine learning is a process of learning computers to complete certain tasks, using this method the results obtained will be more accurate and constant. In this thesis a human emotion classification system will be developed based on EEG signals from DEAP dataset using various ML method studies, such as Backpropagation Neural Network (BPNN), k-Nearest Neighbor (k-NN), Support Vector Machine (SVM) to Random Forest (RF). The classification system will be developed again using the Convolutional Neural Network (CNN) method. From this study it was found that the value of the recognition rate produced is only around 50% with a maximum value of 62%. The system is also given a feature selection layer to maximize recognition rate, but this addition does not provide significant results. Thus the recognition rate in the classification system using EEG signals is very dependent on raw signal processing."
Depok: Fakultas Teknik Universitas Indonesia, 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Reja Aji Saputra
"

Kemacetan merupakan salah satu masalah yang belum bisa terselesaikan di kota-kota besar di Indonesia. Salah satu cara untuk mengatasi masalah ini, yaitu dengan memanfaatkan teknologi yang dapat memantau lalu lintas secara otomatis, agar dapat dimonitor dan dianalisis untuk pengembangan fasilitas serta kebijakan guna menyelesaikan masalah ini. Teknologi yang dapat diterapkan untuk masalah ini, yaitu teknologi image processing yang dikolaborasikan dengan machine learning dan dengan bantuan library OpenCV. Pendeteksian objek menggunakan MobileNet-SSD dan Caffe model, objek yang dideteksi merupakan kendaraan yang melintas di jalan, pengambilan input menggunakan kamera CCTV yang diakses oleh publik. Kecepatan, performa, akurasi, dan kepadatan jalanan merupakan variabel yang dianalisis pada penulisan ini. Hasil dari pendeteksian memiliki akurasi yang tidak cukup baik sekitar 43% untuk keseluruhan, dan 68% untuk pendeteksian mobil. Terdapat penambahan fitur pada penelitian ini, yaitu pendeteksian motor yang memiliki akurasi 51%


Traffic jam is one of many problems that cannot be solved in various cities in Indonesia. One way to overcome this problem is to use technology that can monitor traffic automatically, so that traffic conditions can be monitored, and analyzed for the development of facilities and policies to solve this problem. One of the technologies that can be applied to this problem is image processing technology in collaboration with machine learning, and OpenCV. This research use Mobilenet-SSD and Caffe models for objects detection, objects detected are vehicles that cross the road, input is taken from CCTV cameras that can accessed by public. Speed, performance, accuracy, and road density are the variables analyzed in this paper. The results of the detection have an accuracy that is not good enough only about 43% for the whole detection, and 68% for the detection of the car, and 51% for the detection of the motorcycle

"
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Aldo Sultan Manneken
"Dalam pelaksanaan distribusi listrik yang dilakukan PT.”X” terhadap pelanggan PT. “X”, terdapat susut energi listrik yang terjadi baik secara teknis maupun non teknis. Susut energi listrik ini mengakibatkan kerugian yang cukup besar bagi PT.”X” setiap tahunnya. Dalam upaya untuk mengatasi dan mengurangi susut energi non teknis, PT.”X” mengadakan kegiatan P2TL dimana pada kegiatan ini, petugas P2TL akan melakukan pengecekan pada pelanggan PT.”X” yang terindikasi melakukan susut energi non teknis. Namun, dalam pelaksanaan kegiatan P2TL, PT.”X” masih melakukan proses penentuan target operasi P2TL secara manual. Untuk membantu kinerja PT.”X” dalam melakukan kegiatan P2TL, diperlukan pendekatan lain dalam melakukan penentuan target operasi P2TL. Penelitian ini akan melakukan pendekatan berbasis machine learning dengan metode supervised learning untuk melakukan deteksi pencurian tenaga listrik. Terdapat tiga algoritma yang akan digunakan dalam penelitian ini, yaitu: Naïve bayes, Naïve bayes dengan AdaBoost, dan logistic regression. Dalam penelitian ini, dataset yang digunakan adalah dataset pemakaian bulanan 423.216 pengguna listrik PT.”X” pascabayar selama 49 bulan yaitu sejak bulan Agustus tahun 2018 hingga bulan Agustus tahun 2022. Hasil penelitian ini menunjukkan rata-rata akurasi model yaitu Naïve bayes sebesar 53%, Naïve bayes dengan AdaBoost sebesar 64%, dan logistic regression sebesar 75%. Algoritma logistic regression menunjukkan performa paling baik dibandingkan dengan kedua algoritma lainnya yaitu rata-rata precision score 74%, rata-rata F1 score 59% dan rata-rata recall score adalah 60%.

In the implementation of electricity distribution carried out by PT. “X”-to-PT.”X” customers, there are losses in electrical energy that occur both technically and non-technically. This loss of electrical energy results in substantial losses for PT.”X” every year. To overcome and reduce non-technical energy losses, PT.”X” holds P2TL activities where in this activity, P2TL officers will check PT.”X” customers who are suspected of carrying out non-technical energy losses. However, in carrying out P2TL activities, PT.”X” is still carrying out the process of determining P2TL operational targets manually. To assist PT. “X”'s performance in carrying out P2TL activities, another approach is needed in determining P2TL operational targets. This research will use a machine learning-based approach using supervised learning method to detect electricity theft. There are three algorithms that will be used in this study, namely: naïve bayes, naïve bayes with AdaBoost, and logistic regression. In this study, the dataset used is the monthly usage dataset of 423,216 postpaid PT.”X” electricity users for 49 months, from August 2018 to August 2022. The results of this study show that the average accuracy of the model by naïve bayes is 53%, naïve bayes with AdaBoost is 64%, and logistic regression is 75%. The logistic regression algorithm shows the best performance compared to the other two algorithms, where the average precision score is 74%, the average F1 score is 59% and the average recall score is 60%."
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Toto Haryanto
"Kanker merupakan salah satu penyakit yang memiliki angka kematian tergolong tinggi di dunia. Analisis dengan menggunakan citra histopatologi merupakan gold standar yang dilakukan untuk diagnosa kanker. Kehadiran machine learning dan deep learning memanfaatkan data untuk dilatih dan kemudian akan menghasilkan metode untuk memprediksi atau identifikasi kanker. Kebutuhan data di dalam machine learning terlebih lagi deep learning sudah seharusnya tersedia. Namun, permasalahan yang kerap kali terjadi jika melakukan penelitian dengan data medis histopatologi adalah keterdiaan data yang terbatas. Salah satu kebaruan dari disertasi ini adalah telah berhasil melakukan modifikasi dan algoritma sliding window untuk mengatasi keterbatasan data citra histopatologi yang disebut dengan conditional sliding windows. Selain itu, disertasi ini juga telah berhasil merancang arsitektur deep learning untuk menghasilkan metode identifikasi status kanker dengan citra histopatologi dengan akurasi dapat dibandingkan dengan metode terkini yang berkembang. Penggunaan conditional sliding window mampu menghasilkan beberapa skenario dataset citra histopatologi yang akan digunakan sebagai dataset untuk proses pelatihan. Arsitektur yang dikembangkan adalah convolutional neural network (CNN) yang kami sebut dengan CNN-7-5-7. Dibandingkan dengan arsitektur deep learning seperti Alexnet dan DenseNet, CNN 7-5-7 menghasilkan performa yang lebih konsisten dan juga relatif lebih cepat dalam pelatihan. Apabila dibandingkan dengan model dengan data hasil pembangkitan Generative Adversarial Network (GAN).

Cancer is a disease that has a relatively high mortality rate in the world. Analysis using histopathological images is the gold standard for cancer diagnosis. The presence of machine learning and deep learning utilizes data to be trained and will produce methods to predict or identify cancer. The data needs in machine learning, especially deep learning, should be available. However, the problem that often occurs when conducting research with histopathological medical data is the limited availability of data. One of the novelties of this research is the successful modification and sliding window algorithm to overcome the limitations of histopathological image data which is called conditional sliding windows. In addition, this dissertation has also succeeded in designing a deep learning architecture to produce a method of identifying cancer status with histopathological images with an accuracy comparable to the latest developed methods. The use of conditional sliding windows is able to produce several scenarios of histopathological image datasets that will be used as datasets for the training process. The architecture developed is a convolutional neural network (CNN) which we call CNN-7-5-7. Compared to deep learning architectures such as Alexnet and DenseNet, CNN 7-5-7 delivers more consistent performance and is also relatively faster in training. When compared with the model with the generated Generative Adversarial Network (GAN) data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Tatag Aziz Prawiro
"Normalisasi teks merupakan task pada NLP yang dapat digunakan untuk meningkatkan performa dari aplikasi-aplikasi NLP lain. Penelitian tentang normalisasi teks pada bahasa Indonesia masih jarang dan kebanyakan masih hanya menormalisasi pada tingkat token. Penelitian ini bertujuan untuk mengevaluasi pembangunan model normalisasi dengan menggunakan algoritma statistical machine translation (SMT). Isu dari pendekatan machine translation dalam penyelesaian task normalisasi teks
adalah butuhnya data yang relative banyak. Penelitian ini juga melihat bagaimana pengaruh dari pemelajaran semi-supervised dengan cara menggunakan pseudo-data dalam pembangunan model normalisasi teks dengan algoritma statistical machine translation. Model SMT memiliki performa yang cukup baik pada data tanpa tanda baca, namun memiliki performa yang buruk pada data bertanda baca karena banyaknya noise. Pendekatan semi-supervised menurunkan performa SMT secara keseluruhan, namun, pada jenis data tidak bertanda baca penurunan relatif tidak signifikan.

Text normalization is a task in NLP which can be used to improve the performance of other NLP
applications. Research on text normalization in Indonesian language is still rare and most only
normalize at the token level. This study attempts to improve the development of the normalization
model by using the statistical machine translation (SMT) algorithm. The issue in building a good
performing text normalization model using the machine translation approach is the relatively large
data needs. This research also looks at how using semi-supervised learning by using pseudo-data as
training data in SMT approach affects text normalization performance. The SMT model has a fairly
good performance on data without punctuation, but has poor performance on data with a punctuation
due to the amount of noise. The semi-supervised approach reduces the overall performance of the
SMT model, but the reduction in performance is relatively insignificant on data without punctuation.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>