Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 26 dokumen yang sesuai dengan query
cover
Fransisco William Sudianto
"Perkembangan LargeLanguageModel (LLM) terjadisecaracepatdanmengalami kemajuanyangsignifikan.HalinimendorongpenggunaandanpemanfaatanLLM pada berbagaibidang.Disisilain, KnowledgeGraph (KG) menyediakancarayang terstruktur danbermaknauntukmenyimpaninformasi.KGsudahbanyakdigunakan secara luasdiberbagaiaplikasi,sepertimesinpencari,sistemrekomendasi,dansistem penjawabpertanyaan.SalahsatupemanfaatanLLMdanKGyangmasihjarangadalah pada bidangjurnalistik,khususnyauntukmenganalisisdanmemvisualisasikanberita. Penelitian inibertujuanuntukmengembangkanalatekstraksiinformasiyangefisien, akurat, daninteraktifuntukmenganalisisteksberitamenggunakanpendekatangabungan antara LLMdanKG.Metodeinimenggabungkankeunggulankeduatekniktersebut untuk meningkatkanpemahamandanekstraksiinformasidariteksberitayangkompleks. Tujuannyaadalahagarpembacadapatmemahamiinformasiyangterdapatpadateks berita denganlebihinteraktif.PenulismemanfaatkanLLMyangtelahterlatihsecara luas dalammemahamidanmenghasilkanteksuntukmengidentifikasiinformasipenting dalam teksberita,sepertientitas,sentimen,kutipan,relasiantarentitas,danunsur5W1H (Who, What, Where, When, Why, How), urutankronologiskejadian,danhubungan bagian-keseluruhan(mereology) dalamteksberita.Untukmengekstraksiinformasiterse- but, prompt dimodifikasi denganmenggunakanpendekatan one-shot-prompting untuk memberikan konteksdancontohkepadaLLMdalammemahamiteksberita.Kemudian, informasi yangdiekstraksidivisualisasikandalambentukKGyangmerepresentasikan pengetahuan terstrukturtentangentitasdanhubungannyadidalamteks.Selainitu, penelitian melibatkanpembuatansebuahwebsiteyangakanmenyediakanantarmuka untuk sistemagarpenggunadapatmelakukananalisisteksberitasecaralangsungdan interaktif. Evaluasiutamayangdilakukanpadapenelitianiniadalahmengukurakurasi jawabanyangdihasilkanolehLLMpadasetiapbagianinformasiyangdiekstraksi dan bagaimanavisualisasiKGyangbaikuntukinformasiyangdidapat.Penelitianini menunjukkan bahwaLLMmampumengekstraksiinformasiyangdiinginkandengan cukup akuratdanvisualisasiKGdapatmenyajikaninformasidenganlebihinteraktif dan mudahdimengerti.PenelitianinitelahmenunjukkanbahwaLLMdanKGdapat dimanfaatkansebagaialatekstraksidanvisualisasiinformasiyangadapadateksberita.

The developmentoftheLargeLanguageModel(LLM)israpidlyoccurringandex- periencing significantprogress.ThisencouragestheuseandutilizationofLLMin variousfields.Ontheotherhand,KnowledgeGraph(KG)providesastructuredand meaningful waytostoreinformation.KGhasbeenwidelyusedinvariousapplications, such assearchengines,recommendationsystems,andquestionansweringsystems. One utilizationofLLMandKGthatisstillrarelyusedisinthefieldofjournalism, especially foranalyzingandvisualizingnews.Thisresearchaimstodevelopaneffective, interactive,andaccurateinformationextractiontoolforanalyzingnewstextsusing a combinedapproachbetweenLLMandKG.Thismethodcombinestheadvantages of bothtechniquestoimprovetheunderstandingandextractionofinformationfrom complexnewstexts.Thegoalisforreaderstounderstandtheinformationcontainedin the newstextinteractively.TheauthorutilizesLLMswhohavebeenextensivelytrained in understandingandgeneratingtextstoidentifyimportantinformationinnewstexts, such asentities,sentiments,quotes,relationsbetweenentities,and5W1H(Who,What, Where, When,Why,How),chronologicalorderofevents,andpart-wholerelationships (mereology) elementsinnewstexts.Toextractthatinformation,thepromptwasmodified by usingaone-shot-promptingapproachtoprovidecontextandexamplestoLLMsin understanding thenewstext.Then,theextractedinformationisusedtobuildaKGthat represents structuredknowledgeaboutentitiesandrelationshipsinthetext.Inaddition, the developmentplaninvolvescreatingawebsitethatwillprovideaninterfaceforthis system toallowuserstoperformliveandinteractivenewstextanalysis.Themain evaluationconductedinthisresearchistomeasuretheaccuracyoftheanswersgenerated by LLMoneachpieceofinformationextractedandhowgoodKGvisualizationisfor the informationobtained.ThisresearchshowsthatLLMisabletoextractthedesired information quiteaccuratelyandKGvisualizationcanpresentinformationinamore interactiveandeasytounderstandmanner.ThisresearchhasshownthatLLMandKG can beusedasinformationextractionandvisualizationtoolsinnewstexts."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Febi Imanuela
"Perkembangan teknologi pada bidang kesehatan di Indonesia telah menghadirkan layanan konsultasi dengan dokter melalui forum tanya jawab kesehatan. Seiring dengan berjalannya waktu, muncul permasalahan pertanyaan duplikat pada forum. Permasalahan ini perlu ditangani agar dapat mempercepat proses pengembalian jawaban untuk keluhan yang serupa dan menjaga jumlah pertanyaan agar tetap scalable dengan kapasitas dokter penjawab. Namun, pertanyaan duplikat merupakan suatu tantangan tersendiri karena kompleksitas bahasa natural. Penelitian ini memanfaatkan pendekatan Information Retrieval untuk mengidentifikasi pasangan pertanyaan duplikat pada domain ini sebagai suatu pasangan query dan dokumen yang relevan. Setelah melakukan ranking awal menggunakan BM25 sebagai model baseline, performa hasil ranking ditingkatkan melalui proses re-ranking menggunakan model learning-to-rank LambdaMART yang berbasis fitur. Penelitian ini memanfaatkan fitur perhitungan jarak dan similaritas antara pasangan vektor representasi query dan dokumen, yang diperoleh dari model word embeddings dan transformer. Selain itu, diusulkan fitur scoring yang diperoleh dari model Cross Encoder, serta model BM25 yang menjadi model baseline. Penelitian ini juga mengusulkan fitur-fitur yang mempertimbangkan jumlah keywords gagasan utama query yang dikandung dokumen. Evaluasi eksperimen dilakukan menggunakan cross validation dan error analysis, dengan MRR sebagai metrik utama. Performa tertinggi yang dicapai eksperimen adalah MRR senilai 0,951 dengan p value senilai 0,016 yang signifikan terhadap baseline. Dengan demikian, penelitian ini menunjukkan dukungan empiris terhadap peningkatan efektivitas model re-ranking yang diusulkan untuk melakukan identifikasi otomatis terhadap karakteristik query dan dokumen yang relevan, yakni pasangan pertanyaan duplikat dalam konteks ini.

The development of technology in the healthcare sector in Indonesia has introduced consultation services with doctors through consumer health forums. Over time, the issue of duplicate questions on these forums emerged. This problem needs to be addressed to accelerate the response process for similar questions and to keep the number of questions scalable with the capacity of the responding doctors. However, duplicate questions present their own challenge due to the complexity of natural language. This study utilizes Information Retrieval approach to identify pairs of duplicate questions in this domain as query and relevant document pairs. After initial ranking using BM25 as the baseline model, the ranking performance is improved through a re-ranking process using the feature-based LambdaMART model. This study leverages features that calculate the distance and similarity between vector representations of the query and document, obtained from word embedding and transformer models. Additionally, scoring features derived from the Cross Encoder model and the BM25 baseline model are proposed. The study also suggests features that consider the number of main idea keywords from the query that is also contained within the document. Experiment evaluation is conducted using cross validation and error analysis, with Mean Reciprocal Rank (MRR) as the primary metric. The highest performance achieved in the experiments is an MRR of 0.951 with a p-value of 0.016, which is significant to the baseline. Thus, this study provides empirical support for the effectiveness of the proposed re-ranking model for automatic identification of the query and relevant document, specifically duplicate question pairs in this context."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Okky Ibrohim
"ABSTRAK
Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), Naïve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.


Hate speech and abusive language spreading on social media needs to be identified automatically to avoid conflict between citizen. Moreover, hate speech has target, criteria, and level that also needs to be identified to help the authority in prioritizing hate speech which must be addressed immediately. This thesis discusses multi-label text classification to identify abusive and hate speech including the target, category, and level of hate speech in Indonesian Twitter. This problem was done using machine learning approach with Support Vector Machine (SVM), Naïve Bayes (NB), and Random Forest Decision Tree (RFDT) classifier and Binary Relevance (BR), Label Power-set (LP), and Classifier Chains (CC) as data transformation method. The features that used are term frequency (word n-grams and character n-grams), ortography (exclamation mark, question mark, uppercase, lowercase), and lexicon features (negative sentiment lexicon, positif sentiment lexicon, and abusive lexicon). The experiment results show that in general RFDT classifier using LP as the transformation method gives the best accuracy with fast computational time. RFDT classifier with LP transformation using word unigram feature give 66.16% of accuracy. If only for identifying abusive language and hate speech (without identifying the target, criteria, and level of hate speech), RFDT classifier with LP transformation using combined fitur word unigram, character quadgrams, positive sentiment lexicon, and abusive lexicon can gives 77,36% of accuracy.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019
T52442
UI - Tesis Membership  Universitas Indonesia Library
cover
Luqman Maulana Rizki
"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Nur Hamid
"

Data LiDAR banyak menggantikan data dua dimensi untuk merepresentasikan data geografis karena kekayaan informasi yang dimilikinya. Salah satu jenis pemrosesan data LiDAR adalah segmentasi semantik tutupan lahan yang mana telah banyak dikembangkan menggunakan pendekatan model deep learning. Algoritma-algoritma tersebut menggunakan representasi jarak Euclidean untuk menyatakan jarak antar poin atau node. Namun, sifat acak dari data LiDAR kurang sesuai jika representasi jarak Euclidean tersebut diterapkan. Untuk mengatasi ketidaksesuaian tersebut, penelitian ini menerapkan representasi jarak non-Euclidean yang secara adaptif diupdate menggunakan nilai kovarian dari set data point cloud. Ide penelitian ini diaplikasikan pada algoritma Dynamic Graph Convolutional Neural Network (DGCNN). Dataset yang digunakan dalam penelitian ini adalah data LiDAR Kupang. Metode pada penelitian ini menghasilkan performa nilai akurasi 75,55%, di mana nilai akurasi ini lebih baik dari algoritma dasar PointNet dengan 65,08% dan DGCNN asli 72,56%. Peningkatan performa yang disebabkan oleh faktor perkalian dengan invers kovarian dari data point cloud dapat meningkatkan kemiripan suatu poin terhadap kelasnya.


LiDAR data widely replaces two-dimensional geographic data representation due to its information resources. One of LiDAR data processing tasks is land cover semantic segmentation which has been developed by deep learning model approaches. These algorithms utilize Euclidean distance representation to express the distance between the points. However, LiDAR data with random properties are not suitable to use this distance representation. To overcome this discprepancy, this study implements a non-Euclidean distance representation which is adaptively updated by applying their covariance values. This research methodology was then implemented in Dynamic Graph Convolutional Neural Network (DGCNN) algorithm. The dataset in this research is Kupang LiDAR. The results obtained performance accuracy value of 75.55%, which is better than the baseline PointNet of 65.08% and Dynamic Graph CNN of 72.56%. This performance improvement is caused by a multiplication of the inverse covariance value of point cloud data, which raised the points similarity to the class.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Eka Puji Widiyanto
"ABSTRAK
Elektrokardiogram (EKG) merupakan mekanisme yang dipergunakan untuk melakukan pemeriksaan kondisi jantung. EKG menghasilkan sinyal listrik yang menggambarkan aktivitas jantung. Penelitian ini akan melakukan pengolahan data EKG yang diambil secara langsung dari pasien sehingga siap untuk ditransmisikan. Untuk mengoptimalkan prosesnya maka data yang dikirimkan dikompresi sedemikian rupa tanpa mendistorsi informasi aslinya. Penelitian sebelumnya mengindikasikan bahwa untuk mencapai rasio kompresi optimal maka sinyal harus disusun sedemikian rupa sehingga menghasilkan regularitas yang tinggi. Akuisisi data dilakukan dengan ADC 24 bit, dilanjutkan penghilangan derau dan ekstraksi beat menggunakan teknik Multi Resolution Wavelet Analysis dengan Lifting Scheme dan normalisasi data. Pengurutan berbasis normalized cross correlation dilakukan sehingga diperoleh data dengan koefisien wavelet yang regularitasnya optimal. Hasil pengujian pada 10 record dari St. Petersburg INCART 12-lead Arrhythmia Database (incartdb) – PhysioNet menunjukkan bahwa penggunaan metode sorting ini dapat menurunkan distorsi sinyal hasil kompresi dengan rerata 3,76% dan perbedaan amplitudo sebesar 0,03mV dibandingkan tanpa sorting pada kompresi sinyal yang tinggi. Simplisitas metode yang dikembangkan memungkinkan implementasi pada platform embedded dengan kapabilitas komputasi yang terbatas.
ABSTRACT
Electrocardiogram (ECG) is common mechanism to monitor heart activity in form of electrical waveform. This research will process ECG signal directly from patient and process it to be ready for transmission. For optimum transmission, signal compression must be done with minimum original information distortion. And to achieve optimum compression rate, high signal regularity is a must. Data acquisition for the system is realized with 24 bit high resolution ADC, continued with noise elimination and beat extraction using Multi Resolution Wavelet Analysis with Lifting Scheme to achieve fast operation cycle. Periode normalization is implemented to the clean signal. Clean normalized signal is sorted using normalized cross correlation method to achieve optimum regularity signal in its wavelet coefficient. Test result on 10 records from St. Petersburg INCART 12-lead Arrhythmia Database (incartdb) – PhysioNet shows that the implemented sorting method can decrease reconstructed signal distortion by mean of 3.76% with amplitude difference of 0.03mV compare to its unsorted form in high compression ratio. The method simplicity offering efficient implementation on embedded system with minimum computation and resources capability."
2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Budi Hartadi
"ABSTRAK
Undang-Undang adalah Peraturan Perundang-undangan yang dibentuk oleh Dewan Perwakilan Rakyat dengan persetujuan Presiden. Undang-Undang memiliki sifat mengikat secara umum. Semua ketentuan pada Undang-Undang berlaku untuk seluruh rakyat Indonesia, termasuk ketentuan pidana di dalamnya. Oleh karena itu, setiap warga negara Indonesia perlu memahami informasi sanksi pidana pada Undang-Undang. Melalui penelitian ini, peneliti mengajukan metode untuk mendapatkan informasi pidana dari Undang-Undang. Pendekatan yang dilakukan adalah dengan melakukan klasifikasi tiap pasal, ayat, dan poin huruf pada Undang-Undang. Penelitian ini menggunakan tiga metode klasifikasi, yaitu Support Vector Machine, Classification and Regression Tree, dan Ripple Down Rules Learner. Hasil pengujian menunjukkan bahwa metode Classification and Regression Tree memberikan hasil terbaik, dengan F1-score mencapai 93,3 .

ABSTRACT
Law is a set of provisions and rules formed by People 39 s Representative Council with the agreement of President. Law generally binds every people in Indonesia. In other words, all provisions in Law apply to all people in Indonesia, including the punishment provisions. Because of that, every Indonesian people needs to understand the punishment provisions in Law documents. In this research, we propose a method to get all the punishment provisions from Law text. The approach taken is by doing classification on every articles, verses, and points in Law document. We use three classification methods in this research, which are Support Vector Machine, Classification and Regression Tree, and Ripple Down Rules Learner. Experiment results show that Classification and Regression Tree gives the best results, with F1 score reaching 93,3 ."
Depok: 2018
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Intan Fadilla Andyani
"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Daniel Martin
"Pengembangan NLP di Indonesia terbilang lambat, terutama penelitian terkait bahasa daerah Indonesia. Alasannya adalah sumber data bahasa daerah tidak terdokumentasikan dengan baik sehingga sumber daya NLP yang ditemukan juga sedikit. Penelitian ini membahas metode ekstraksi kamus-kamus bahasa daerah di Indonesia untuk menghasilkan suatu sumber daya NLP yang dapat dibaca oleh mesin. Tahap penelitian dimulai dari pengumpulan data kamus, perancangan dan eksperimen metode ekstraksi, serta evaluasi hasil ekstraksi. Hasil penelitian berupa korpus paralel, leksikon bilingual, dan pasangan kata dasar-kata berimbuhan dalam format CSV dari beberapa kamus dwibahasa di Indonesia. Beberapa bahasa di antaranya adalah bahasa Minangkabau, Sunda, Mooi, Jambi, Bugis, Bali, dan Aceh. Perancangan metode ekstraksi berfokus pada kamus Minangkabau yang kemudian dilakukan eksperimen pada kamus-kamus bahasa daerah lainnya. Evaluasi dilakukan terhadap hasil ekstraksi kamus Minangkabau dengan melakukan anotasi data. Perhitungan akurasi dilakukan terhadap penempatan kelompok kata dari hasil anotasi. Hasil perhitungan menunjukkan 99% hasil ekstraksi sudah tepat untuk penentuan kelompok kata pada leksikon bilingual dan 88% untuk korpus paralel. Tim peneliti menemukan bahwa struktur dalam kamus bahasa daerah Indonesia sangat beragam, sehingga menuntut perlakuan yang berbeda pada setiap kamus, seperti perihal penomoran halaman. Selain itu, tim peneliti menemukan banyak kamus bahasa daerah Indonesia dengan kualitas yang kurang baik. Kualitas yang kurang baik ditunjukan dengan banyaknya kesalahan baca akibat noise yang terdapat pada tampilan berkas kamus.

The development of NLP in Indonesia is relatively slow, especially for Indonesian local languages. Indonesian local language data sources are not well-documented so that there are only few NLP resources found. This study discusses the extraction method of Indonesian local language dictionaries to produce a machine-readable NLP resource. Starting from collecting dictionary data, designing and experimentation of the extraction method, and evaluating the extraction results. The extraction results are parallel corpus, bilingual lexicon, and words’ morphological form in CSV format from several Indonesian Local Language bilingual dictionaries that are Baso Minangkabau, Sundanese, Moi, Jambinese, Buginese, Balinese, and Acehnese. The designed method is also applied to some other local language dictionaries. Data annotation has been done to evaluate the extraction results so that we can calculate its accuracy of word classification for parallel corpus and bilingual lexicon. Extraction method design focuses on the Minangkabau dictionary which is then applied to other dictionaries. Data annotation has been done to evaluate the extraction results.The evaluation results show that 99% of the extraction results are correct for word classifying in the bilingual lexicon and 88% correct for parallel corpus. We found that the structure of dictionaries varies, so it requires different approaches for each dictionary, for example regarding page numbering. We also found many dictionaries with poor quality. The poor quality is indicated by the number of reading errors due to noise contained in the original dictionary file."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Rahmat Rizkiyanto
"Awan merupakan salah satu objek dalam citra satelit penginderaan jauh sensor optis yang keberadaanya sering kali mengganggu proses pengolahan citra penginderaan jauh. Deteksi awan secara akurat merupakan tugas utama dalam banyak aplikasi penginderaan jauh. Oleh karena itu, deteksi awan secara tepat khususnya pada citra satelit optis resolusi sangat tinggi merupakan suatu pekerjaan yang sangat menantang. Penelitian ini bertujuan untuk mendeteksi objek awan pada data citra satelit penginderaan jauh resolusi sangat tinggi. Penelitian ini menggunakan algoritma deep learning yaitu Convolutional Neural Network (CNN) dan segmentasi Simple Linear Iterative Clustering (SLIC) superpixel untuk mendeteksi objek awan pada citra satelit penginderaan jauh. Penelitian ini menggunakan SLIC untuk mengelompokkan citra ke dalam superpiksel. Penelitian ini juga merancang CNN untuk mengekstrak fitur dari citra dan memprediksi superpiksel sebagai salah satu dari dua kelas objek yaitu awan dan bukan awan. Penelitian ini menggunakan data citra satelit resolusi sangat tinggi Pleiades multispectral dengan resolusi 50 cm. Deteksi awan dilakukan dengan berbagai macam skenario. Hasilnya, metode yang diusulkan mampu mendeteksi objek awan dengan performa akurasi sebesar 91.33%.

Clouds are one of the objects in optical sensor remote sensing satellite images whose presence often interferes with the remote sensing image processing process. Accurate cloud detection is a key task in many remote sensing applications. Therefore, precise cloud detection, especially in very high-resolution optical satellite imagery, is a very challenging task. This study aims to detect cloud objects in very high-resolution remote sensing satellite imagery data. This study uses a deep learning algorithm, namely Convolutional Neural Network (CNN) and Simple Linear Iterative Clustering (SLIC) superpixel segmentation to detect cloud objects in remote sensing satellite images. This study uses SLIC to group images into superpixels. This study also designed a CNN to extract features from the image and predict the superpixel as one of two classes of objects, namely cloud, and non-cloud. This study uses very high-resolution Pleiades multispectral satellite imagery data with a resolution of 50 cm. Cloud detection is carried out in various scenarios. As a result, the proposed method can detect cloud objects with an accuracy performance of 91.33%."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3   >>