:: UI - Skripsi Membership :: Kembali

UI - Skripsi Membership :: Kembali

Sistem Optical Character Recognition Untuk Huruf Arab Pegon = Optical Character Recognition System for Printed Pegon Manuscripts

Muhammad Hanif Fahreza; Yova Ruldeviyani, supervisor; Laksmita Rahadianti, examiner; Syifa Nurhayati, examiner (Fakultas Ilmu Komputer Universitas Indonesia, 2023)

 Abstrak

Aksara Pegon adalah sistem penulisan berbasis Arab yang digunakan untuk menulis bahasa Jawa, Sunda, Madura, dan Indonesia. Karena berbagai alasan, aksara ini telah diturunkan ke ranah kolektor naskah sejarah dan pesantren, sehingga perlu dilestarikan. Salah satu metode pelestarian ini adalah melalui digitalisasi; lebih tepatnya dengan mentranskripsikan isi dari naskah-naskah yang ada ke dalam bentuk teks machine encoded, dimana proses tersebut jika dilakukan secara otomatis disebut juga sebagai OCR, atau Pengenalan Karakter Optik. Sampai saat ini belum ada literatur yang dipublikasikan mengenai sistem OCR untuk aksara ini. Oleh karena itu, penelitian ini bertujuan untuk menjembatani kesenjangan tersebut dengan menyediakan OCR untuk subset tertentu dari naskah Pegon, yaitu naskah Pegon yang dicetak. Penelitian ini memperkenalkan dataset yang disintesis dan yang dianotasi untuk pengenalan teks Pegon cetak. Dataset-dataset ini kemudian digunakan untuk mengevaluasi sistem OCR Arab konvensional yang sudah ada pada domain Pegon, baik versi asli maupun yang dimodifikasi, serta sistem berbasis teknik deep learning yang lebih baru dalam literatur. Hasilnya menunjukkan bahwa teknik deep learning mengungguli teknik konvensional, di mana teknik konvensional gagal mendeteksi teks Pegon sama sekali, sementara sistem yang diusulkan, khususnya menggunakan YOLOv5 untuk segmentasi baris dan arsitektur CTC-CRNN untuk pengenalan teks baris, mencapai nilai F1 sebesar 0,94 untuk segmentasi dan CER 0,03 untuk pengenalan teks.


The Pegon script is an Arabic-based writing system intended for writing the Javanese,
Sundanese, and Indonesian languages. Due to various reasons, this script has been
relegated to the domain of historical manuscript collectors and private Islamic boarding
schools or pesantren, presenting a need for preservation. One of these methods of
preservation is through digitization; more specifically, by transcribing the content of
these existing manuscripts into machine-encoded text, the automated process of which is
referred to as OCR. There has been heretofore no published literature on OCR systems
for this specific script. Hence, this research aims to bridge that gap by providing a
foray into the OCR of a specific subset of Pegon manuscripts, namely of printed Pegon
manuscripts. This research evaluates existing and modified versions of conventional
Arabic OCR systems on the domain of Pegon, as well as the more recent deep learning
techniques in the literature, along with introducing new datasets for use in developing
with said deep learning techniques. The results show the outperformance of these deep
learning techniques over the conventional techniques and with which components of a
Pegon OCR system is proposed.

 File Digital: 1

Shelf
 S-Muhammad Hanif Fahreza.pdf :: Unduh

LOGIN required

 Metadata

No. Panggil : S-pdf
Entri utama-Nama orang :
Entri tambahan-Nama orang :
Entri tambahan-Nama badan :
Subjek :
Penerbitan : Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
Program Studi :
Bahasa : ind
Sumber Pengatalogan : LibUI ind rda
Tipe Konten : text
Tipe Media : computer
Tipe Carrier : online resource
Deskripsi Fisik : xvii, 122 pages ; illustration ; 28 cm + appendix
Naskah Ringkas :
Lembaga Pemilik : Universitas Indonesia
Lokasi : Perpustakaan UI
  • Ketersediaan
  • Ulasan
No. Panggil No. Barkod Ketersediaan
S-pdf 14-24-40850648 TERSEDIA
Ulasan:
Tidak ada ulasan pada koleksi ini: 9999920540170