Sektor pariwisata menjadi salah satu sektor yang memiliki banyak potensipemasukan anggaran negara. Salah satu cara untuk meningkatkan pemasukanmelalui sektor pariwisata adalah dengan memanfaatkan teknologi informasi agardapat menarik lebih banyak wisatawan yang datang. Pemanfaatan teknologitersebut adalah dengan menggunakan smart tourism. Implementasi smart tourismyang digunakan pada pariwisata di Indonesia, khususnya untuk objek wisataMonumen Nasional (Monas) adalah dengan memanfaatkan aplikasi telepon pintarberbasis Visual Question Answering (VQA) untuk memberikan informasi detailmengenai objek pariwisata yang sedang diamati dari kamera ponsel. Fokus dariskripsi ini adalah untuk menghasilkan model latihan dengan akurasi deteksi objekyang baik. Hasil dari proses latihan model akan dijadikan sebagai model untukdeteksi objek yang ada di sekitar Monas yang akan digunakan untuk melakukan VQA. Dataset yang digunakan dalam penelitian ini adalah gambar Monas besertaobjek-objek sekitarnya sebanyak 600 gambar dengan label kelas sebanyak 25 kelasobjek. Jaringan yang digunakan untuk melakukan deteksi objek adalah denganmenggunakan YOLO dan RetinaNet, dimana nantinya kedua jaringan ini akandilakukan komparasi dengan mencari skor akhir dari hasil evaluasi kedua modelyang telah dihasilkan. Dengan menggunakan dataset orisinil, pada jaringan YOLO mean average precision (mAP) yang didapatkan dengan rentang nilai confidencelevel threshold 0,1 sampai 0,9 berkisar antara 60,77% sampai 71,99%, sedangkanuntuk jaringan RetinaNet mAP yang didapatkan berkisar antara 72,18% sampai92,98%. Dengan menggunakan dataset augmentasi, pada jaringan YOLO mAPyang didapatkan berkisar antara 52,51% sampai 93,72%, sedangkan untuk jaringanRetinaNet mAP yang didapatkan berkisar antara 23,8% sampai 56,19%. Untuk skorArea Under Curve (AUC) pada dataset orisinil sebesar 0,99 dan 0,96 pada datasetaugmentasi. Berdasarkan hasil eksperimen ini dapat disimpulkan model YOLOdapat mendeteksi lebih baik dibandingkan dengan RetinaNet dan datasetaugmentasi dapat menghasilkan deteksi gambar lebih baik dibandingkan dengandataset orisinil.
Tourism sector has become one of the most potential income for some countires.One of the way to increase income from tourism sector is to implement informationtechnology so it can attract more tourists to come. The technology that can beimplemented is smart tourism. One of the smart tourism implementations forIndonesia tourism, especially for Monumen Nasional (Monas) tourism destinationis mobile based Visual Question Answering (VQA) application that can providedetailed information about tourism object from mobile phone camera. Focus of thisthesis is to produce training model with good detection accuracy. The result of themodel training process will be used as model for object detection model that willbe used for doing VQA. Dataset that will be used for this research are 600 picturescontaining Monas and 25 surrounding objects called class. The networks that willbe used for object detection is using YOLO and RetinaNet, where both of thesenetworks will be compared each other by searching the accuracy from evaluationmetric from both networks. By using original dataset, in YOLO network the meanaverage precision (mAP) score is between 60.77% to 71.99% with 0.1 to 0.9confidence level threshold range and in RetinaNet network the mAP score isbetween 72.18% to 92.98%. By using augmented dataset, in YOLO network themAP score is between 52.51% to 93.72% and in RetinaNet network the mAP scoreis between 23,8% to 56,19%. The Area Under Curve (AUC) score for originaldataset is 0.99 and 0.96 for augmented dataset using YOLO network. Based on theevaluation result, YOLO can detect objects better than RetinaNet and augmenteddataset can produce better detection than original dataset.