Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 28 dokumen yang sesuai dengan query
cover
Fathan Muhammad
"Pengenalan wajah adalah permasalahan fundamental di computer vision. Salah satu solusi permasalahan ini adalah pembelajaran metrik, yang dapat dilakukan dengan metode deterministik atau metode probabilistik. Penelitian ini bertujuan untuk menggabungkan keunggulan model deterministik Proxy Anchor dengan model probabilistik Probabilistic Face Embeddings menjadi suatu model usulan ProxyPE. Selain itu, kami juga mengusulkan kerangka alur prapemrosesan citra wajah untuk citra masukan melalui restorasi wajah dengan GFP-GAN. Dataset citra wajah yang digunakan pada penelitian ini adalah dataset Labelled Faces in the Wild. Pengujian pada model ProxyPE menunjukkan hasil evaluasi yang lebih unggul dengan MAP@R sebesar 8.28, dibandingkan dengan model Probabilistic Face Embeddings dengan MAP@R sebesar 4.58, namun belum sebaik model Proxy Anchor dengan dengan MAP@R sebesar 18.75. Selanjutnya, peningkatan kualitas citra melalui restorasi wajah dengan GFP-GAN secara umum meningkatkan kinerja model usulan. Pengenalan wajah pada ProxyPE yang didahului prapemrosesan citra wajah tersebut menunjukkan peningkatan kinerja dengan MAP@R sebesar 8.74. Secara umum, model usulan ProxyPE dapat mengenali wajah dengan lebih baik daripada Probabilistic Face Embeddings dengan dan tanpa GFP-GAN.

Face recognition is a fundamental problem in computer vision. One solution to this problem is metric learning, that can be done with deterministic methods or probabilistic methods. This research aims to combine the advantages of the deterministic Proxy Anchor model and the Probabilistic Face Embeddings model, into the proposed ProxyPE model. In addition, we also propose an image preprocessing framework for input images by restoring faces using GFP-GAN. The dataset of face images used in this research is the Labelled Faces in the Wild dataset. Evaluation on the ProxyPE model shows better results with MAP@R of 8.28, compared to the Probabilistic Face Embeddings model’s MAP@R of 4.58, but not as good as the Proxy Anchor model’s MAP@R of 18.75. Furthermore, improving image quality through face restoration with GFP-GAN generally improves our model’s performance. Face recognition on ProxyPE preceded by preprocessing face images results in a performance improvement with MAP@R of 8.74. Overall, the proposed ProxyPE model achieves better performance than Probabilistic Face Embeddings with and without GFP-GAN."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jonathan Edwin
"Citra berkabut disebabkan oleh partikel mikro di udara yang menyerap atau memantulkan gelombang elektromagnetik. Hasil citra yang didapat akan buram atau kehilangan informasi secara detail. Penelitian ini bertujuan untuk menganalisis pengaruh kabut terhadap citra hyperspectral termasuk wavelength dependence, perubahan hue, dan ekstraksi informasi warna. Selain itu, penelitian ini akan membandingkan hasil dehazing pada citra spektral berkabut dengan citra spektral yang ditransformasi menjadi citra RGB. Hasil penelitian menunjukkan bahwa pengaruh kabut pada citra spektral adalah wavelength dependent. Selanjutnya perubahan kabut hampir sama sekali tidak signifikan perubahan pada hue tetapi perubahan terlihat dengan jelas pada intensitas citra. Visualisasi warna citra hyperspectral perlu dilakukan koreksi terhadap jarak wavelength untuk menghasilkan citra RGB yang baik. Selain itu, hasil dehazing pada citra hyperspectral lalu divisualisasi warna dengan metode CLTR berhasil memulihkan warna pada citra dibandingkan dehazing terhadap citra RGB.

Hazy images are caused by microparticles in the air absorbing or reflecting electromagnetic waves. The resulting image will be blurry or lose detailed information. This study analyzes the effect of fog on the hyperspectral image, including wavelength-dependence, hue changes and color information extraction. This study will also compare the results of dehazing on a hazy hyperspectral image with a spectral image transformed into an RGB image. The results showed that the effect of fog on the spectral image is wavelength dependence. Furthermore, the change in fog is almost completely insignificant for the shift in hue. Still, the difference is clearly visible in the intensity of the image. Hyperspectral image color visualization needs to be corrected to the distance wavelength to produce an excellent RGB image. Besides, the results of dehazing on a hyperspectral image and then visualized by the CLTR method succeeded in restoring the color in the image compared to dehazing against an RGB image."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Femilia Hardina Caryn
"Salah satu faktor manusia yang dapat menyebabkan kecelakaan lalu lintas adalah pengemudi yang mengantuk dan tidak fokus pada jalan yang ada di hadapannya. Tanda-tanda pengemudi yang mengantuk dapat diamati berdasarkan tiga pengukuran, yaitu uji kinerja, uji fisiologis, dan uji perilaku. Karena uji fisiologis dan kinerja cukup sulit dan mahal untuk dilaksanakan, maka uji perilaku masih menjadi pilihan yang baik untuk digunakan dalam mendeteksi rasa kantuk sejak dini. Salah satu perilaku manusia yang bisa diamati untuk mendeteksi kantuk adalah gerakan mata. Oleh karena itu, penelitian ini akan merancang suatu model untuk mendeteksi rasa kantuk pengemudi secara otomatis berdasarkan uji perilaku yang menganalisis aktivitas mata. Model yang diusulkan akan mendeteksi area mata dan kedipan berdasarkan citra wajah pengemudi menggunakan model deep learning Mask Region Convolutional Neural Network (Mask R-CNN). Kemudian, data kedipan dari masing-masing urutan gambar akan dikalkulasi menggunakan Percentage of Eyelid Closure (PERCLOS) untuk mendeteksi apakah pengemudi dalam keadaan mengantuk atau waspada. Hasil dari penelitian ini menunjukkan hasil akurasi sebesar 0,70. Selain itu, diperoleh nilai precision, recall, dan F1 score dari model Mask R-CNN yaitu 0,667 untuk precision, 0,80 untuk recall, serta 0,727 untuk F1 score.

One of the human factors that can cause traffic accidents are the drowsy drivers that do not focus on the road before them. The signs of a drowsy driver can be observed based on three measurements; performance test, physiological test, and behavioural test. Since the physiological and performance test are quite difficult and expensive to implement, the behavioural test is still a good choice to use for detecting early drowsiness. One of the human behaviours that can be observed is the eye movement. Therefore, this study will design a model for automatically detecting driver drowsiness based on a behavioural test, which analyses the eye activity. The proposed model will detect the eye area and state based on drivers’ face images using Mask Region Convolutional Neural Network (Mask R-CNN) deep learning model. Then, the blink data from each image sequence will be calculated using Percentage of Eyelid Closure (PERCLOS) to detect whether the driver is in a drowsy or alert state. The result of this research shows an accuracy score of 0,70. Besides that, the precision, recall, and F1 score are also obtained from the Mask R-CNN model, namely 0,667 for precision, 0,80 for recall, and 0,727 for F1 score."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Muhammad Irfan Amrullah
"Metode daltonization merupakan salah satu metode image enhancement yang dapat membantu persepsi citra bagi orang-orang yang memiliki buta warna merah. Proses daltonization adalah sebuah proses untuk mengubah warna pada citra menjadi warna yang dapat dibedakan oleh orang-orang yang memiliki buta warna. Pada penelitian ini algoritma daltonization diaplikasikan terhadap berbagai kategori citra berwarna, yaitu Ishihara Test, objek sehari-hari, dan permainan komputer. Pada penelitian ini, kami mengimplementasikan optimisasi pada algoritma daltonization dan membandingkan hasilnya dengan algoritma sebelum dioptimisasi. Hasil penelitian ini menunjukkan berdasarkan dari nilai ∆E color difference algoritma hasil modifikasi berhasil dalam membuat perbedaan warna pada citra bagi orang-orang yang memiliki buta warna merah dibandingkan algoritma awal. Selain itu, berdasarkan nilai Mean Opinion Score (MOS) dengan skala Absolute Category Rating (ACR) performa dari algoritma-algoritma ini terbagi dua. Algoritma daltonization hasil modifikasi meraih nilai lebih tinggi untuk responden yang memiliki buta warna merah total atau Protanopia. Untuk responden yang memiliki buta warna merah parsial atau Protanomali, algoritma daltonization yang telah dioptimisasi masih menemui kendala dalam meningkatkan kualitas citra objek sehari-hari dan permainan komputer, namun sudah berhasil membantu mereka dalam membedakan citra Ishihara Test.

Daltonization is one methods that is helpful in aiding color image perception for people with red color vision deficiency (CVD). Daltonization is a process to change colors in an image to colors that can be differentiated by people with CVD. In this study, a previously proposed daltonization algorithm was applied to various types of images, i.e., Ishihara Test, daily life objects, and game screenshots. The daltonization algorithm was then optimized and its results were compared to the daltonization algorithm before being optimized. The results showed that based on ∆E color difference, the optimized daltonization algorithm was successful in increasing the color differences to a notable difference for people with red CVD compared to its initial version. Furthermore, the results by Mean Opinion Score (MOS) and Absolute Category Rating (ACR) scale showed that the optimized daltonization algorithm obtained a higher score, meaning it was preferred by respondents with full red CVD or Protanopia. For respondents with partial red CVD or Protanomaly, the optimized algorithm met difficulties in enhancing the daily life objects and game screenshots images, but was effective in helping them to differentiate colors in Ishihara Test images."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Esti Merindasari
"

Pengenalan emosi dasar melalui ekspresi wajah menjadi domain penelitian yang berkembang saat ini. Berbagai metode machine learning telah digunakan untuk permasalahan ini. Dewasa ini, metode deep learning terbukti lebih robust untuk penyelesaian domain pengenalan emosi dasar. Salah satu metode deep learning yang dapat digunakan adalah deep belief network-deep neural network (DBN). Metode ini sebelumnya berhasil diujikan untuk pengenalan citra CIFAR-10 dan MNIST, namun masih belum digunakan untuk dataset citra emosi wajah. Oleh karena itu, pada penelitian ini, kami menggunakan DBN-DNN untuk pengenalan emosi dasar. DBN-DNN diujikan dengan 2 (dua) skema eksperimen yakni DBN-DNN dimensi penuh dimensi tereduksi. Hasil dari kedua skema menunjukkan bahwa DBN-DNN berhasil diujikan pada dataset citra wajah MUG, CK+, dan IMED untuk pengenalan 7 (tujuh) kelas emosi dasar yaitu marah, jijik, takut, senang, netral, sedih, dan terkejut. Skema DBN- DNN dimensi penuh, berhasil mendapatkan akurasi pengenalan emosi dasar pada citra wajah dataset MUG sebesar 94.07%, dengan waktu komputasi yang cukup lama yakni 7 jam 13 menit. Berbeda halnya dengan pengenalan DBN- DNN dimensi penuh pada citra wajah dataset CK+ dan MUG, meskipun waktu yang dibutuhkan saat pengenalan cukup singkat yakni 11 menit untuk  CK+ dan 7 menit untuk IMED, akurasi yang didapatkan masih cukup kecil yakni 40.64% untuk CK+ dan 44.43% untuk IMED. Kecilnya akurasi pengenalan CK+ dan IMED, dipengaruhi oleh jumlah data yang kurang banyak, berbeda dengan MUG yang mencapai 9805 data. Sehingga, DBN-DNN kurang optimal dalam melakukan proses pembelajaran pada kedua dataset tersebut, CK+ dan IMED. Sedangkan, pada skema DBN-DNN dimensi tereduksi, akurasi berhasil meningkat baik untuk pengenalan pada dataset MUG, CK+ dan IMED. Akurasi pengenalan pada MUG mencapai 94.75%, CK+ 52.84%, dan IMED 56.58%. Waktu komputasi yang diperlukan dalam pengenalan pun juga lebih efisien khususnya pada dataset MUG, menjadi 3 jam 45 menit termasuk proses reduksi dimensi SVD di dalamnya. Hal ini berbeda untuk dua dataset lain, CK+ dan IMED, keduanya membutuhkan waktu cukup lama untuk proses reduksi dimensi karena SVD menggunakan jumlah dimensi 16384 untuk mendekomposisi matriks. Namun, jika waktu yang digunakan untuk proses DBN-DNN nya saja relatif lebih singkat dari DBN-DNN dimensi penuh, yakni 2 menit untuk CK+ dan 1 menit untuk IMED.

 


Facial emotion recognition using facial expression has been popular in these past years. There are many machine learning methods used for recognition tasks.  Currently, the most robust method for this domain is deep learning. One type of deep learning method that can be used is the deep belief network – deep neural network (DBN-DNN). Although DBN-DNN has been used for recognizing CIFAR-10 and MNIST datasets, it has not yet been used for facial emotion recognition. Hence, in this research, we attempt to use the DBN-DNN for recognizing facial emotions. This research consists of two experimental schemes, DBN-DNN with full dimension and DBN-DNN with the reduced dimension. The result of these experiments shows that using the MUG facial emotion dataset, DBN-DNN has successfully recognized 7 (seven) classes of basic emotions, angry, disgust, fear, happy, neutral, sadness, and surprise. DBN- DNN with full dimension has successfully reached 94.07% accuracy for recognizing 7 ( seven) basic emotions from the MUG dataset, even the run time needed is not efficient, 7 hours and 13 minutes. Meanwhile, the CK+ dan IMED dataset is not quite good at accuracy, even the run time is quite short, 11 minutes for CK+ dataset and 7 minutes for the IMED dataset. The accuracy for the CK+ dataset reaches 40,64% and 44.43% for the IMED dataset. This accuracy occurs because of the lack number of data that is processed by DBN-DNN. DBN-DNN is good at a lot of the number of data, like MUG with 9805 data. On the other hand, DBN-DNN with reduced dimension has successfully reached higher accuracy for MUG (94.75%), CK+ (52.84%) and IMED (56.58%) The run time also more efficient, especially on MUG Dataset (3 hours and 45 minutes). But, CK+ and IMED need a longer time for finishing the dimensionality reduction with SVD. Its because the number of dimensions processed by SVD uses a full dimension of the matrix, 16384. Hence, it needs more time to run the SVD. But, the time need for processing DBN-DNN after finishing the SVD, only need 2 minutes for CK+ dataset and 1 minute for IMED dataset.

 

"
T54428
UI - Tesis Membership  Universitas Indonesia Library
cover
Rizal Maulana
"White Matter Hyperintensities (WMHs) merupakan neuroradiological features yang dapat dilihat pada T2-FLAIR brain MRI sebagai bagian putih (hyperintensities) dan merupakan karakteristik dari small vessel disease (SVD). Informasi detail terkait WMHs (lokasi, volume, dan distribusi) sangat diperlukan untuk membantu penanganan pasien. Akan tetapi melakukan segmentasi otomatis pada WMHs merupakan tantangan tersendiri karena ukuran, bentuk, dan letak WMHs yang tidak menentu. Hasil evaluasi dapat berubah bila test set berasal dari dataset yang berbeda dari train set, karena setiap dataset akan memiliki karakteristik yang berbeda. Penelitian ini mengusulkan model bernama Probabilistic Multi-compound Transformer (Probabilistic MCTrans) yang menggantikan model U-Net pada Probabilistic U-Net menjadi model MCTrans. Secara penelitian sebelumnya, model MCTrans dapat menyelesaikan permasalahan long-range dependencies dan model Probabilistic U-Net dapat menangkap ambiguitas dari citra medis, serta akan melakukan evaluasi cross-dataset robustness untuk mengetahui performa model bila train set berbeda sumber dari test set. Dari hasil evaluasi menunjukan bahwa Probabilistic MCTrans memiliki performa yang lebih rendah dibandingkan dengan Probabilistic U-Net. Akan tetapi Probabilistic MCTrans memiliki performa lebih baik dibandingkan dengan MCTrans. Hal tersebut dapat terjadi karena ambiguitas yang ditangkap Probabilistic MCTrans lebih banyak dari Probabilistic U-Net dan ambiguitas banyak terjadi di border WMHs. 

White Matter Hyperintensities are neuroradiological features that often seen in T2-FLAIR brain MRI as hyperintensities and characteristic of small vessel disease (SVD). Detailed information of WMHs (i.e. location, volume, and distribution) are needed in clinical research to help treat patients. However, automatic segmentation on WMHs is still challenging due to uncertain volume, shape, and location of WMHs. Evaluation results may change if test set came from different dataset as train set, because every dataset have their own characteristic. In this study, we propose a model called Probabilistic Multi-compound Transformer (Probabilistic MCTrans), that replace U-Net from Probabilistic U-Net’s with MCTrans. In previous study, model MCTrans can solved long-range dependencies problem and model Probabilistic U-Net can capture ambiguity in biomedical image, also we would like to evaluate on cross-dataset robustness to determine performance model when the train set differs in source from the test set. The evaluation results show that Probabilistic MCTrans has a lower performance than Probabilistic U-Net. However, Probabilistic MCTrans has better performance than MCTrans. Furthermore, the ambiguity captured by Probabilistic MCTrans is more than Probabilistic U-Net and the ambiguity is around the border of WMHs. "
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Muhammad Ariq Basyar
"Penggunaan perangkat Internet of Things (IoT) semakin meluas ke berbagai sisi kehidupan manusia. Oleh karena itu, semakin dibutuhkan pendekatan yang efektif untuk mengolah banyaknya data yang dihasilkan. Cloud computing dipercaya sebagai salah satu solusi untuk mengolah data pada jaringan internet dengan sumber daya yang ”tak terbatas”. Namun, hal ini memunculkan isu bandwidth yang terbatas ketika harus mengirimkan data yang besar dengan cepat ke cloud. Stream processing membantu dalam mengolah data yang datang dengan cepat setiap waktu. Fog computing merupakan paradigma pengolahan data pada perangkat yang dekat dengan sistem lokal sebelum diteruskan ke cloud. Penggunaan fog computing dengan stream processing membantu pengolahan data di lokal menjadi lebih efektif. Tidak hanya pemilihan paradigma komputasi, pemilihan model komunikasi untuk stream processing merupakan hal yang penting. Penggunaan Apache Kafka sebagai stream processing platform mendukung model komunikasi FogVerse. Apache Kafka mendukung FogVerse untuk mengolah data yang besar dan cepat, khususnya untuk sistem smart-CCTV. smart-CCTV merupakan salah satu contoh sistem yang membutuhkan pengolahan data yang bersifat besar dan cepat. Upaya untuk mendukung hal tersebut dilakukan dengan mengintegrasikan algoritma preprocessing. Pada penelitian ini, diusulkan pendekatan fog computing melalui empat skenario yang berisi kombinasi fog dan cloud untuk sistem smart-CCTV. Skenario 1 menggunakan Jetson Nano yang terhubung langsung dengan kamera sekaligus pengguna. Skenario 2 menggunakan komponen Jetson Nano dan kamera yang terhubung dengan Kafka lokal. Skenario 3 menggunakan kamera lokal dan mesin di cloud yang terhubung dengan Kafka cloud. Skenario 4 menggunakan fog dan cloud dengan implementasi preprocessing yang terhubung dengan Kafka lokal dan cloud. Evaluasi menghasilkan kesimpulan bahwa Skenario 2 memberikan framerate yang tinggi, delay yang rendah, serta memberikan peluang skalabilitas pada sistem.

The use of Internet of Things (IoT) devices has spread to almost all aspects of human life. This has resulted in an increased need for a distributed system management of IoT devices to process the large amounts of data. Cloud computing is one solution that is often used to process this data on the internet with unlimited resources. However, this results in a bandwidth issue when a large amount of data needs to be sent quickly to the cloud. Stream processing can help process the data that is sent continuously. Fog computing is a paradigm in which the data processing is done on a device close to the local system before forwarding the data to the cloud. Fog computing with stream processing help local data processing become more effective. Aside from the computation paradigm, the model communication for stream processing must be selected carefully. In this research, FogVerse is proposed with Apache Kafka as a stream processing platform for the communication model. Apache Kafka supports FogVerse to process the large amounts of data quickly, specifically for a smart-CCTV system. Smart-CCTV is an example of a system that needs quick processing for a lot of data. The technique to support that is done using data preprocessing. This study compares fog computing for smart-CCTV through four scenarios using a combination of fog and cloud. Scenario 1 uses a Jetson Nano that connected directly to the camera and users. Scenario 2 uses a Jetson Nano and camera connected through local Kafka. Scenario 3 uses local camera and cloud server connected through cloud Kafka. Scenario 4 uses fog and cloud with preprocessing technique connected through local and cloud Kafka. The results show that Scenario 2 gives a high framerate, low delay, and shows the most potential for system scalability."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jahroo Nabila Marvi
"Sifat lingkungan bawah air yang kompleks menjadi sebuah tantangan untuk analisis citra bawah air. Citra bawah air sering mengalami distorsi warna dan visibilitas buruk karena penyerapan dan penghamburan. Hal ini menyebabkan kualitas citra menjadi buruk dan sulit dimengerti, sehingga membuat sistem analisis citra sulit diterapkan di bawah air. Banyak metode yang telah dikembangkan untuk mengatasi tantangan ini. Akan tetapi, setiap metode memiliki keterbatasannya masing-masing. Metode konvensional, seperti metode berbasis physical dan non-physical, sering kali tidak cukup untuk mencakup beragam kondisi bawah air. Sementara itu, metode deep learning cenderung memiliki beban komputasi berat. Metode ini juga berpotensi untuk tidak dapat beradaptasi pada data yang berbeda karena parameter yang sudah tetap setelah pelatihan. Untuk mengatasi keterbatasan kedua metode, penelitian ini mengadopsi pendekatan hybrid GL-Net+CHE yang merupakan model restorasi yang menggabungkan metode konvensional dan deep learning. Modifikasi dari model tersebut, Mod GL-Net+CHE, dilakukan pada komponen deep learning. Dari hasil evaluasi kuantitatif pada data uji UIEB, Mod GL-Net+CHE memperoleh nilai terbaik dengan SSIM 0.9015, PSNR 21.6835, dan 00 9.4205. Namun, berdasarkan hasil evaluasi kualitatif pada data UIEB dan uji robustness pada data UCCS, perbedaan antara model baseline (GL-Net+CHE) dan model modifikasi (Mod GL-Net+CHE) tidak signifikan. Pada ablation studies, ditemukan bahwa hasil kuantitatif Mod GL-Net+CHE lebih baik ketika hanya menggunakan komponen deep learning saja. Akan tetapi, observasi dari beberapa sampel menunjukkan bahwa hasil kuantitatif tidak selalu merefleksikan hasil kualitatif. Hingga saat ini, membandingkan performa model restorasi dan mengukur kualitas citra masih menjadi tantangan.

The complex nature of underwater environments poses a challenge in underwater image understanding. Underwater images often have color distortion and poor visibility due to absorption and scattering. These phenomenons negatively affect the quality and the interpretability of the images, which becomes a hindrance in underwater vision-related tasks. Many methods have been developed to overcome this problem. However, each of them has its own limitations. Conventional methods, such as physical-based and non-physical based, are often not sufficient enough to cover a wide variety of underwater scenes. Deep learning methods, on the other hand, have a heavy computational cost. It might also be unable to adapt to different datasets due to its fixed parameters after training. To overcome the limitations of both approaches, this research adopts a hybrid approach, GL-Net+CHE, a restoration model that combines conventional and deep learning methods. A modification of this model, named Mod GL-Net+CHE, is proposed, which modifies the deep learning component of the baseline model. Based on the quantitative evaluation on the UIEB dataset, Mod GL-Net achieves the best SSIM, PSNR, and ΔE00 with value 0.9015, 21.6835, and 9.4205 respectively. However, based on the qualitative evaluation, there are no significant differences between the baseline and modified model. Ablation studies also show that Mod GL-Net+CHE performs better when only the deep learning component is used. However, further observation shows that quantitative results do not always reflect qualitative result. To this day, comparing the performance of underwater images restoration models and measuring the quality of underwater images remains challenging."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Arief Pratama
"Sebagai salah satu industri terbesar di dunia, pemasaran fashion pada platform ecommerce menarik jutaan pengguna setiap harinya. Salah satu fitur yang penting untuk dimiliki platform ecommerce adalah kemampuan mencari produk fashion menggunakan foto pengguna sebagai query. Hasil pencarian yang akurat akan memberikan manfaat bagi pengguna dan bagi pelaku bisnis. Persoalan ini sangat menantang karena adanya perbedaan domain antara citra query yang diunggah pengguna dengan citra galeri produk yang menjadi target pencarian. Perolehan citra lintas domain dapat diselesaikan dengan metode konvensional seperti pemelajaran metrik menggunakan dataset berlabel. Namun metode ini tidaklah feasible dalam jangka panjang mengingat selalu bertambahnya inovasi di bidang fashion sehingga dibutuhkan anotasi terhadap citra yang berkesinambungan agar model tetap relevan. Pada penelitian ini diusulkan penggunaan self-supervised learning untuk meningkatkan kebermanfaatan data tanpa label dan mengurangi ketergantungan terhadap data berlabel. Pelatihan dengan metode ini menghasilkan sebuah encoder CNN dengan arsitektur ResNet-50, yang dilatih dengan sekumpulan citra tidak berlabel, agar mampu menghasilkan fitur umum dari citra. Model ini kemudian di-finetune dengan data berlabel agar mampu melakukan downstream task, yaitu perolehan citra lintas domain. Untuk meningkatkan hasil perolehan, dilakukan structural matching menggunakan Wasserstein distance (optimal transport) terhadap fitur spasial luaran encoder CNN pada saat inference dan finetuning. Selain itu, structural matching juga dapat menjelaskan bagian mana dari citra yang berkontribusi atas keseluruhan kesamaan atau jarak. Hasil menunjukkan bahwa kinerja encoder yang dilatih dengan self-supervised learning secara kuantitatif masih belum melampaui kinerja encoder baseline ImageNet, dengan perbedaan 1-2% dari sisi akurasi dan mAP menggunakan Triplet Loss, dan 6-10% dengan InfoNCE. Structural matching secara umum dapat meningkatkan hasil perolehan pada encoder yang dilatih dengan self-supervised learning. Hasil kualitatif menunjukkan bahwa semua varian model mampu mencari citra yang mirip dengan query, baik dari sisi kategori, warna, bentuk, dan motif.

Being one of the largest industries in the world, fashion marketing on ecommerce platforms attracts millions of users every day. One of the essential features for an ecommerce platform is the ability to retrieve fashion items using user photos as queries. Good search results will yield benefits for users and for businesses. This problem is challenging due to the domain differences of the query images uploaded by the users and of product gallery images as retrieval targets. Cross-domain image retrieval can be accomplished by conventional methods such as metric learning using labeled datasets. However, this method is not feasible in the long term since innovations in this sector are fast such that continuous image annotations are required for the model to stay relevant. In this study, we propose to use self-supervised learning to increase usefulness of unlabeled data and to reduce dependency on labeled data. Training with this method produces a CNN encoder with ResNet-50 architecture, trained on a collection of unlabeled images, to infer generic features of images. The model is then finetuned with labeled data so that it can perform the downstream task, which is cross-domain image retrieval. To improve retrieval results, we performed structural matching by calculating Wasserstein distance (optimal transport) using spatial features inferred from CNN encoder during inference and finetuning. In addition, structural matching can also explain which parts of two images contribute to overall similarity or distance. Results show that an encoder trained with self-supervision quantitatively has not yet outperformed off-the-shelf ImageNet encoder baseline, with a difference in terms of accuracy and mAP of 1-2% for Triplet Loss, and 6-10% for InfoNCE. Generally, structural matching can improve retrieval results for self-supervised encoders. Qualitative results show that all model variants are able to retrieve images similar to the query, in terms of categories, colors, shapes, and patterns."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Salomo, Roy Godsend
"Citra buram atau blur dapat terjadi akibat gerakan objek, lensa kamera alat akuisisi yang kehilangan fokus, atau getaran saat akuisisi citra. Buram membuat citra menjadi kurang tajam dan tidak fokus pada beberapa bagian pada citra. Buram pada citra mengakibatkan terjadinya penurunan kualitas dan informasi citra sehingga menyebabkan penurunan performa aplikasi computer vision seperti deteksi objek, identifikasi objek, dan klasifikasi. Hal tersebut membuat banyak dikembangkan penelitian restorasi citra buram untuk mengembalikan kualitas citra yang terdegradasi, mulai dari penggunaan metode konvensional hingga metode berbasis pembelajaran mesin. Pada penelitian ini, penulis menggunakan model Swin Transformer UNet dalam merestorasi citra buram. Model ini berbasis Swin Transformer yang diintegrasikan dengan arsitektur UNet. Data citra yang digunakan dalam penelitian ini adalah dataset buram Dual-pixel Defocus Debluring(DPDD) dan Real Depth Of Field(RealDOF). Analisis dilakukan terhadap hasil restorasi citra model secara kuantitatif dan kualitatif. Selain itu, , penulis juga melaksanakan analisis cross dataset untuk melihat kemampuan generalisasi model. Hasil restorasi dibandingkan dengan hasil restorasi model Iterative Filter Adaptive Network(IFAN) yang dianggap sebagai state-of-the-art dalam merestorasi citra buram. Evaluasi hasil restorasi Swin Transformer UNet menunjukkan bahwa model tersebut berhasil mendeteksi daerah buram pada citra dengan baik namun hasil restorasi yang didapat belum sebaik hasil restorasi pada model IFAN dalam merestorasi citra buram pada dataset yang digunakan.

Blurred images can occur from the motion of the photographed object, the camera lens of the acquisition tool losing focus, or vibration during image acquisition. Blurring makes the image less sharp and unfocused on some parts of the image. Blur in images results in a decrease in image quality and information, causing a decrease in the performance of computer vision tasks such as object detection, object identification, and classification. This has led to the development of many deblurring image restoration studies to restore the quality of degraded images or image restoration, ranging from the use of conventional methods to machine learning-based methods. In this research, the author uses the Swin Transformer UNet model to restore blurry images. This model is based on Swin Transformer integrated with UNet architecture. The images used in this research come from the Dual-pixel Defocus Debluring (DPDD) and Real Depth Of Field (RealDOF) blur image datasets. The image restoration results are analyzed quantitatively and qualitatively. Additionally, the author also conducts a cross-dataset analysis to see the generalization potential of the model. The restoration results were compared with the restoration results of the Iterative Filter Adaptive Network (IFAN) model which is considered as state-of-the-art in image deblurring. The evaluation of the Swin Transformer UNet restoration model shows that the model successfully detects blurred regions in the image well but the restoration results obtained are not as good as the restoration results in the IFAN model in restoring blurred images on the dataset used."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3   >>