Pelacakan orang banyak pada video berdasarkan hasil deteksi orang pada setiap
frame merupakan problem yang menantang karena kompleksitas yang dimilikinya. Kesalahan deteksi orang pada setiap
frame akan menyebabkan kesalahan pelacakan orang pada keseluruhan video. Pada penelitian ini, diusulkan metode pelacakan yang dapat meminimalkan propagasi kesalahan dari kesalahan deteksi dengan waktu pelacakan yang tidak terlalu lama. Penelitian ini menggunakan
deep convolutional neural network (DCNN) seperti Faster-RCNN dan RetinaNet sebagai detektor objek dan algoritma Hungarian sebagai metode asosiasi antar orang-orang yang terdeteksi di setiap
frame. Matriks masukan untuk algoritma Hungarian terdiri dari kedekatan vektor ciri DCNN yang dihasilkan oleh Siamese Network, jarak titik tengah
bounding box, dan perbandingan irisan-gabungan (IoU) dari
bounding box. Pada tahap akhir dilakukan interpolasi terhadap hasil pelacakan. Metode yang diusulkan menghasilkan MOTA 61.0 pada dataset
benchmark pelacakan orang banyak MOT16.
Multiple object (human) tracking in video based on object detection in every frame is a challenging problem due to its complexity. Error in the detection phase will cause error in the tracking phase. In this research, a multiple human tracking method is proposed to minimize the error propagation. The method uses deep convolutional neural network (DCNN) such as Faster-RCNN and RetinaNet as object detector and Hungarian algorithm as association method among detected humans in consecutive frames. The input matrix for Hungarian algorithm consists of the similarity of DCNN feature vector resulted from Siamese network, the distance of bounding box centers, and bounding box intersection of union (IoU). In the last step, interpolation is applied to the tracking result. The proposed method achieves 61.0 MOTA in multiple object tracking benchmark MOT16.