Transfer learning merupakan pengembangan dari pembelajaran mesin biasa (tradisional) yang dapat diterapkan pada cross-domain. Cross-domain adalah domain yang memiliki perbedaan pada feature space atau pada marginal dan conditional distribution, sehingga sulit ditangani dengan metode pembelajaran mesin biasa. Perbedaan ini banyak terjadi pada kasus computer vision atau pattern recognition seperti untuk mengenali korban bencana alam melalui foto yang diambil dari atas menggunakan drone atau helikopter. Terjadinya perbedaan feature space dan distribusi data ini karena adanya perbedaan sudut, cahaya, dan alat yang berbeda. Kondisi seperti ini semakin menyulitkan untuk dilakukannya klasifikasi gambar terlebih pada domain dengan keterbatasan label. Implementasi transfer learning terbukti dapat memberikan performance yang baik pada banyak kasus, termasuk kasus yang menggunakan dataset gambar.
Dalam transfer learning penting untuk menghindari terjadinya negative transfer learning, sehingga perlu dilakukan pengukuran kesamaan (similarity) antar domain. Penelitian ini menerapkan feature-representation-transfer dan menggunakan Maximum Mean Discrepancy (MMD) untuk mengukur jarak antar feature pada domain yang terlibat di transfer learning. Setelah mengukur kesamaan antar domain, maka akan dilakukan pemilihan feature berdasarkan jarak antar feature. Feature terpilih adalah feature yang mempunyai jarak kurang dari threshold yang ditentukan. Bobot akan diberikan kepada feature terpilih. Selain melakukan pemilihan feature berdasarkan kesamaan domain, metode ini juga melakukan pemilihan feature yang signifikan antar class label dan dalam class label dengan menggunakan ANOVA (Analysis of Variance). Hanya feature yang signifikan yang akan digunakan untuk proses prediksi.
Metode yang diusulkan juga menerapkan inter-cluster class label untuk memperkecil perbedaan conditional distribution. Prinsip kerja inter-cluster class label ini adalah menghitung jarak minimal dari instance pada domain target ke setiap center of cluster class label. Rumus jarak yang digunakan adalah Euclidean Distance. Properti statistik seperti rata-rata dan varians akan digunakan pada metode ini, untuk menggambarkan struktur data lokal dalam setiap domain. Penggunaan rata-rata digunakan untuk menentukan threshold dan pusat cluster class label, sedangkan varians digunakan untuk pemilihan feature yang signifikan. Proses prediksi label dilakukan berdasarkan feature terpilih yang telah diberi bobot dan jarak terpendek setiap instance ke salah satu class label.
Tidak terdapat parameter tambahan dalam fungsi pembelajaran yang diusulkan. Selain itu, proses penentuan label juga dilakukan tanpa iterasi, sehingga memungkinkan metode ini dapat dijalankan dengan keterbatasan resource. Hasil eksperimen menunjukkan bahwa metode yang diusulkan dapat memberikan performance sebesar 46,6%, pada saat menggunakan SVM sebagai classifier dan 51.7% pada saat menggunakan logistic regression. Akurasi yang didapat dengan SVM ini mengimbangi metode feature-representation-transfer sebelumnya. Namun akurasi dari logistic regression sudah dapat mengungguli metode sebelumnya. Hasil ini menunjukkan bahwa penggunaan metode feature selection menggunakan properti statistik yang dikombinasikan dengan pemberian bobot pada feature terpilih dan jarak minimal dapat memberikan hasil akurasi yang baik tanpa memerlukan resource yang besar.
Transfer learning is the extension of traditional machine learning in a cross-domain environment. Cross-domains are domains with different feature spaces or different marginal and conditional distributions. Many real-world cases of computer vision and pattern recognition, such as the surveillance of some victims of natural disasters from above using a drone or helicopter, have these differences. These conditons are difficult to handle with traditional machine learning methods. The differences in feature space or data distribution caused by the existence of different angles, different light, and different tools. All of these situation add difficulty to the classification process, especially in domains with limited labels. The implementation of transfer learning is proven to provide good performance in many cases of cross-domain learning, including cases that use image datasets.In transfer learning, it is important to measure the similarity between domains to avoid negative transfer learning. This study applies feature-representation-transfer and uses Maximum Mean Discrepancy (MMD) to measure the distance between features in the cross-domains and reduce the domain discrepancy. After measuring the similarity between domains, a feature selection will be made based on the distance between the features. Selected features are features that have a distance less than the specified threshold. Weight will be given to the selected features. In addition to selecting features based on domain similarity, this method also selects significant features between class labels and within class labels using ANOVA (Analysis of Variance). Only significant features will be used for the prediction process.The proposed method also applies an inter-cluster class label to minimize the difference in conditional distribution. The inter-cluster class label works by calculating the minimum distance from the instance in the target domain to each center of the cluster class label. The distance formula used is Euclidean distance. Statistical properties such as mean and variance will be used in this method to describe the local data structure in each domain. The average is used to determine the threshold and center of the cluster class label, while the variance is used to select significant features. The label prediction process is carried out based on the selected features that have been weighted and the shortest distance for each instance to one of the label classes.There are no additional parameters in the proposed learning function. In addition, the process of determining the label is also carried out without iteration, thus allowing this method to be run with limited resources. The experimental results show that the proposed method can provide a performance of 46.6% when using SVM as a classifier and 51.7% when using logistic regression. The accuracy obtained from SVM offsets the previous feature-representation transfer learning. However, the accuracy of logistic regression has been able to outperform the previous method. These results indicate that the use of the feature selection method using statistical properties combined with assigning weights to selected features and a minimum distance can provide good accuracy without requiring large resources.