Abstrak
Penelitian ini mengeksplorai implementasi sistem kendali tanpa model untuk robot bipedal two-wheeled menggunakan algoritma Promixal Policy Optimization (PPO) reinforcement learning dalam framework pembelajaran robotik Isaac Lab dan bahasa pemrograman Python. Robot dilatih agar dapat menjalankan tugas melewati medan yang ada dengan cara mengemudi atau berjalan. Pada tugas mengemudi, robot menunjukkan kemapuan yang stabil dengan kesalahan pelacakan yang minimal, tetapi kesulitan dalam menjelajahi keseluruhan medan. Sebaliknya, tugas berjalan memberikan kesalahan pelacakan yang cukup tinggi walaupun robot tetap stabil dan melintasi hampir seluruh medan. Hasil ini divalidasi melalui Sim-to-Sim menggunakan platform MuJoCo, yang mengonfirmasi bahwa robot dapat menerapkan hasil pembelajaran tanpa dilatih kembali atau dikenal dengan zero-shot transfer. Meskipun robot dapat menyelesaikannya, tugas berjalan membutuhkan perbaikan lebih lanjut untuk mengurasi kesalahan pelacakan. Secara keseluruhan, penelitian ini memberi wawasan tentang kemampuan PPO dalam menyelesaikan tugas kompleks pada robotik tanpa bergantung pada sistem kontrol berbasis model.
......This research explores the capability of a model-free control system for a bipedal two-wheeled robot using the Proximal Policy Optimization (PPO) reinforcement learning algorithm. The implementation is supported by the Isaac Lab robotic learning framework and the Python programming language. The robot was tasked with performing both driving and walking locomotion while traversing across different terrain conditions. In the driving task, the robot achieved stable performance with minimal velocity tracking errors, though limited terrain traversal. In contrast, the walking task gave higher tracking errors, but the robot maintained stability and traversed the terrain effectively. The results were validated through Sim-to-Sim using the MuJoCo platform, bringing a zero-shot transfer method. While the robot completed both tasks, the walking task requires further improvement to reduce oscillations and achieve lower velocity tracking errors. Overall, this research highlights the capability of PPO in solving complex robotic locomotion tasks without relying on a model-based control system.