1 minute read

End-to-end 강화학습을 통해 이족보행 로봇을 제어하는 최신 연구에 대해 간단하게 소개드리겠습니다. 논문 제목은 “Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control”으로 UC Berkely에서 1월 말에 arXiv에 공개한 연구입니다.

공개하자 마자 트위터에서 굉장한 반응을 일으켰습니다. 본 연구는 동역학 모델 없이 강화학습만으로 이족보행 로봇이 걷기, 달리기, 뛰기 등의 동작을 robust하게 해낼 수 있다는 것을 보여주고 있습니다.

강화학습 연구에서 항상 문제로 대두되는 것은 현실 세계에서 적용이 어렵다는 점입니다. 그런데 본 연구는 강화학습으로 시뮬레이션뿐만 아니라 현실 세계에서 로봇을 강인하게 제어해내는 데 성공했습니다. 다음 영상에서 이를 확인할 수 있습니다.

Cassie(이족보행 로봇)가 end-to-end RL을 통해 robustness를 달성할 수 있었던 세 가지 이유를 뽑으면 다음과 같습니다.

  1. 로봇의 장단기 입력/출력 이력 활용 : 약 2초의 장기 입력/출력 이력을 통해 비행 중 포물선 운동과 같은 움직임에서 시스템을 식별하고 상태를 추정할 수 있으며, 약 0.1초의 단기 입력/출력 이력은 로봇을 실시간으로 제어하고 과거 정보의 가중치를 결정할 수 있습니다. 이렇게 sampling time을 두 가지로 나눠서 고려하는 방법이 이족 보행 제어의 성능을 향상시킬 수 있다는 것을 보여줍니다.
  2. 체계적인 커리큘럼을 통한 다()단계 훈련 전략 : 강화학습은 agent가 환경과 상호작용하면서 보상을 최대화하는 행동 정책을 습득하는 방법론입니다. 논문에서는 로봇이 강인한 정책을 습득할 수 있도록 유도하는 체계적인 커리큘럼을 제시합니다. - reference motion을 제공하여 고정된 명령에 대해 기술을 습득하도록 하는 단일 작업 훈련, 다양한 명령(걷기, 달리기, 뛰기 등)에 대해 다재다능한 정책을 습득하도록 하는 작업 무작위화, 동역학 매개변수를 폭넓게 무작위화하여 다양한 상황에서 robustness를 달성하기 위한 동역학 무작위화.
  3. 다재다능한 하나의 정책 : 다재다능한 하나의 정책은 서 있기, 걷기, 달리기, 뛰기 등 다양한 동작을 해낼 수 있는 정책을 의미합니다. 여러 작업을 수행할 수 있는 단일 다재다능한 정책이 개별 작업에 특화된 정책과 비교해 강건성을 크게 향상시킬 수 있다는 것을 경험적으로 입증합니다.

논문을 처음 봤을 때 end-to-end이라는 단어가 강하게 눈에 들어왔습니다. 저는 Boston dynamics의 Atlas나 MIT의 Cheetah에서와 같이 Model-based 방법론을 좋아하기 때문입니다. 최근 로봇 분야에서 강화학습이 내는 성과에 놀라면서도, 정밀함을 필요로 하는 부문에서 MPC(Model Predictive Control)가 더 유용하다고 생각하고 있었습니다. 이 논문을 계기로 강화학습에 대한 마음이 더 생기게 된 것 같습니다. 앞으로도 강화학습이 로봇 분야에서 재밌는 성과를 많이 내주기를 바랍니다.