엔드 투 엔드 센서모터 학습을 위한 신경 동적 정책

현재 감각운동 제어 분야에서 지배적인 패러다임은 이모레이션 또는 강화 학습에 관계없이, 토크, 관절 각도, 또는 엔드-이펙터 위치와 같은 원시 동작 공간에서 직접 정책을 학습하는 것이다. 이는 에이전트가 학습 과정에서 각 타임스텝마다 개별적으로 결정을 내려야 하므로, 연속적이고 고차원적이며 장기적인 과제에 대한 확장성에 한계를 갖는다. 반면, 전통적인 로봇공학 분야에서는 오랫동안 동적 시스템을 정책 표현 방식으로 활용하여 시연을 통해 로봇 행동을 학습하는 기법이 사용되어 왔다. 그러나 이러한 기법들은 딥러닝이나 강화 학습이 제공하는 유연성과 일반화 능력을 결여하고 있어, 여전히 이러한 환경에서 충분히 탐색되지 않은 상태였다. 본 연구에서는 이러한 격차를 시도적으로 메우고, 이차 미분 방정식을 통해 동작 공간을 재매개변수화함으로써, 동적 시스템의 구조를 딥 신경망 기반 정책에 통합한다. 우리는 기존의 정책 학습 방법이 원시 제어 공간에서 동작을 표현하는 것과 달리, 궤적 분포 공간에서 예측을 수행하는 신경 동적 정책(Neural Dynamic Policies, NDPs)을 제안한다. 내재된 구조 덕분에 NDPs는 강화 학습과 이모레이션 학습 모두에 있어 엔드투엔드 정책 학습이 가능하다. 다양한 로봇 제어 과제에서, 이모레이션 및 강화 학습 설정 모두에서 기존의 최상위 성능을 초월하는 효율성과 성능을 보여준다. 프로젝트 영상과 코드는 다음 링크에서 확인할 수 있다: https://shikharbahl.github.io/neural-dynamic-policies/