2달 전

픽셀에서 계획을 위한 잠재 동역학 학습

Danijar Hafner; Timothy Lillicrap; Ian Fischer; Ruben Villegas; David Ha; Honglak Lee; James Davidson
픽셀에서 계획을 위한 잠재 동역학 학습
초록

플랜닝은 환경 동역학이 알려진 제어 작업에서 매우 성공적으로 활용되었습니다. 그러나 알려지지 않은 환경에서 플랜닝을 활용하기 위해서는 에이전트가 세계와의 상호작용을 통해 동역학을 학습해야 합니다. 하지만, 플랜닝에 충분히 정확한 동역학 모델을 학습하는 것은 특히 이미지 기반 영역에서 오랫동안 해결되지 않는 문제였습니다. 우리는 이미지를 통해 환경 동역학을 학습하고 잠재 공간에서 빠른 온라인 계획을 통해 행동을 선택하는 순수하게 모델 기반의 에이전트인 딥 플래닝 네트워크(Deep Planning Network, PlaNet)를 제안합니다. 높은 성능을 달성하기 위해서는 동역학 모델이 여러 시간 단계에 걸쳐 앞으로의 보상을 정확히 예측해야 합니다. 우리는 결정론적과 확률적 전환 구성 요소를 모두 포함하는 잠재 동역학 모델을 사용하여 이 문제에 접근했습니다. 또한, 우리는 '잠재 과예측(latent overshooting)'이라고 명명된 다단계 변분 추론 목표를 제안합니다. 우리 에이전트는 픽셀 관찰만으로 접촉 동역학, 부분 관측 가능성, 희박한 보상 등을 포함하는 연속 제어 작업을 해결하며, 이러한 작업들은 기존에 학습된 모델로 계획하여 해결되었던 작업보다 난이도가 높습니다. PlaNet은 상당히 적은 에피소드를 사용하며, 강력한 모델 없는 알고리즘보다 최종 성능이 비슷하거나 때로는 더 우수한 결과를 도출합니다.

픽셀에서 계획을 위한 잠재 동역학 학습 | 최신 연구 논문 | HyperAI초신경