11일 전
코어스 투 파인 Q-어텐션: 이산화를 통한 시각적 로봇 조작을 위한 효율적 학습
Stephen James, Kentaro Wada, Tristan Laidlow, Andrew J. Davison

초록
우리는 연속적인 로봇 도메인에서 안정성과 데이터 효율성이 낮은 액터-크리틱 방법 대신, 이산 강화학습 접근법을 사용할 수 있도록 해주는 '거시적에서 미시적'으로의 이산화 방법을 제안한다. 본 방법은 최근 공개된 ARM 알고리즘에 기반을 두며, 연속적인 다음 최적 자세 에이전트를 이산적인 것으로 대체하고, 거시적에서 미시적 Q-어텐션을 도입한다. 볌식화된 장면(voxelised scene)을 기반으로, 거시적에서 미시적 Q-어텐션은 장면의 어느 부분을 '확대'할지를 학습한다. 이러한 '확대' 행동을 반복적으로 적용할 경우, 이동 공간에 대해 거의 손실이 없는 이산화를 달성할 수 있으며, 이는 이산 행동을 가지는 딥 Q-러닝 방법의 적용을 가능하게 한다. 본 연구에서는 제안한 새로운 거시적에서 미시적 알고리즘이 여러 어려운 희소 보상(RLBench) 기반 비전 로봇 작업에서 최고 수준의 성능을 달성함을 보이며, 단 3회의 예시만으로도 실세계 정책을 분초 단위로 훈련할 수 있음을 입증한다.