2달 전

PolarNet: 언어 안내 로봇 조작을 위한 3D 포인트 클라우드

Shizhe Chen; Ricardo Garcia; Cordelia Schmid; Ivan Laptev

초록

로봇이 자연어 지시를 기반으로 조작 작업을 이해하고 실행하는 능력은 로보틱스 분야의 장기적인 목표입니다. 언어 안내형 조작의 주요 접근 방식은 2D 이미지 표현을 사용하지만, 다중 시점 카메라를 통합하고 정확한 3D 위치 및 관계를 추론하는 데 어려움이 있습니다. 이러한 제한 사항을 해결하기 위해, 우리는 언어 안내형 조작을 위한 3D 포인트 클라우드 기반 정책인 PolarNet(폴라넷)을 제안합니다. 이는 신경하게 설계된 포인트 클라우드 입력, 효율적인 포인트 클라우드 인코더, 그리고 다중 모달 트랜스포머를 활용하여 3D 포인트 클라우드 표현을 학습하고 이를 언어 지시와 통합하여 행동 예측을 수행합니다. PolarNet은 RLBench 벤치마크에서 수행된 다양한 실험에서 효과적이고 데이터 효율적이며, 단일 작업 학습과 다중 작업 학습 모두에서 최신 2D 및 3D 접근 방식보다 우수한 성능을 보였습니다. 또한 실제 로봇에서도 유망한 결과를 달성하였습니다.