16일 전

Open6DOR: 오픈 인스트럭션 6-DoF 객체 재배치 평가 및 VLM 기반 접근법

{He Wang, Zhizheng Zhang, Qiyu Dai, Songlin Wei, Jiazhao Zhang, Xiaomeng Fang, Chaoyi Xu, Haoran Geng, Yufei Ding}
Open6DOR: 오픈 인스트럭션 6-DoF 객체 재배치 평가 및 VLM 기반 접근법
초록

본 연구에서는 테이블탑형 Open-instruction 6-DoF 물체 재배치(Open6DOR)의 벤치마크 및 접근 방식을 선도적으로 구축한다. 구체적으로, 200개 이상의 물체로 구성된 합성 데이터셋을 수집하고, 2,400개 이상의 Open6DOR 작업을 철저히 설계하였다. 이러한 작업들은 타깃 물체의 위치와 회전을 예측하는 데 있어 다양한 몸체화된 에이전트(embodied agents)의 성능을 평가하기 위해 위치 추적(Position-track), 회전 추적(Rotation-track), 6-DoF 추적(6-DoF-track)으로 구분된다. 또한, 일반화 능력과 지시사항 수행 능력의 장점을 활용하면서도 3D 인지 능력과 시뮬레이션 지원을 갖춘 VLM 기반 접근 방식인 Open6DOR-GPT를 제안한다. 제안한 Open6DOR 벤치마크에서 기존 몸체화된 에이전트들과 Open6DOR-GPT를 비교한 결과, Open6DOR-GPT가 최고 수준의 성능을 달성함을 확인하였다. 더불어, 다양한 실제 환경 실험에서 Open6DOR-GPT의 뛰어난 성능을 입증하였다. 우리는 오는 9월 초에 벤치마크의 최종 버전과 개선된 방법론을 공개할 예정이며, 데이터셋을 다운로드하기 전에 이 시점까지 기다리는 것을 권장한다.