12日前

Open6DOR:オープンインストラクションによる6-DoFオブジェクト再配置のベンチマークおよびVLMベースのアプローチ

{He Wang, Zhizheng Zhang, Qiyu Dai, Songlin Wei, Jiazhao Zhang, Xiaomeng Fang, Chaoyi Xu, Haoran Geng, Yufei Ding}
Open6DOR:オープンインストラクションによる6-DoFオブジェクト再配置のベンチマークおよびVLMベースのアプローチ
要約

本研究において、卓上型オープンインストラクション6自由度物体再配置(Open6DOR)のベンチマークおよびアプローチの先駆的構築を進めました。具体的には、200以上の物体から構成される合成データセットを収集し、2400以上のOpen6DORタスクを丁寧に設計しました。これらのタスクは、ターゲット物体の位置と回転を予測する際の異なるエムボディッドエージェントの評価を目的として、位置追跡(Position-track)、回転追跡(Rotation-track)、6自由度追跡(6-DoF-track)の3つのカテゴリに分類されています。さらに、本研究では、一般化能力およびインストラクション従従性を活かしつつ、3次元認識能力とシミュレーション支援をGPT-4Vに付与するVLMベースのアプローチ、Open6DOR-GPTを提案しました。提案されたOpen6DORベンチマーク上で既存のエムボディッドエージェントとOpen6DOR-GPTを比較した結果、Open6DOR-GPTが最先端の性能を達成することが確認されました。さらに、多様な現実世界実験においても、Open6DOR-GPTの優れた性能を示しました。今後、ベンチマークの最終版および改良された手法を9月初旬に公開予定であり、データセットのダウンロードについては、その時点までお待ちいただくことを推奨いたします。

Open6DOR:オープンインストラクションによる6-DoFオブジェクト再配置のベンチマークおよびVLMベースのアプローチ | 最新論文 | HyperAI超神経