2ヶ月前

コロッセオ:ロボット操作の汎化評価のためのベンチマーク

Wilbert Pumacay; Ishika Singh; Jiafei Duan; Ranjay Krishna; Jesse Thomason; Dieter Fox
コロッセオ:ロボット操作の汎化評価のためのベンチマーク
要約

効果的な大規模な実世界ロボット応用を実現するためには、環境条件の変化に対するロボットポリシーの適応性を評価することが必要です。しかしながら、多くの研究では、訓練セットアップと非常に類似または同一の環境でのロボット性能を評価しています。本稿では、20種類の多様な操作タスクを含む新しいシミュレーションベンチマーク「THE COLOSSEUM」を提案します。このベンチマークは、14つの環境変動軸にわたるモデルの系統的な評価を可能にします。これらの変動は、物体やテーブルトップ、背景の色、質感、サイズの変化だけでなく、照明条件、妨害物(distractors)、物理的特性の変動、カメラ位置の変化も含まれます。THE COLOSSEUMを使用して、5つの最先端操作モデルを比較した結果、これらの変動要因により成功率が30〜50%低下することが明らかになりました。複数の変動が同時に適用されると、成功率は75%以上低下します。特に、妨害物の数や目標物体の色、照明条件の変化がモデル性能に最も大きな影響を与えることが確認されました。当研究結果の生態的妥当性(ecological validity)を検証するために、シミュレーションでの結果が実世界実験における同様の変動と相関していることを示しました($\bar{R}^2 = 0.614$)。私たちはTHE COLOSSEUMを使用するためのオープンソースコードを提供し、「実世界での変動を再現するために使用される3Dプリント物体」を作成するためのコードも公開しています。最終的には、THE COLOSSEUMが操作に関する一般化能力向上につながるモデリング決定を見つけるベンチマークとして機能することを目指しています。詳細についてはhttps://robot-colosseum.github.io/をご覧ください。

コロッセオ:ロボット操作の汎化評価のためのベンチマーク | 最新論文 | HyperAI超神経