2ヶ月前

指示駆動の履歴認識ポリシーによるロボット操作

Pierre-Louis Guhur; Shizhe Chen; Ricardo Garcia; Makarand Tapaswi; Ivan Laptev; Cordelia Schmid
指示駆動の履歴認識ポリシーによるロボット操作
要約

人間の環境において、ロボットは単純な自然言語の指示を受けて多様な操作タスクを達成することが期待されています。しかし、ロボットの操作は微細な運動制御、長期記憶、そして未経験のタスクや環境への汎化能力を必要とするため、極めて困難です。これらの課題に対処するため、我々は複数の入力を考慮した統一的なトランスフォーマーに基づくアプローチを提案します。特に、我々のトランスフォーマー構造は(i)自然言語の指示と(ii)多視点シーン観測を統合し、(iii)観測と行動の完全な履歴を追跡します。このようなアプローチにより、履歴と指示との間の依存関係を学習し、複数視点を使用して操作精度を向上させることができます。我々は提案手法を難易度の高いRLBenchベンチマークおよび実世界のロボットで評価しました。特に注目に値するのは、当該手法が74種類もの異なるRLBenchタスクにスケールし、最先端技術を上回ったことです。また、指示条件付きタスクにも対応し、未経験の変異に対する優れた汎化性能を示しています。

指示駆動の履歴認識ポリシーによるロボット操作 | 最新論文 | HyperAI超神経