2ヶ月前

ビジョン・アンド・ダイアログ・ナビゲーション

Jesse Thomason; Michael Murray; Maya Cakmak; Luke Zettlemoyer
ビジョン・アンド・ダイアログ・ナビゲーション
要約

人間の環境で移動するロボットは、援助を求めるために言語を使用し、人間の応答を理解できるべきである。この課題を研究するために、私たちはCooperative Vision-and-Dialog Navigation(協調視覚対話ナビゲーション)というデータセットを導入した。これは、シミュレートされた写実的な家庭環境に位置付けられた2000を超える体験的な人間同士の対話を含むデータセットである。ナビゲーター(探査者)はパートナーであるオラクル(情報提供者)に質問をするが、オラクルは最短経路プランナーによるナビゲーターが取るべき最適な次のステップへの特別なアクセス権を持っている。目標地点を見つけ出すための環境探索を行うエージェントを訓練するために、Navigation from Dialog History(対話履歴からのナビゲーション)タスクを定義した。エージェントは、目標物体とその物体を見つけるために人間が協力して行った対話履歴を与えられ、未探索の環境において目標に向かうナビゲーションアクションを推論しなければならない。私たちは初期のマルチモーダルなシーケンス・ツー・シーケンスモデルを確立し、対話履歴のより遠い部分を見ることで性能が向上することを示した。ソースコードとライブインターフェースデモはhttps://cvdn.dev/ で入手可能である。

ビジョン・アンド・ダイアログ・ナビゲーション | 最新論文 | HyperAI超神経