8ヶ月前

概要

世界と対話できる汎用エージェントの構築は、AIシステムの魅力的な目標であり、これにより具現化ナビゲーションの研究が促進されています。具現化ナビゲーションでは、エージェントが指示に従って移動したり、問い合わせに応答することが要求されます。大きな進歩を遂げているにもかかわらず、これまでの研究は主にタスク固有のエージェントに焦点を当てており、未見のシナリオへの汎用性が欠けています。最近、大規模言語モデル（LLMs）は様々な分野で著しい能力を示し、具現化ナビゲーションにとって有望な機会を提供しています。これを踏まえて、我々は初めての具現化ナビゲーション向け汎用モデルであるNaviLLMを提案します。NaviLLMはスキーマベースの指示を導入することで、大規模言語モデルを具現化ナビゲーションに適応させます。スキーマベースの指示は様々なタスクを生成問題に柔軟に変換することができ、これにより広範なタスクが統一されます。このアプローチにより、我々は異なるデータセットから多様なデータソースを訓練に統合し、NaviLLMが具現化ナビゲーションに必要な幅広い能力を持つようにすることができます。我々は広範な実験を行って、モデルの性能と汎用性を評価しました。実験結果は、CVDN, SOON, ScanQAにおいて当該統一モデルが最先端の性能を達成していることを示しています。特にCVDNにおける目標進行度では、以前の最先端手法に対して29%という大幅な改善を達成しています。さらに、当該モデルは未見のタスクでも強力な汎用性を持ち、体感質問応答や3Dキャプショニングなどの印象的な結果を示しています。

ソースPDF コードを表示