18日前
PaLM-E:身体化されたマルチモーダル言語モデル
Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence

要約
大規模言語モデルは、多様な複雑なタスクにおいて優れた性能を発揮する。しかし、ロボティクスなどの実世界における汎用的推論を実現するには、「接地(grounding)」という課題が生じる。本研究では、実世界の連続的なセンサモダリティを直接言語モデルに組み込む「身体化言語モデル(embodied language models)」を提案する。これにより、言語の単語と知覚情報の間に直接的なリンクを構築する。本モデルの入力は、視覚情報、連続的な状態推定情報、テキスト情報を交互に組み合わせたマルチモーダルな文である。これらのエンコーディングは、事前学習済みの大規模言語モデルと連携して、順次的なロボット操作計画、視覚質問応答、キャプション生成といった複数の身体化タスクに対して、エンドツーエンドで学習される。評価結果から、PaLM-Eと呼ばれる単一の大規模身体化マルチモーダルモデルが、多様な観測モダリティ、複数の身体化エージェントにおいて、多様な身体化推論タスクを処理可能であることが示された。さらに、モデルはポジティブな転移効果を示しており、インターネット規模の言語、視覚、視覚言語領域の多様なデータを統合的に学習することで、性能が向上することが確認された。本研究で開発した最大規模のモデル、PaLM-E-562B(パラメータ数562B)は、ロボティクスタスクの学習に加え、OK-VQAにおいて最先端の性能を達成する視覚言語一般化モデルとして機能しており、スケーリングに伴い、汎用的な言語能力も維持している。