HyperAIHyperAI

Command Palette

Search for a command to run...

PaLM-E:身体化されたマルチモーダル言語モデル

概要

大規模言語モデルは、多様な複雑なタスクにおいて優れた性能を発揮する。しかし、ロボティクスなどの実世界における汎用的推論を実現するには、「接地(grounding)」という課題が生じる。本研究では、実世界の連続的なセンサモダリティを直接言語モデルに組み込む「身体化言語モデル(embodied language models)」を提案する。これにより、言語の単語と知覚情報の間に直接的なリンクを構築する。本モデルの入力は、視覚情報、連続的な状態推定情報、テキスト情報を交互に組み合わせたマルチモーダルな文である。これらのエンコーディングは、事前学習済みの大規模言語モデルと連携して、順次的なロボット操作計画、視覚質問応答、キャプション生成といった複数の身体化タスクに対して、エンドツーエンドで学習される。評価結果から、PaLM-Eと呼ばれる単一の大規模身体化マルチモーダルモデルが、多様な観測モダリティ、複数の身体化エージェントにおいて、多様な身体化推論タスクを処理可能であることが示された。さらに、モデルはポジティブな転移効果を示しており、インターネット規模の言語、視覚、視覚言語領域の多様なデータを統合的に学習することで、性能が向上することが確認された。本研究で開発した最大規模のモデル、PaLM-E-562B(パラメータ数562B)は、ロボティクスタスクの学習に加え、OK-VQAにおいて最先端の性能を達成する視覚言語一般化モデルとして機能しており、スケーリングに伴い、汎用的な言語能力も維持している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
PaLM-E:身体化されたマルチモーダル言語モデル | 記事 | HyperAI超神経