VIKI-R: 強化学習を用いた身体化マルチエージェント協調の調整

動的環境における複数の具現化エージェントの調整は、人工知能において依然として主要な課題であり、感覚情報に基づく推論とスケーラブルな協力戦略を必要とします。最近の研究では、多エージェント計画に大規模言語モデル(LLMs)が活用されていますが、視覚言語モデル(VLMs)を用いた視覚的な推論に取り組むものはまだ少数です。しかしながら、これらのVLMベースのアプローチは、多様な具現化タイプへの対応において制限があります。本研究では、具現化された多エージェント協力のために設計された最初の階層型ベンチマークであるVIKI-Benchを導入します。このベンチマークには3つの構造化されたレベルが含まれています:エージェント活性化、タスク計画、軌跡認識。VIKI-Benchは、多様なロボット具現化、マルチビュー視覚観測、および構造化された監督信号を含み、視覚入力に基づく推論を評価するためのものです。VIKI-Benchの有用性を示すために、私たちはVIKI-Rという2段階フレームワークを提案します。このフレームワークは、事前学習済みの視覚言語モデル(VLM)を思考連鎖(Chain-of-Thought)で注釈されたデモンストレーションを使用して微調整し、その後マルチレベル報酬信号のもとで強化学習を行うことで構成されます。私たちの広範な実験結果は、VIKI-Rがすべてのタスクレベルでベースライン手法を大幅に上回ることを示しています。さらに、強化学習によって異なる種類のエージェント間での合成的な協力パターンが出現することも明らかになりました。これら一連の研究成果により、VIKI-BenchとVIKI-Rは具現化AIシステムにおける視覚駆動型多エージェント協力を進めるための一貫したテストベッドと方法を提供します。