Command Palette
Search for a command to run...
Jiaqi Liu Kaiwen Xiong Peng Xia Yiyang Zhou Haonian Ji Lu Feng Siwei Han Mingyu Ding Huaxiu Yao

要約
視覚言語エージェントは、多モーダル推論タスクにおいて顕著な進展を遂げているが、その学習は人間によるアノテーションに基づく監視の限界によって制約されている。近年の自己報酬型アプローチは、モデル自身を評価者または報酬提供者として機能させることで、この制約を克服しようとしている。しかし、純粋にテキストに基づく自己評価は、複雑な視覚的推論ステップの検証に難しく、しばしば評価の幻覚(hallucination)を引き起こす問題がある。こうした課題に対処するため、ツール統合型推論の最近の進展に着想を得て、ツール統合型推論を用いた継続的改善を実現する自己進化型視覚言語エージェント「Agent0-VL」を提案する。Agent0-VLは、ツールの利用を推論にとどまらず、自己評価および自己修復にも統合することで、モデルが証拠に基づく分析を通じて自己内省し、推論を検証・精緻化できるようにしている。本モデルは、単一のLVLM(言語視覚大規模モデル)内に二つの相互補完的な役割を統合する:複数ターンにわたるツール統合推論を実行する「Solver」と、ツールに基づく批判を通じて構造化されたフィードバックおよび細粒度の自己報酬を生成する「Verifier」。これらの役割は、「自己進化推論サイクル」と呼ばれるプロセスを通じて相互作用し、ツールベースの検証と強化学習が協調して、推論と評価の分布を安定的に一致させることで、自己改善を実現する。この外部報酬を一切用いない進化プロセスにより、Agent0-VLは人間のアノテーションや外部報酬モデルを一切必要とせず、推論と検証の行動を自然に整合させ、継続的な自己改善を達成する。幾何問題解決および視覚的科学分析に関する実験において、ベースモデルに対して12.5%の性能向上を達成した。本研究のコードは、https://github.com/aiming-lab/Agent0/Agent0-VL にて公開されている。