HYDRA:動的複合視覚推論のためのハイパーディスパッチエージェント

視覚的推論(Visual Reasoning, VR)分野における最近の進展、特に大規模視覚言語モデル(Large Vision-Language Models, VLMs)の活用により、有望な成果が得られているが、大規模なデータセットへのアクセスを必要とし、高い計算コストや一般化能力の限界といった課題も抱えている。コンポジショナル(構成的)な視覚的推論アプローチは、効果的な戦略として浮上しているものの、計画や推論、あるいはその両方を実行するために大規模言語モデル(Large Language Models, LLMs)に埋め込まれた常識的知識に強く依存しており、その意思決定が視覚的推論プロセスに与える影響を考慮しない点が問題であり、誤りや推論プロセスの失敗を引き起こす可能性がある。こうした課題に対処するため、本研究では、信頼性の高い、段階的かつ進化的な一般化推論を実現するためのマルチステージ動的構成的視覚推論フレームワーク「HYDRA」を提案する。HYDRAは、計画者(planner)、強化学習(Reinforcement Learning, RL)エージェント(認知コントローラーとして機能)、推論者(reasoner)という3つの主要モジュールを統合している。計画者と推論者モジュールはLLMを用いて、選択された指示(instruction)から実行可能なコードを生成する一方、RLエージェントはこれらのモジュールと動的に相互作用し、フィードバックループによって記録された履歴状態の情報をもとに、最適な指示サンプルの選択という高レベルな意思決定を実行する。この柔軟な設計により、HYDRAは推論プロセス中に得られた過去のフィードバックに基づいて自身の行動を適応的に調整でき、より信頼性の高い推論出力を得ることにつながり、結果として全体的な推論効果を向上させる。本フレームワークは、4つの広く用いられているデータセットにおけるさまざまなVRタスクにおいて、最先端の性能を示した。