Command Palette
Search for a command to run...
オープンビジョンリーズナー:言語認知行動の視覚的推論への転送
オープンビジョンリーズナー:言語認知行動の視覚的推論への転送
概要
大規模言語モデル(LLMs)の卓越した推論能力は、検証可能な報酬を通じて強化される認知行動から生まれています。本研究では、この原理をマルチモーダル言語モデル(MLLMs)に転送し、高度な視覚的推論を解錠する方法を探ります。Qwen2.5-VL-7Bを基盤として、二段階のパラダイムを導入します。まず、大規模な言語的な冷スタート微調整を行い、その後、ほぼ1,000ステップに及ぶマルチモーダル強化学習(RL)を行います。これはこれまでのオープンソースの取り組みの中で最大規模のものです。この先駆的な研究により、以下の3つの基本的な洞察が明らかになりました:1) 言語的メンタルイメージにより、冷スタート初期段階で行動転送が驚くほど早く現れます。2) 冷スタートは視覚的行動を広範囲に記憶しますが、強化学習は効果的なパターンを批判的に識別し、拡大します。3) 転送は戦略的に視覚的反省などの高ユーティリティ行動を優先します。我々の最終的なモデルであるOpen-Vision-Reasoner(OVR)は、MATH500で95.3%、MathVisionで51.8%、MathVerseで54.6%という成績を達成し、一連の推論ベンチマークにおいて最先端の性能を発揮しています。我々はモデル、データセットおよび学習動態を公開することで、より高性能で行動が一致したマルチモーダル推論システムの開発を促進することを目指しています。