Command Palette
Search for a command to run...
Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

要約
近年、大規模なマルチモーダルモデルの進展により、強化学習を用いた画像ベースのツールが視覚的課題の解決に活用されてきた。しかし、既存のオープンソース手法はしばしば単調な推論パターンを示し、対話の回数も限定的であるため、試行錯誤による探索を要する困難なタスクには不適切である。本研究では、ツールベースの対話のスケーリングを進めることでこの制約を克服し、数十ステップにわたる深い複数回の推論を実行できる「Mini-o3」を提案する。このシステムは、困難な視覚検索タスクにおいて最先端の性能を達成している。OpenAI o3と同様の振る舞いを再現するための手法は、以下の3つの主要な要素から構成される。第一に、探索的推論を目的とした、数千もの困難な視覚検索問題からなる「Visual Probe Dataset」を構築した。第二に、深さ優先探索、試行錯誤、目標維持など多様な推論パターンを示す初期状態(cold-start)の軌道を取得するための反復的なデータ収集パイプラインを開発した。第三に、強化学習の過程において、最大対話回数に達した応答(over-turn応答)に対してペナルティを与えない「over-turnマスキング戦略」を提案した。これにより、学習時の効率性と推論時のスケーラビリティのバランスが実現された。訓練段階では対話回数の上限を6回に制限しているにもかかわらず、推論時には自然に数十回の対話へとスケーリングされ、対話回数が増えるほど精度が向上する。広範な実験により、Mini-o3が豊かな推論パターンと深い思考経路を生成し、困難な視覚検索問題を効果的に解決できることを示した。