2ヶ月前

Mini-o3：視覚検索における推論パターンおよび対話ターンのスケーリングアップ

Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

要約

近年、大規模なマルチモーダルモデルの進展により、強化学習を用いた画像ベースのツールが視覚的課題の解決に活用されてきた。しかし、既存のオープンソース手法はしばしば単調な推論パターンを示し、対話の回数も限定的であるため、試行錯誤による探索を要する困難なタスクには不適切である。本研究では、ツールベースの対話のスケーリングを進めることでこの制約を克服し、数十ステップにわたる深い複数回の推論を実行できる「Mini-o3」を提案する。このシステムは、困難な視覚検索タスクにおいて最先端の性能を達成している。OpenAI o3と同様の振る舞いを再現するための手法は、以下の3つの主要な要素から構成される。第一に、探索的推論を目的とした、数千もの困難な視覚検索問題からなる「Visual Probe Dataset」を構築した。第二に、深さ優先探索、試行錯誤、目標維持など多様な推論パターンを示す初期状態（cold-start）の軌道を取得するための反復的なデータ収集パイプラインを開発した。第三に、強化学習の過程において、最大対話回数に達した応答（over-turn応答）に対してペナルティを与えない「over-turnマスキング戦略」を提案した。これにより、学習時の効率性と推論時のスケーラビリティのバランスが実現された。訓練段階では対話回数の上限を6回に制限しているにもかかわらず、推論時には自然に数十回の対話へとスケーリングされ、対話回数が増えるほど精度が向上する。広範な実験により、Mini-o3が豊かな推論パターンと深い思考経路を生成し、困難な視覚検索問題を効果的に解決できることを示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

Mini-o3：視覚検索における推論パターンおよび対話ターンのスケーリングアップ

Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

要約

AI で AI を構築

Hyper Newsletters