HyperAIHyperAI

Command Palette

Search for a command to run...

VL-Cogito:高度なマルチモーダル推論のためのプログレッシブカリキュラム強化学習

概要

強化学習は、大規模言語モデルの推論能力を向上させる上でその有効性を実証している。近年の研究動向では、このアプローチが多モーダル推論タスクへと段階的に拡張されている。多モーダルタスクには固有の複雑さと多様性があり、特に意味内容や問題定式化の面で多様な特性を有するため、既存のモデルはさまざまなドメインや難易度レベルにおいて安定した性能を発揮できない場合が多い。こうした課題に対処するため、本研究では、新たな段階的プログレッシブカリキュラム強化学習(PCuRL)フレームワークを用いて訓練された高度な多モーダル推論モデル「VL-Cogito」を提案する。PCuRLフレームワークは、タスクの難易度を段階的に増加させる形でモデルを体系的に導くことで、多様な多モーダル文脈において推論能力を著しく向上させる。本フレームワークは以下の2つの重要な革新を導入している:(1)オンライン難易度ソフトウェイト機構——逐次的な強化学習訓練ステージにおいて、動的に訓練難易度を調整する仕組み;(2)動的長さ報酬機構——タスクの複雑さに応じて、モデルが推論パスの長さを適応的に制御するよう促す仕組みであり、推論の効率性と正しさのバランスを図る。実験評価の結果、VL-Cogitoは数学、科学、論理、一般的理解を対象とする主流の多モーダルベンチマークにおいて、一貫して既存の推論指向モデルと同等またはそれ以上の性能を発揮することが示され、本手法の有効性が裏付けられた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています