HyperAIHyperAI

Command Palette

Search for a command to run...

WeThink:強化学習を活用した汎用視覚言語推論への道標

概要

テキストベースの推論モデル(例:DeepSeek-R1)の成功を踏まえ、その能力をマルチモーダル推論へと拡張することは、極めて有望な方向性である。近年の研究では、DeepSeek-R1風の強化学習(RL)訓練フレームワークをマルチモーダル大規模言語モデル(MLLM)に適用する試みがなされており、数学や視覚認識といった分野特化型タスクに焦点を当てている。しかし、依然として重要な課題が残っている:どのようにすれば、RLを用いて汎用的な視覚言語推論を実現できるか。この課題に取り組むため、我々は以下の3つの重要な貢献を行う。(1) 与えられた画像から自律的に文脈に即した、推論を重視した質問・回答(QA)ペアを生成する新しいスケーラブルなマルチモーダルQA合成パイプライン。(2) 18の多様なデータソースから収集・編集され、さまざまな質問領域をカバーする12万件を超えるマルチモーダルQAペアを含むオープンソースのWeThinkデータセット。各QAペアには推論経路が明示的にアノテーションされている。(3) 当該データセット上で実施した包括的なRLの探索。ルールベースの検証とモデルベース評価を組み合わせたハイブリッド報酬メカニズムを導入し、さまざまなタスク領域においてRL訓練の効率を最適化する。 14の多様なMLLMベンチマークにおいて、WeThinkデータセットが数学的推論から多様な汎用マルチモーダルタスクまで、モデル性能を顕著に向上させることを実証した。さらに、本研究で開発した自動化データ生成パイプラインが、継続的にデータの多様性を拡充できることを示し、モデル性能のさらなる向上が可能であることを示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
WeThink:強化学習を活用した汎用視覚言語推論への道標 | 記事 | HyperAI超神経