HyperAIHyperAI

Command Palette

Search for a command to run...

VisionThink: 強化学習を用いたスマートで効率的なビジョン言語モデル

Senqiao Yang Junyi Li Xin Lai Bei Yu Hengshuang Zhao Jiaya Jia

概要

最近の視覚言語モデル(VLMs)における進歩は、視覚トークンの数を増やすことで性能が向上しています。これらの視覚トークンは、しばしばテキストトークンよりも大幅に長くなっています。しかし、我々は現実世界の多くのシナリオでは、これほど多くの視覚トークンが必要ではないことを観察しました。OCR関連タスクの一部では性能が著しく低下しますが、1/4解像度でほとんどの一般的なVQAタスクにおいてもモデルは正確に動作します。したがって、異なるサンプルに対して異なる解像度で動的に処理することを提案し、視覚トークン圧縮の新しいパラダイムであるVisionThinkを提示します。これはダウンサンプリングされた画像から始まり、問題解決に十分かどうかを賢明に判断します。そうでない場合は、モデルが特別なトークンを出力して高解像度画像の取得を要求することができます。既存の効率的なVLM手法では、固定された剪定比率や閾値を使用してトークンを圧縮するのに対し、VisionThinkはケースバイケースで自動的にトークン圧縮を行うかどうかを決定します。その結果、OCR関連タスクにおいて細かい視覚的理解能力を示しつつ、単純なタスクでは大量の視覚トークンを節約できます。我々は強化学習を採用し、LLM-as-Judge戦略を提案することでRLを一般的なVQAタスクに成功裏に適用しました。さらに、報酬関数と罰則メカニズムを慎重に設計し、安定したかつ合理的な画像リサイズ要求比率を達成しました。広範な実験により、当手法の優越性、効率性および有効性が示されています。コードはhttps://github.com/dvlab-research/VisionThink で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています