Qwen2.5-VL 技術報告

Qwen2.5-VLを発表いたします。これは、Qwen視覚言語シリーズの最新フラッグシップモデルであり、基礎的な能力と革新的な機能の両面で顕著な進展を示しています。Qwen2.5-VLは、強化された視覚認識、正確なオブジェクト位置特定、堅牢なドキュメント解析、および長時間動画の理解能力を備え、世界に対する理解と相互作用の面で飛躍的な進歩を達成しました。Qwen2.5-VLの顕著な特徴の一つは、バウンディングボックスや点を用いたオブジェクトの高精度な位置特定です。また、請求書、フォーム、表などから構造化データを堅牢に抽出し、チャート、図表、レイアウトの詳細な解析も可能となっています。複雑な入力に対応するため、Qwen2.5-VLは動的解像度処理と絶対時間符号化を導入しており、さまざまなサイズの画像および最大数時間にわたる動画(秒単位のイベント位置特定を可能)を処理できます。これにより、従来の正規化手法に依存せずに、空間スケールと時間的ダイナミクスをネイティブに認識することが可能になります。本モデルは、スクラッチからネイティブな動的解像度Vision Transformer(ViT)を学習し、Window Attentionを組み込むことで、ネイティブ解像度を維持しつつ計算負荷を低減しています。その結果、Qwen2.5-VLは静止画像やドキュメントの理解に優れるだけでなく、実世界のシナリオ(PCやモバイルデバイスの操作など)において、推論、ツールの利用、タスク実行が可能なインタラクティブな視覚エージェントとしても優れた性能を発揮します。Qwen2.5-VLは3つのサイズで提供され、エッジAIからハイパフォーマンスコンピューティングまで、多様な用途に対応しています。フラッグシップモデルであるQwen2.5-VL-72Bは、GPT-4oやClaude 3.5 Sonnetといった最先端モデルと同等の性能を発揮し、特にドキュメントおよび図表の理解において優れた実績を示しています。さらに、Qwen2.5-VLは堅牢な言語処理能力を維持しており、Qwen2.5 LLMの核となる言語能力を完全に保持しています。