Command Palette
Search for a command to run...
Qwen2.5-VL 技術報告
Qwen2.5-VL 技術報告
概要
Qwen2.5-VLを発表します。これは、Qwen視覚言語シリーズの最新フラッグシップモデルであり、基盤的な能力と革新的な機能の両面で顕著な進展を示しています。Qwen2.5-VLは、強化された視覚認識、正確なオブジェクト位置特定、堅牢なドキュメント解析、および長時間動画の理解能力を備え、世界をより深く理解し、効果的に対話する能力に飛躍的な進歩を遂げました。Qwen2.5-VLの顕著な特徴の一つは、バウンディングボックスや点を用いてオブジェクトを高精度で位置特定できる点です。また、領収書、フォーム、表などから構造化データを堅牢に抽出し、チャート、図表、レイアウトの詳細な分析も可能となっています。複雑な入力に対応するため、Qwen2.5-VLは動的解像度処理(dynamic resolution processing)と絶対時間符号化(absolute time encoding)を導入し、サイズの異なる画像や最大数時間に及ぶ長時間の動画を、秒単位のイベント位置特定を伴って処理できるようになっています。これにより、従来の正規化手法に頼ることなく、モデルは空間スケールと時間的変動をネイティブに捉えることが可能になりました。本モデルは、スクラッチからネイティブな動的解像度Vision Transformer(ViT)を学習し、Window Attentionを組み込むことで、ネイティブ解像度を維持しつつ、計算負荷を低減しています。その結果、Qwen2.5-VLは静的画像やドキュメントの理解に優れるだけでなく、現実世界のシナリオ(PCやモバイルデバイスの操作など)において、推論、ツールの活用、タスクの実行が可能なインタラクティブな視覚エージェントとしても優れた性能を発揮します。Qwen2.5-VLは3種類のサイズで提供され、エッジAIからハイパフォーマンスコンピューティングまで、多様な用途に対応しています。フラッグシップモデルであるQwen2.5-VL-72Bは、GPT-4oやClaude 3.5 Sonnetといった最先端モデルと同等の性能を発揮し、特にドキュメントおよび図表の理解において突出した能力を示しています。さらに、Qwen2.5-VLは言語処理能力も堅牢に維持しており、Qwen2.5 LLMの核となる言語能力を完全に保持しています。