8ヶ月前

概要

私たちは、最新の大規模視覚言語モデル（LVLM）であるTarsier2を紹介します。このモデルは詳細で正確なビデオ説明を生成するだけでなく、優れた一般的なビデオ理解能力も備えています。Tarsier2は以下の3つの主要なアップグレードにより、著しい進歩を遂げています：(1) 1100万から4000万のビデオ-テキストペアに前学習データを拡大し、量と多様性を豊かにしました；(2) 監督付き微調整中に細かい時間的なアライメントを行いました；(3) モデルベースのサンプリングを使用して好みデータを自動的に構築し、DPOトレーニングによる最適化を行いました。広範囲にわたる実験結果から、Tarsier2-7Bが詳細なビデオ説明タスクにおいてGPT-4oやGemini 1.5 Proなどの主要なプロプライエタリモデルを一貫して上回ることが示されています。DREAM-1Kベンチマークにおいて、Tarsier2-7BはGPT-4oに対してF1スコアで2.8%向上し、Gemini-1.5-Proに対して5.8%向上しています。ヒューマン・サイドバイサイド評価では、Tarsier2-7BがGPT-4oに対して+8.6%の性能向上を示し、Gemini-1.5-Proに対して+24.9%の性能向上を示しています。さらに、Tarsier2-7Bはビデオ質問応答、ビデオグラウンドニング、幻覚テスト、体感質問応答など、15の公開ベンチマークにおける新しい最先端の結果を樹立しており、その堅牢さと汎用性を持つ視覚言語モデルとしての優れた特性を示しています。

ソースPDF