
動画理解における基本的な課題の一つは、詳細な動画説明を生成することである。本研究では、高品質な動画説明を生成する大規模な動画言語モデル群であるターシャー(Tarsier)を紹介する。ターシャーは、CLIP-ViTを使用して各フレームを個別にエンコードし、その後LLM(大規模言語モデル)を用いて時間的な関係性をモデル化する。単純なアーキテクチャにもかかわらず、慎重に設計された二段階の学習プロセスにより、既存のオープンソースモデルよりも著しく優れた動画説明能力を持つことが示された。最強のモデルとの比較では、人間による並列評価で51.4%の優位性が確認されている。さらに、最新の専有モデルと比較しても同等の性能を発揮し、GPT-4Vに対して12.3%の優位性があり、Gemini 1.5 Proに対して6.7%の劣位性がある。SigLIPとQwen2-7Bに基づいてアップグレードされたターシャー2(Tarsier2)では、GPT-4oに対して4.8%の優位性がさらに向上した。動画説明以外にも、ターシャーは多様な一般的なモデルとして機能し、9つの公開ベンチマークにおいて新しい最先端の結果を達成している。これらには複数選択式VQA(視覚質問応答)、自由形式VQA、およびゼロショット動画キャプション生成が含まれる。我々の第二の貢献は、動画説明モデルを評価するための新しいベンチマークであるDREAM-1K(https://tarsier-vlm.github.io/)を導入することである。このベンチマークは、多様なソースから得られる複雑さが異なる動画を集めた新たな挑戦的なデータセットと、詳細な動画説明の品質を評価するために特別に設計された自動方法で構成されている。当社はこれらのモデルと評価ベンチマークをhttps://github.com/bytedance/tarsier にて公開している。