HyperAIHyperAI

Command Palette

Search for a command to run...

Tarsier2: 詳細なビデオ説明から包括的なビデオ理解への大規模視覚言語モデルの進歩

Liping Yuan Jiawei Wang Haomiao Sun Yuchen Zhang Yuan Lin

概要

私たちは、最新の大規模視覚言語モデル(LVLM)であるTarsier2を紹介します。このモデルは詳細で正確なビデオ説明を生成するだけでなく、優れた一般的なビデオ理解能力も備えています。Tarsier2は以下の3つの主要なアップグレードにより、著しい進歩を遂げています:(1) 1100万から4000万のビデオ-テキストペアに前学習データを拡大し、量と多様性を豊かにしました;(2) 監督付き微調整中に細かい時間的なアライメントを行いました;(3) モデルベースのサンプリングを使用して好みデータを自動的に構築し、DPOトレーニングによる最適化を行いました。広範囲にわたる実験結果から、Tarsier2-7Bが詳細なビデオ説明タスクにおいてGPT-4oやGemini 1.5 Proなどの主要なプロプライエタリモデルを一貫して上回ることが示されています。DREAM-1Kベンチマークにおいて、Tarsier2-7BはGPT-4oに対してF1スコアで2.8%向上し、Gemini-1.5-Proに対して5.8%向上しています。ヒューマン・サイドバイサイド評価では、Tarsier2-7BがGPT-4oに対して+8.6%の性能向上を示し、Gemini-1.5-Proに対して+24.9%の性能向上を示しています。さらに、Tarsier2-7Bはビデオ質問応答、ビデオグラウンドニング、幻覚テスト、体感質問応答など、15の公開ベンチマークにおける新しい最先端の結果を樹立しており、その堅牢さと汎用性を持つ視覚言語モデルとしての優れた特性を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています