HyperAIHyperAI

Command Palette

Search for a command to run...

LinVT: 画像レベルの大規模言語モデルを動画理解に活用する

Lishuai Gao Yujie Zhong† Yingsen Zeng Haoxian Tan Dengjie Li Zheng Zhao

概要

大規模言語モデル(LLMs)は様々なタスクで広く使用されており、これによりビデオ向けのLLMベースのアシスタントを開発する動機が生まれました。新たに学習させるのではなく、既存の画像ベースのLLMをビデオデータで学習させることによって、任意の高性能な画像ベースのLLMをビデオ-LLMに変換するモジュールを提案します。画像-LLMがビデオ処理に適応できるようにするために、以下の2つの設計原則を導入します:元の視覚-言語対応関係を維持する線形変換と、冗長なビデオコンテンツから代表的な情報を凝縮する方法です。これらの原則に基づいて、プラグアンドプレイ型の線形ビデオトークナイザ(LinVT)を提案します。これにより、既存の画像ベースのLLMがビデオを理解できるようになります。私たちはLinVTを6つの最近の視覚系LLM(Aquila, Blip-3, InternVL2, Mipha, Molmo, Qwen2-VL)でベンチマークテストを行い、LinVTの高い互換性を示しました。LinVTに基づくLLMは様々なビデオベンチマークで最先端の性能を達成しており、多様なモーダルでのビデオ理解におけるLinVTの効果性が明確に示されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています