HyperAIHyperAI

Command Palette

Search for a command to run...

InternVideo2.5: 長い文脈と豊かな情報モデリングを用いたビデオMLLMの強化

Unknown

概要

本論文は、長くて豊富なコンテキスト(LRC)モデリングを通じて、ビデオ多様態大規模言語モデル(MLLM)の性能を向上させることが目的である。その結果、微細な詳細を認識し、ビデオにおける長期的な時間構造を捉える能力を強化することに焦点を当てた新しいバージョンのInternVideo2.5を開発した。具体的には、直接的な好み最適化を使用してMLLMに密接な視覚タスクアノテーションを取り入れ、適応階層トークン圧縮を通じてコンパクトな空間時間表現を開発する手法を採用している。実験結果は、このLRCの独自設計が主流のビデオ理解ベンチマーク(短いものと長いもの)においてビデオMLLMの結果を大幅に改善し、MLLMが著しく長いビデオ入力(元の6倍以上)を記憶し、物体追跡やセグメンテーションなどの専門的な視覚能力を習得することを可能にしていることを示している。本研究は、多様態コンテキストの豊かさ(長さと微細さ)がMLLMの先天的能力(集中力と記憶力)を強化する上で重要な役割を果たすことを強調しており、ビデオMLLMに関する今後の研究に新たな洞察を与えている。コードとモデルは以下のURLから入手可能である: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています