2ヶ月前
InternVideo2: マルチモーダル動画理解のための基礎モデルのスケーリング
Wang, Yi ; Li, Kunchang ; Li, Xinhao ; Yu, Jiashuo ; He, Yinan ; Wang, Chenting ; Chen, Guo ; Pei, Baoqi ; Yan, Ziang ; Zheng, Rongkun ; Xu, Jilan ; Wang, Zun ; Shi, Yansong ; Jiang, Tianxiang ; Li, Songze ; Zhang, Hongjie ; Huang, Yifei ; Qiao, Yu ; Wang, Yali ; Wang, Limin

要約
私たちは、ビデオ認識、ビデオ-テキストタスク、およびビデオ中心の対話において最先端の結果を達成する新しいビデオ基礎モデル(ViFM)ファミリー「InternVideo2」を紹介します。当社の主要な設計は、マスクされたビデオモデリング、クロスモーダルコントラスティブ学習、および次のトークン予測を統合した段階的なトレーニングアプローチであり、ビデオエンコーダーのパラメータ数を60億に拡大しています。データレベルでは、セマンティックセグメンテーションによってビデオを分割し、ビデオ-音声-スピーチキャプションを生成することで時空間の一貫性を重視しています。これにより、ビデオとテキストの整合性が向上します。多数の実験を通じて、当社の設計が有効であることを確認し、60以上のビデオおよび音声タスクで優れた性能を示しました。特に、「InternVideo2」はさまざまなビデオ関連対話や長尺ビデオ理解ベンチマークで他のモデルを上回り、長いコンテキストでの推論と理解能力が際立っています。コードとモデルは以下のURLから入手可能です: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/。