2ヶ月前
Chat-UniVi: 統合された視覚表現が大規模言語モデルに画像および動画理解の能力を付与する
Peng Jin; Ryuichi Takanobu; Wancai Zhang; Xiaochun Cao; Li Yuan

要約
大規模言語モデルは、広範なオープンエンドタスクにおいて印象的な普遍的な能力を示し、その有用性をマルチモーダル会話にまで拡張しています。しかし、既存の方法では、特に視覚トークンが限られている場合、画像と動画の理解を効果的に処理する上で課題に直面しています。本研究では、画像と動画を統一された視覚表現を通じて理解し、会話に参加できる統合ビジョン-言語モデル「Chat-UniVi」を提案します。具体的には、動的視覚トークンのセットを使用して、画像と動画を一様に表現します。この表現フレームワークにより、モデルは限られた数の視覚トークンを効率的に利用しながら、画像には必要な空間詳細と動画には必要な包括的な時間関係を同時に捉えることができます。さらに、多尺度表現を利用することで、モデルは高レベルの意味概念と低レベルの視覚詳細の両方を認識することができます。特に注目に値するのは、Chat-UniViは画像と動画が混在したデータセットで学習されており、両媒体に関連するタスクに直接適用することが可能であり、何らかの変更を必要としません。広範な実験結果から、Chat-UniViは画像専用または動画専用に設計された既存の手法よりも一貫して優れた性能を発揮することが示されています。コードは以下のURLで公開されています: https://github.com/PKU-YuanGroup/Chat-UniVi。