2ヶ月前
ビデオチャット:チャット中心のビデオ理解
KunChang Li; Yinan He; Yi Wang; Yizhuo Li; Wenhai Wang; Ping Luo; Yali Wang; Limin Wang; Yu Qiao

要約
本論文では、エンドツーエンドのチャット中心のビデオ理解システムの開発に取り組む試みを開始します。このシステムは VideoChat と名付けられ、学習可能なニューラルインターフェースを介してビデオ基盤モデルと大規模言語モデルを統合し、空間時間的な推論、イベントの局所化、因果関係の推論において優れた性能を発揮します。このシステムを指示的に調整するために、ビデオを中心に構築された指示データセットを作成しました。このデータセットには、数千のビデオが含まれおり、それぞれ詳細な説明や会話が関連付けられています。データセットは空間時間的な推論に重点を置き、因果関係を捉えているため、チャット中心のビデオ理解システムの訓練に貴重な資産となります。初期の定性的実験では、当システムが幅広いビデオ応用分野で潜在能力を持つことが示されており、将来のチャット中心のビデオ理解に関する研究における単純なプロトタイプシステムとして機能する可能性があります。コードとデータへのアクセスは以下のURLから可能です: https://github.com/OpenGVLab/Ask-Anything