2ヶ月前

ビデオ-ChatGPT: 大規模なビジョンと言語モデルを用いた詳細なビデオ理解に向けて

Muhammad Maaz; Hanoona Rasheed; Salman Khan; Fahad Shahbaz Khan
ビデオ-ChatGPT: 大規模なビジョンと言語モデルを用いた詳細なビデオ理解に向けて
要約

大規模言語モデル(LLM)を駆動する会話エージェントは、視覚データとの新たなインタラクション方法を提供しています。画像ベースの会話モデルに関する初期的な試みが存在していましたが、本研究では未十分に探索されていない\emph{ビデオベースの会話}分野に焦点を当て、Video-ChatGPTを導入します。これは、ビデオ適応型の視覚エンコーダとLLMを統合したマルチモーダルモデルです。生成されたモデルは、ビデオについて詳細な会話を理解し生成することができます。私たちは、手動および半自動パイプラインによって取得され、容易に拡張可能でラベルノイズに強い10万組のビデオ指示ペアからなる新しいデータセットを紹介します。また、ビデオベースの対話モデルに対する定量的な評価フレームワークを開発し、これらのモデルの強みと弱みを客観的に分析しました。コード: https://github.com/mbzuai-oryx/Video-ChatGPT