Video-ChatGPT: Auf dem Weg zu detailliertem Videoverstehen durch große visuelle und sprachliche Modelle

Gesprächsagenten, die durch große Sprachmodelle (LLMs) angetrieben werden, bieten eine neue Möglichkeit zur Interaktion mit visuellen Daten. Obwohl es bereits erste Ansätze für bildbasierte Gesprächsmodelle gab, richtet sich diese Arbeit auf das bisher wenig erforschte Gebiet des \emph{videobasierten Gesprächs}, indem sie Video-ChatGPT vorstellt. Es handelt sich um ein multimodales Modell, das einen videoadaptierten visuellen Encoder mit einem großen Sprachmodell kombiniert. Das resultierende Modell ist in der Lage, verständnisvolle und detaillierte Gespräche über Videos zu führen. Wir stellen einen neuen Datensatz von 100.000 Videobefehls-Paaren vor, der verwendet wurde, um Video-ChatGPT zu trainieren. Dieser Datensatz wurde durch einen manuellen und halbautomatischen Prozess erworben, der leicht skalierbar und robust gegenüber Etikett-Rauschen ist. Zudem entwickeln wir ein quantitatives Evaluationsframework für videobasierte Dialogmodelle, um deren Stärken und Schwächen objektiv zu analysieren. Code: https://github.com/mbzuai-oryx/Video-ChatGPT.