HyperAIHyperAI
vor 2 Monaten

VideoChat: Chat-zentriertes Video-Verständnis

KunChang Li; Yinan He; Yi Wang; Yizhuo Li; Wenhai Wang; Ping Luo; Yali Wang; Limin Wang; Yu Qiao
VideoChat: Chat-zentriertes Video-Verständnis
Abstract

In dieser Arbeit initiieren wir einen Versuch zur Entwicklung eines end-to-end chatzentrierten Video-Verständnissystems, das als VideoChat bezeichnet wird. Es integriert videobasierte Grundlagenmodelle und große Sprachmodelle über eine lernfähige neuronale Schnittstelle, wodurch es in räumlich-zeitlicher Schlussfolgerung, Ereignislokalisation und der Inferenz kausaler Beziehungen hervorragt. Um dieses System aufschlussreich zu justieren, erstellen wir ein videozentriertes Anweisungsdatensatz, der aus Tausenden von Videos besteht, die mit detaillierten Beschreibungen und Konversationen verknüpft sind. Dieser Datensatz legt den Fokus auf räumlich-zeitliche Schlussfolgerungen und erfasst kausale Beziehungen, was ihn zu einem wertvollen Ressourcen für das Training unseres chatzentrierten Video-Verständnissystems macht. Vorläufige qualitative Experimente zeigen das Potenzial unseres Systems in einem breiten Spektrum von Videoanwendungen auf, das als einfaches Prototypensystem für zukünftige Forschungen im Bereich des chatzentrierten Video-Verständnisses dienen könnte. Zugriff auf unseren Code und unsere Daten finden Sie unter https://github.com/OpenGVLab/Ask-Anything