HyperAIHyperAI

Command Palette

Search for a command to run...

VideoChat: Chat-zentriertes Video-Verständnis

Kunchang Li∗1,4 Yinan He∗1 Yi Wang†1 Yizhuo Li1,3 Wenhai Wang1 Ping Luo3,1 Yali Wang‡4,1 Limin Wang‡2,1 Yu Qiao†1

Zusammenfassung

In dieser Arbeit initiieren wir einen Versuch zur Entwicklung eines end-to-end chatzentrierten Video-Verständnissystems, das als VideoChat bezeichnet wird. Es integriert videobasierte Grundlagenmodelle und große Sprachmodelle über eine lernfähige neuronale Schnittstelle, wodurch es in räumlich-zeitlicher Schlussfolgerung, Ereignislokalisation und der Inferenz kausaler Beziehungen hervorragt. Um dieses System aufschlussreich zu justieren, erstellen wir ein videozentriertes Anweisungsdatensatz, der aus Tausenden von Videos besteht, die mit detaillierten Beschreibungen und Konversationen verknüpft sind. Dieser Datensatz legt den Fokus auf räumlich-zeitliche Schlussfolgerungen und erfasst kausale Beziehungen, was ihn zu einem wertvollen Ressourcen für das Training unseres chatzentrierten Video-Verständnissystems macht. Vorläufige qualitative Experimente zeigen das Potenzial unseres Systems in einem breiten Spektrum von Videoanwendungen auf, das als einfaches Prototypensystem für zukünftige Forschungen im Bereich des chatzentrierten Video-Verständnisses dienen könnte. Zugriff auf unseren Code und unsere Daten finden Sie unter https://github.com/OpenGVLab/Ask-Anything


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp