HyperAIHyperAI

Command Palette

Search for a command to run...

Video-LLaMA: Ein anweisungsbasierter audiovisueller Sprachmodell für die Videoanalyse

Hang Zhang Xin Li Lidong Bing

Zusammenfassung

Wir stellen Video-LLaMA vor, ein multimodales Framework, das Large Language Models (LLMs) mit der Fähigkeit ausstattet, sowohl visuelle als auch auditive Inhalte in Videos zu verstehen. Video-LLaMA startet die kreuzmodale Trainingssitzung von gefrorenen vortrainierten visuellen und audioencoder sowie von gefrorenen LLMs. Im Gegensatz zu früheren Arbeiten, die LLMs nur zur Verarbeitung von visuellen oder auditiven Signalen ergänzen, ermöglicht Video-LLaMA die Videokomprehension durch die Bewältigung zweier Herausforderungen: (1) das Erfassen zeitlicher Änderungen in visuellen Szenen und (2) die Integration von audiovisuellen Signalen. Um der ersten Herausforderung entgegenzutreten, schlagen wir einen Video Q-former vor, um einen vortrainierten Bildencoder in unseren Videoencoder zu integrieren, und führen eine Aufgabe zur Generierung von Text aus Videos ein, um die Korrespondenz zwischen Video und Sprache zu erlernen. Für die zweite Herausforderung nutzen wir ImageBind, ein universelles Embedding-Modell zur Ausrichtung mehrerer Modalitäten, als vortrainierten Audioencoder und führen einen Audio Q-former über ImageBind ein, um sinnvolle auditive Abfrage-Embeddings für den LLM-Modul zu erlernen. Um die Ausgabe beider visuellen und audioencoders mit dem Embedding-Raum der LLM auszurichten, trainieren wir zunächst Video-LLaMA auf massiven Video-/Bild-Beschreibungspaaren und passen dann unser Modell mit moderaten Mengen aber höherer Qualität anhand visueller Anweisungsdatensätze an. Wir haben festgestellt, dass Video-LLaMA die Fähigkeit zeigt, videobasierte Inhalte wahrzunehmen und zu verstehen sowie sinnvolle Antworten basierend auf den in den Videos präsentierten visuellen und auditiven Informationen zu generieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Video-LLaMA: Ein anweisungsbasierter audiovisueller Sprachmodell für die Videoanalyse | Paper | HyperAI