vor 2 Monaten

Video-LLaMA: Ein anweisungsbasierter audiovisueller Sprachmodell für die Videoanalyse

Hang Zhang; Xin Li; Lidong Bing

Abstract

Wir stellen Video-LLaMA vor, ein multimodales Framework, das Large Language Models (LLMs) mit der Fähigkeit ausstattet, sowohl visuelle als auch auditive Inhalte in Videos zu verstehen. Video-LLaMA startet die kreuzmodale Trainingssitzung von gefrorenen vortrainierten visuellen und audioencoder sowie von gefrorenen LLMs. Im Gegensatz zu früheren Arbeiten, die LLMs nur zur Verarbeitung von visuellen oder auditiven Signalen ergänzen, ermöglicht Video-LLaMA die Videokomprehension durch die Bewältigung zweier Herausforderungen: (1) das Erfassen zeitlicher Änderungen in visuellen Szenen und (2) die Integration von audiovisuellen Signalen. Um der ersten Herausforderung entgegenzutreten, schlagen wir einen Video Q-former vor, um einen vortrainierten Bildencoder in unseren Videoencoder zu integrieren, und führen eine Aufgabe zur Generierung von Text aus Videos ein, um die Korrespondenz zwischen Video und Sprache zu erlernen. Für die zweite Herausforderung nutzen wir ImageBind, ein universelles Embedding-Modell zur Ausrichtung mehrerer Modalitäten, als vortrainierten Audioencoder und führen einen Audio Q-former über ImageBind ein, um sinnvolle auditive Abfrage-Embeddings für den LLM-Modul zu erlernen. Um die Ausgabe beider visuellen und audioencoders mit dem Embedding-Raum der LLM auszurichten, trainieren wir zunächst Video-LLaMA auf massiven Video-/Bild-Beschreibungspaaren und passen dann unser Modell mit moderaten Mengen aber höherer Qualität anhand visueller Anweisungsdatensätze an. Wir haben festgestellt, dass Video-LLaMA die Fähigkeit zeigt, videobasierte Inhalte wahrzunehmen und zu verstehen sowie sinnvolle Antworten basierend auf den in den Videos präsentierten visuellen und auditiven Informationen zu generieren.