Videoprompter: ein Ensemble grundlegender Modelle für die zero-shot-Videoverstehensanalyse

Visuelle Sprachmodelle (VLMs) klassifizieren das Abfragevideo, indem sie einen Ähnlichkeitswert zwischen den visuellen Merkmalen und den textbasierten Klassenbezeichnungen berechnen. Kürzlich wurden große Sprachmodelle (LLMs) verwendet, um die textbasierten Klassenbezeichnungen durch die Verbesserung der Beschreibungskraft der Klassennamen zu bereichern. Diese Verbesserungen sind jedoch auf den textbasierten Klassifikator beschränkt, und die visuellen Merkmale der Abfrage werden nicht berücksichtigt. In dieser Arbeit schlagen wir ein Framework vor, das vortrainierte diskriminative VLMs mit vortrainierten generativen Video-zu-Text- und Text-zu-Text-Modellen kombiniert. Wir führen zwei wesentliche Modifikationen am Standard-Zero-Shot-Einstellung ein. Erstens schlagen wir eine sprachgesteuerte Verbesserung der visuellen Merkmale vor und verwenden ein Video-zu-Text-Modell, um das Abfragevideo in seine beschreibende Form zu konvertieren. Die resultierenden Beschreibungen enthalten wichtige visuelle Hinweise des Abfragevideos, wie zum Beispiel welche Objekte vorhanden sind und ihre räumlich-zeitlichen Interaktionen. Diese beschreibenden Hinweise bieten zusätzliche semantische Kenntnisse für VLMs, um ihre Zero-Shot-Leistung zu verbessern. Zweitens schlagen wir videospezifische Anweisungen für LLMs vor, um sinnvollere Beschreibungen zu generieren und die Klassenbezeichnungsrepräsentationen zu bereichern. Insbesondere führen wir Anweisungstechniken ein, um eine Baumhierarchie von Kategorien für Klassennamen zu erstellen, die einen höherstufigen Aktionskontext für zusätzliche visuelle Hinweise bietet. Wir zeigen die Effektivität unseres Ansatzes in der Videobearbeitung in drei verschiedenen Zero-Shot-Einstellungen: 1) Videoaktionserkennung, 2) Video-zu-Text- und Text-zu-Video-Retrieval sowie 3) zeitabhängige Videoaufgaben. Widersprüchliche Verbesserungen bei mehreren Benchmarks und mit verschiedenen VLMs belegen die Effektivität unseres vorgeschlagenen Frameworks. Unser Code wird öffentlich zur Verfügung gestellt.请注意,最后一句中的“Widersprüchliche”应改为“Konsistente”,以准确反映原文的意思。以下是修正后的版本:Konsistente Verbesserungen bei mehreren Benchmarks und mit verschiedenen VLMs belegen die Effektivität unseres vorgeschlagenen Frameworks. Unser Code wird öffentlich zur Verfügung gestellt.