HyperAIHyperAI
vor 17 Tagen

HierVL: Lernen hierarchischer Video-Sprache-Einbettungen

Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman
HierVL: Lernen hierarchischer Video-Sprache-Einbettungen
Abstract

Video-Sprache-Embeddings stellen einen vielversprechenden Ansatz dar, um Semantik in visuelle Darstellungen einzubringen. Bisherige Methoden erfassen jedoch lediglich kurzfristige Assoziationen zwischen sekundenlangen Videoclips und deren begleitendem Text. Wir stellen HierVL vor, ein neuartiges hierarchisches Video-Sprache-Embedding, das gleichzeitig sowohl langfristige als auch kurzfristige Assoziationen berücksichtigt. Als Trainingsdaten verwenden wir Videos mit zeitstempelbasierten Textbeschreibungen menschlicher Aktionen sowie einer hochleveligen Textzusammenfassung der gesamten Aktivität über den gesamten Videobereich (wie sie beispielsweise im Ego4D-Datensatz verfügbar sind). Wir führen ein hierarchisches kontrastives Trainingsziel ein, das die Ausrichtung zwischen Text und Visuellem sowohl auf Clip-Ebene als auch auf Videoebene fördert. Während die Clip-Ebene durch schrittweise Beschreibungen erfasst, was gerade geschieht, nutzt die Videoebene die Zusammenfassungstexte, um zu erfassen, warum etwas geschieht – also den übergeordneten Kontext der Aktivität und die Absicht des Akteurs. Unser hierarchischer Ansatz erzeugt eine Clip-Repräsentation, die ihre einstufige Alternative übertrifft, sowie eine langfristige Videorepräsentation, die state-of-the-art (SotA) Ergebnisse bei Aufgaben erzielt, die eine Modellierung langfristiger Videoinhalte erfordern. HierVL zeigt eine erfolgreiche Übertragung auf mehrere anspruchsvolle Downstream-Aufgaben (EPIC-KITCHENS-100, Charades-Ego, HowTo100M) sowohl im Zero-Shot- als auch im fine-tuned-Setting.