HyperAIHyperAI

Command Palette

Search for a command to run...

VicTR: Video-bedingte Textrepräsentationen für Aktivitätserkennung

Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo

Zusammenfassung

Vision-Language-Modelle (VLMs) haben sich im Bereich der Bilder – insbesondere in Null-Shot-Szenarien – dank der Verfügbarkeit großer Mengen an Vortrainingsdaten (d.h., paarweise abgestimmte Bild-Text-Stichproben) ausgezeichnet. Für Videos ist jedoch solche gepaarte Daten nicht so häufig verfügbar. Daher werden Video-VLMs in der Regel durch Anpassung vortrainierter Bild-VLMs an den Video-Bereich entwickelt, anstatt von Grund auf neu trainiert zu werden. Alle diese Ansätze basieren darauf, visuelle Einbettungen mit zeitlicher Information zu erweitern (d.h., Bild \rightarrow Video), wobei oft die Text-Einbettungen unverändert bleiben oder sogar verworfen werden. In dieser Arbeit argumentieren wir dagegen und behaupten, dass bessere Video-VLMs durch stärkeres Fokus auf die Erweiterung des Textes als auf visuelle Informationen gestaltet werden können. Genauer gesagt führen wir Video-bedingte Textrepräsentationen (VicTR) ein: eine Form von Text-Einbettungen, die im Verhältnis zu visuellen Einbettungen optimiert sind und einen flexibleren kontrastiven latente Raum schaffen. Unser Modell kann zudem frei verfügbare semantische Informationen nutzen, in Form von visuell begründeten Hilfstexten (z.B. Objekt- oder Szeneninformationen). Wir evaluieren unser Modell anhand verschiedener Benchmarks für Aktivitätserkennung: Few-Shot-, Null-Shot- (HMDB-51, UCF-101), Kurzform- (Kinetics-400) und Langform-Szenarien (Charades), wobei es unter den Video-VLMs starke Leistungen zeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp