HyperAIHyperAI

Command Palette

Search for a command to run...

Eingefroren in der Zeit: Ein gemeinsamer Video- und Bildencoder für die End-to-End-Abfrage

Max Bain Arsha Nagrani Gül Varol Andrew Zisserman

Zusammenfassung

Unser Ziel in dieser Arbeit ist die Video-Text-Retrieval-Aufgabe – insbesondere die Entwicklung einer gemeinsamen Einbettung, die eine effiziente Text-zu-Video-Retrieval-Operation ermöglicht. Zu den zentralen Herausforderungen in diesem Bereich gehören die Gestaltung der visuellen Architektur sowie die Beschaffenheit der Trainingsdaten: Die verfügbaren großen Video-Text-Trainingsdatensätze, wie beispielsweise HowTo100M, sind geräuschbehaftet, weshalb ein konkurrenzfähiges Leistungsniveau erst durch den Einsatz erheblicher Rechenressourcen bei großer Skalierung erreichbar ist. In dieser Arbeit adressieren wir beide Herausforderungen. Wir stellen ein end-to-end trainierbares Modell vor, das darauf ausgelegt ist, sowohl große Bild- als auch Video-Kommentar-Datensätze optimal zu nutzen. Unser Modell basiert auf einer Anpassung und Erweiterung der jüngsten Architekturen ViT und Timesformer und verfügt über Aufmerksamkeit sowohl im Raum als auch in der Zeit. Die Architektur ist flexibel und kann sowohl auf Bild- als auch auf Video-Text-Datensätzen unabhängig voneinander oder gemeinsam trainiert werden. Der Trainingsprozess erfolgt gemäß einem Curriculum-Learning-Schema, bei dem zunächst Bilder als „eingefrorene“ Zeitpunkte von Videos betrachtet werden, um dann schrittweise die Fähigkeit zu erlernen, zunehmend zeitliche Kontextinformationen zu berücksichtigen, wenn das Modell auf Video-Datensätzen trainiert wird. Zudem präsentieren wir einen neuen Video-Text-Pretraining-Datensatz namens WebVid-2M, der aus über zwei Millionen Videos mit schwach annotierten Beschreibungen besteht, die aus dem Internet extrahiert wurden. Trotz der Verwendung von Datensätzen, die um eine Größenordnung kleiner sind, erreichen wir mit diesem Ansatz state-of-the-art Ergebnisse auf etablierten Benchmark-Aufgaben für Video-Retrieval, darunter MSR-VTT, MSVD, DiDeMo und LSMDC.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Eingefroren in der Zeit: Ein gemeinsamer Video- und Bildencoder für die End-to-End-Abfrage | Paper | HyperAI