Test of Time: Die Verleihung eines Zeitgefühls an Video-Sprache-Modelle

Die Modellierung und das Verständnis von Zeit bleiben eine Herausforderung in modernen Video-Verständnis-Modellen. Angesichts der zunehmenden Bedeutung von Sprache als Schlüsselfaktor für eine starke Generalisierung ist es unerlässlich, dass grundlegende Video-Sprache-Modelle über ein Zeitbewusstsein verfügen. In diesem Paper betrachten wir einen spezifischen Aspekt des zeitlichen Verständnisses: die Konsistenz der zeitlichen Reihenfolge, wie sie durch vor/nach-Beziehungen erfasst wird. Wir zeigen, dass sieben bestehende Video-Sprache-Modelle bereits solche einfachen zeitlichen Relationen nicht hinreichend verstehen. Daraufhin fragen wir, ob es möglich ist, diesen grundlegenden Modellen temporales Bewusstsein beizubringen, ohne sie von Grund auf neu zu trainieren. Dazu schlagen wir eine temporale Anpassungsstrategie für ein solches Modell, VideoCLIP, vor, die auf einer Nach-Prätrainingsphase mit einer geringen Menge an Video-Text-Daten basiert. Wir führen eine Zero-Shot-Evaluation der angepassten Modelle auf sechs Datensätzen für drei Anwendungsaufgaben durch, die unterschiedliche Grade an zeitlichem Bewusstsein erfordern. Wir beobachten ermutigende Leistungssteigerungen, insbesondere bei Aufgaben, die ein höheres Maß an zeitlichem Verständnis erfordern. Unser Ansatz stellt einen ersten Schritt dar, um das zeitliche Bewusstsein in bestehenden Video-Sprache-Modellen zu untersuchen und zu fördern, ohne umfangreiche, daten- und rechenintensive Neutrainings von Grund auf durchführen zu müssen.