Offenlegung des Einzelbildverzerrungs für das Lernen von Video- und Sprachinhalten

Das Training eines effektiven Video-und-Sprachmodells erfordert intuitiv mehrere Bilder als Eingaben für das Modell. Es ist jedoch unklar, ob die Verwendung mehrerer Bilder für nachgelagerte Aufgaben vorteilhaft ist und, falls ja, ob der Leistungsanstieg die stark erhöhten Rechen- und Speicherkosten rechtfertigt, die durch die Verwendung zusätzlicher Bilder entstehen. In dieser Arbeit untersuchen wir Einzelbildmodelle für das Lernen von Video-und-Sprachaufgaben. Anhand einer vielfältigen Reihe von Video-und-Sprachaufgaben (einschließlich Text-zu-Video-Retrieval und Video-Fragebeantwortung) zeigen wir überraschende Ergebnisse: Mit groß angelegtem Vor-Training und einer geeigneten Bildverbindungsstrategie zur Inferenz kann ein auf Einzelbildern trainiertes Modell, das zeitliche Informationen nicht berücksichtigt, bessere Leistungen erzielen als bestehende Methoden, die mehrere Bilder für das Training verwenden. Dieses Ergebnis legt nahe, dass in gängigen Video-und-Sprachdatensätzen ein starker „statischer Erscheinungsbias“ besteht. Um eine umfassendere Bewertung von Video-und-Sprachmodellen zu ermöglichen, schlagen wir zwei neue Retrieval-Aufgaben vor, die auf existierenden feinkörnigen Aktionserkennungsdatensätzen basieren und temporales Modellieren fördern. Unser Code ist unter https://github.com/jayleicn/singularity verfügbar.