Weniger ist mehr: ClipBERT für die Video-und-Sprache-Lernung durch spärliche Probenentnahme

Der klassische Ansatz für die Lernung von Video- und Sprachaufgaben (z. B. Video-Fragebeantwortung) sieht vor, dass ein neuronales Modell aus offline-extrahierten dichten Video-Features aus visuellen Modellen und Text-Features aus Sprachmodellen lernt. Diese Feature-Extraktoren werden unabhängig voneinander trainiert und meistens auf Aufgaben, die sich von den Zielbereichen unterscheiden, wodurch diese festen Features für nachgeschaltete Aufgaben suboptimal sind. Zudem führt die hohe rechnerische Belastung durch dichte Video-Features oft dazu, dass die direkte Integration der Extraktoren in bestehende Ansätze zur einfachen Feinabstimmung schwierig (oder gar unmöglich) ist. Um dieses Dilemma zu lösen, schlagen wir einen generischen Rahmen namens ClipBERT vor, der kostengünstiges End-to-End-Lernen für Video- und Sprachaufgaben ermöglicht, indem er sparsames Sampling nutzt: Bei jedem Trainings-Schritt werden lediglich ein oder wenige sparsam ausgewählte kurze Clips aus einem Video verwendet. Experimente auf sechs Datensätzen zur Text-zu-Video-Abfrage und Video-Fragebeantwortung zeigen, dass ClipBERT die Leistung bestehender Methoden übertrifft (oder zumindest erreicht), die vollständige Videos nutzen, was darauf hindeutet, dass das End-to-End-Lernen mit nur wenigen sparsam ausgewählten Clips oft genauer ist als die Nutzung dichter, offline extrahierter Features aus vollständigen Videos – ein Beweis für das sprichwörtliche Prinzip „Weniger ist mehr“. Die Videos in den Datensätzen stammen aus erheblich unterschiedlichen Domänen und haben Längen zwischen 3 Sekunden (allgemeine GIF-Videos) und 180 Sekunden (YouTube-Videos menschlicher Aktivitäten), was die Generalisierungsfähigkeit unseres Ansatzes unterstreicht. Um die Ursachen für diesen Erfolg zu verstehen, liefern wir umfassende Ablationsstudien und detaillierte Analysen. Unser Quellcode ist öffentlich unter https://github.com/jayleicn/ClipBERT verfügbar.