HowTo100M: Lernen einer Text-Video-Embedding-Darstellung durch das Ansehen von Hunderten Millionen erzählten Videoausschnitten

Das Lernen von Text-Video-Einbettungen erfordert in der Regel einen Datensatz mit Videoausschnitten, die manuell beschriftet wurden. Allerdings sind solche Datensätze aufwendig und zeitaufwendig zu erstellen und daher schwer zu beschaffen, insbesondere in großem Umfang. In dieser Arbeit schlagen wir stattdessen vor, solche Einbettungen aus Videodaten mit leicht verfügbarer natürlichsprachlicher Annotation in Form automatisch transkribierter Erzählungen zu lernen. Die Beiträge dieser Arbeit sind dreifach:Erstens führen wir HowTo100M ein: einen großen Datensatz mit 136 Millionen Videoausschnitten, die aus 1,22 Millionen narrativen Anleitungsvideos im Web stammen und Menschen beim Durchführen und Beschreiben von über 23.000 verschiedenen visuellen Aufgaben zeigen. Unser Verfahren zur Datensammlung ist schnell, skalierbar und erfordert keine zusätzliche manuelle Annotation.Zweitens zeigen wir, dass eine Text-Video-Einbettung, die auf diesen Daten trainiert wurde, zu Stand der Technik gehörende Ergebnisse bei der Text-zu-Video-Retrieval und der Aktionsskalierung auf Anleitungsvideodatensätzen wie YouCook2 oder CrossTask führt.Schließlich demonstrieren wir, dass diese Einbettung sich gut auf andere Domains überträgt: Das Feinjustieren auf allgemeinen YouTube-Videos (MSR-VTT-Datensatz) und Filmen (LSMDC-Datensatz) übertrifft Modelle, die allein auf diesen Datensätzen trainiert wurden.Unser Datensatz, unser Code und unsere Modelle werden öffentlich zugänglich sein unter: www.di.ens.fr/willow/research/howto100m/.