HowToCaption: Prompting LLMs zur Skalierbaren Umwandlung von Videoannotierungen

Anweisungsvideos sind eine gängige Quelle zur Lernung von Text-Video- oder sogar multimodalen Darstellungen, indem Untertitel genutzt werden, die mittels automatischer Spracherkennungssysteme (ASR) aus dem Audio-Signal der Videos extrahiert werden. Im Gegensatz zu menschlich annotierten Captions unterscheiden sich sowohl Sprache als auch Untertitel jedoch naturgemäß von dem visuellen Inhalt der Videos und liefern daher lediglich verrauschte Aufsichtsinformationen. Dadurch bleibt die großskalige, annotierungsfreie Web-Video-Trainingsdatenbasis suboptimal für die Ausbildung von Text-Video-Modellen. In dieser Arbeit schlagen wir vor, die Fähigkeiten großer Sprachmodelle (LLMs) zu nutzen, um hochwertige, mit Videos skaliert ausgerichtete Beschreibungen zu generieren. Konkret veranlassen wir ein LLM, plausibel erscheinende Video-Captions auf Basis der ASR-Untertitel von Anleitungsvideos zu erstellen. Dazu führen wir eine Prompting-Methode ein, die längere Untertiteltexte berücksichtigen kann und somit Kontextinformationen über einzelne Sätze hinaus erfassen lässt. Darüber hinaus veranlassen wir das LLM, für jede generierte Caption Zeitstempel basierend auf den Zeitstempeln der Untertitel zu erzeugen, und richten die generierten Captions schließlich zeitlich mit dem Video aus. Auf diese Weise erhalten wir skaliert menschenähnliche Video-Captions ohne menschliche Aufsicht. Wir wenden unsere Methode auf die Untertitel des HowTo100M-Datensatzes an und erstellen dadurch einen neuen, großskaligen Datensatz namens HowToCaption. Unsere Evaluation zeigt, dass die resultierenden Captions die Leistung sowohl bei verschiedenen Benchmark-Datensätzen für zero-shot Text-Video-Abfrage und Video-Captioning erheblich verbessern, als auch eine Entkoppelung der textuellen Erzählung vom Audio ermöglichen, was die Leistung in Text-Video-Audio-Aufgaben steigert.