Multimodale Vortrainierung für dichte Videozusammenfassung

Die Vermittlung spezifischer praktischer Fähigkeiten wie Kochen, Autowartung und Reparaturen im Haushalt erfolgt zunehmend über Anleitungs-Videos. Die Benutzererfahrung mit solchen Videos lässt sich bekanntermaßen durch Meta-Informationen wie zeitgestempelte Annotationen der wichtigsten Schritte verbessern. Die automatische Generierung solcher Annotationen ist jedoch herausfordernd, und wir beschreiben hier zwei relevante Beiträge. Erstens stellen wir einen neuen, dichten Video-Kommentar-Datensatz namens Video Timeline Tags (ViTT) vor, der eine Vielzahl von Anleitungs-Videos zusammen mit zeitgestempelten Annotationen enthält. Zweitens untersuchen wir verschiedene multimodale sequenz-zu-Sequenz-Vortraining-Strategien, die große, unüberwachte Datensätze aus Videos und caption-ähnlichen Texten nutzen. Wir vortrainieren und anschließend fine-tunen dichte Video-Kommentar-Modelle sowohl auf YouCook2 als auch auf ViTT. Wir zeigen, dass solche Modelle gut generalisieren und robust gegenüber einer breiten Vielfalt an Anleitungs-Videos sind.