HyperAIHyperAI
vor 8 Tagen

Multimodale Vortrainierung für dichte Videozusammenfassung

Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, Radu Soricut
Multimodale Vortrainierung für dichte Videozusammenfassung
Abstract

Die Vermittlung spezifischer praktischer Fähigkeiten wie Kochen, Autowartung und Reparaturen im Haushalt erfolgt zunehmend über Anleitungs-Videos. Die Benutzererfahrung mit solchen Videos lässt sich bekanntermaßen durch Meta-Informationen wie zeitgestempelte Annotationen der wichtigsten Schritte verbessern. Die automatische Generierung solcher Annotationen ist jedoch herausfordernd, und wir beschreiben hier zwei relevante Beiträge. Erstens stellen wir einen neuen, dichten Video-Kommentar-Datensatz namens Video Timeline Tags (ViTT) vor, der eine Vielzahl von Anleitungs-Videos zusammen mit zeitgestempelten Annotationen enthält. Zweitens untersuchen wir verschiedene multimodale sequenz-zu-Sequenz-Vortraining-Strategien, die große, unüberwachte Datensätze aus Videos und caption-ähnlichen Texten nutzen. Wir vortrainieren und anschließend fine-tunen dichte Video-Kommentar-Modelle sowohl auf YouCook2 als auch auf ViTT. Wir zeigen, dass solche Modelle gut generalisieren und robust gegenüber einer breiten Vielfalt an Anleitungs-Videos sind.

Multimodale Vortrainierung für dichte Videozusammenfassung | Neueste Forschungsarbeiten | HyperAI