HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Vortrainierung für dichte Videozusammenfassung

Gabriel Huang Bo Pang Zhenhai Zhu Clara Rivera Radu Soricut

Zusammenfassung

Die Vermittlung spezifischer praktischer Fähigkeiten wie Kochen, Autowartung und Reparaturen im Haushalt erfolgt zunehmend über Anleitungs-Videos. Die Benutzererfahrung mit solchen Videos lässt sich bekanntermaßen durch Meta-Informationen wie zeitgestempelte Annotationen der wichtigsten Schritte verbessern. Die automatische Generierung solcher Annotationen ist jedoch herausfordernd, und wir beschreiben hier zwei relevante Beiträge. Erstens stellen wir einen neuen, dichten Video-Kommentar-Datensatz namens Video Timeline Tags (ViTT) vor, der eine Vielzahl von Anleitungs-Videos zusammen mit zeitgestempelten Annotationen enthält. Zweitens untersuchen wir verschiedene multimodale sequenz-zu-Sequenz-Vortraining-Strategien, die große, unüberwachte Datensätze aus Videos und caption-ähnlichen Texten nutzen. Wir vortrainieren und anschließend fine-tunen dichte Video-Kommentar-Modelle sowohl auf YouCook2 als auch auf ViTT. Wir zeigen, dass solche Modelle gut generalisieren und robust gegenüber einer breiten Vielfalt an Anleitungs-Videos sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp