MAD: Ein skalierbares Datensatz für die Sprachverankerung in Videos aus Filmaudiosbeschreibungen

Das wachsende Interesse an Video-Sprach-Forschung hat die Entwicklung umfangreicher Datensätze angetrieben, die datenintensive maschinelle Lernmethoden ermöglichen. Im Vergleich dazu wurden bisher nur begrenzte Anstrengungen unternommen, um die Eignung dieser Datensätze für die Video-Sprach-Verankerung zu bewerten. Kürzliche Studien haben erhebliche Einschränkungen in diesen Datensätzen entdeckt, was darauf hindeutet, dass fortschrittliche Methoden häufig auf verborgene Verzerrungen der Datensätze übertrainiert werden. In dieser Arbeit stellen wir MAD (Movie Audio Descriptions) vor, einen neuen Benchmark, der sich von dem Paradigma abwendet, bestehende Videodatensätze mit Textannotierungen zu erweitern, und stattdessen den Schwerpunkt auf das Crawlen und Ausrichten verfügbarer Audiodescriptions von Mainstream-Filmen legt. MAD enthält über 384.000 natürlichsprachliche Sätze, die in mehr als 1.200 Stunden Videos verankert sind, und zeigt eine signifikante Reduzierung der derzeit diagnostizierten Verzerrungen für Video-Sprach-Verankerungsdatensätze. Die Sammelstrategie von MAD ermöglicht eine neuartige und herausforderndere Version der Video-Sprach-Verankerung, bei der kurze zeitliche Momente (typischerweise Sekunden lang) in diversen Langform-Videos akkurat verankert werden müssen, die bis zu drei Stunden dauern können. Wir haben die Daten und Baseline-Code von MAD unter https://github.com/Soldelli/MAD veröffentlicht.