HyperAIHyperAI

Command Palette

Search for a command to run...

MAD: Ein skalierbares Datensatz für die Sprachverankerung in Videos aus Filmaudiosbeschreibungen

Mattia Soldan Alejandro Pardo Juan León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Bernard Ghanem

Zusammenfassung

Das wachsende Interesse an Video-Sprach-Forschung hat die Entwicklung umfangreicher Datensätze angetrieben, die datenintensive maschinelle Lernmethoden ermöglichen. Im Vergleich dazu wurden bisher nur begrenzte Anstrengungen unternommen, um die Eignung dieser Datensätze für die Video-Sprach-Verankerung zu bewerten. Kürzliche Studien haben erhebliche Einschränkungen in diesen Datensätzen entdeckt, was darauf hindeutet, dass fortschrittliche Methoden häufig auf verborgene Verzerrungen der Datensätze übertrainiert werden. In dieser Arbeit stellen wir MAD (Movie Audio Descriptions) vor, einen neuen Benchmark, der sich von dem Paradigma abwendet, bestehende Videodatensätze mit Textannotierungen zu erweitern, und stattdessen den Schwerpunkt auf das Crawlen und Ausrichten verfügbarer Audiodescriptions von Mainstream-Filmen legt. MAD enthält über 384.000 natürlichsprachliche Sätze, die in mehr als 1.200 Stunden Videos verankert sind, und zeigt eine signifikante Reduzierung der derzeit diagnostizierten Verzerrungen für Video-Sprach-Verankerungsdatensätze. Die Sammelstrategie von MAD ermöglicht eine neuartige und herausforderndere Version der Video-Sprach-Verankerung, bei der kurze zeitliche Momente (typischerweise Sekunden lang) in diversen Langform-Videos akkurat verankert werden müssen, die bis zu drei Stunden dauern können. Wir haben die Daten und Baseline-Code von MAD unter https://github.com/Soldelli/MAD veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MAD: Ein skalierbares Datensatz für die Sprachverankerung in Videos aus Filmaudiosbeschreibungen | Paper | HyperAI