HyperAIHyperAI
vor 2 Monaten

TVR: Ein großskaliges Datensatz für die Video-Untertitel-Moment-Recherche

Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal
TVR: Ein großskaliges Datensatz für die Video-Untertitel-Moment-Recherche
Abstract

Wir stellen TV show Retrieval (TVR), ein neues multimodales Retrieval-Datenset, vor. TVR erfordert von Systemen die gleichzeitige Verarbeitung von Videos und den zugehörigen Untertiteln (Dialogtexten), wodurch die Aufgabe realistischer wird. Das Datenset umfasst 109.000 Abfragen, die auf 21.800 Videos aus sechs verschiedenen Fernsehserien unterschiedlicher Genres gesammelt wurden, wobei jede Abfrage mit einem engen zeitlichen Fenster verknüpft ist. Die Abfragen sind zudem mit Abfragetypen beschriftet, die angeben, ob sie stärker mit dem Video, dem Untertitel oder beiden Modalitäten verknüpft sind. Dies ermöglicht eine detaillierte Analyse des Datensets sowie der darauf basierenden Methoden. Strengere Qualifizierungskriterien und Nach-Annotation-Verifizierungsverfahren wurden angewendet, um die Qualität der gesammelten Daten sicherzustellen. Darüber hinaus präsentieren wir mehrere Baseline-Modelle sowie ein neuartiges Cross-modal Moment Localization (XML)-Netzwerk für multimodale Moment-Abfrageaufgaben. Das vorgeschlagene XML-Modell verwendet einen späten Fusionsansatz mit einem neuartigen Convolutional Start-End-Detektor (ConvSE), das die Baselines deutlich übertrifft und dabei eine bessere Effizienz aufweist, wodurch es eine starke Ausgangsbasis für zukünftige Forschung darstellt. Zudem haben wir zusätzliche Beschreibungen für jedes annotierte Moment in TVR gesammelt, um ein neues multimodales Captioning-Datenset mit insgesamt 262.000 Caption zu erstellen, das als TV show Caption (TVC) bezeichnet wird. Beide Datensets sind öffentlich zugänglich. TVR: https://tvr.cs.unc.edu, TVC: https://tvr.cs.unc.edu/tvc.html.