QVHighlights: Erkennung von Momenten und Highlights in Videos über natürliche Sprachanfragen

Die Erkennung maßgeschneiderter Momente und Highlights aus Videos anhand natürlicher Sprache (NL) gestellter Benutzeranfragen ist ein wichtiger, jedoch bisher wenig erforschter Forschungsbereich. Ein zentrales Hindernis bei der Verfolgung dieser Richtung ist der Mangel an annotierten Datensätzen. Um dieses Problem anzugehen, präsentieren wir den Query-based Video Highlights (QVHIGHLIGHTS)-Datensatz. Er umfasst über 10.000 YouTube-Videos und deckt eine breite Palette an Themen ab, von alltäglichen Aktivitäten und Reisen in Lifestyle-Vlogs bis hin zu sozialen und politischen Ereignissen in Nachrichtenclips. Jedes Video im Datensatz ist annotiert mit: (1) einer frei formulierte, menschlich verfassten NL-Anfrage, (2) relevanten Momenten im Video im Hinblick auf die Anfrage und (3) fünfpunktigen Saliency-Scores für alle anfragebezogenen Clips. Diese umfassende Annotation ermöglicht die Entwicklung und Evaluation von Systemen, die relevante Momente sowie auffällige Highlights für vielfältige und flexible Benutzeranfragen erkennen können. Zudem stellen wir eine starke Baseline für diese Aufgabe vor: Moment-DETR, ein Transformer-Encoder-Decoder-Modell, das die Moment-Extraktion als direktes Set-Prädiktionsproblem betrachtet. Es nimmt extrahierte Video- und Anfrage-Repräsentationen als Eingaben und prognostiziert end-to-end sowohl Momentkoordinaten als auch Saliency-Scores. Obwohl unser Modell keinerlei menschliche Vorwissen nutzt, zeigen wir, dass es gegenüber gut durchdachten Architekturen konkurrenzfähig abschneidet. Durch schwach überwachtes Vortrainieren mittels ASR-Untertitel erreicht Moment-DETR deutlich bessere Ergebnisse als vorherige Ansätze. Schließlich präsentieren wir mehrere Ablationen und Visualisierungen von Moment-DETR. Die Datensätze und der Quellcode sind öffentlich unter https://github.com/jayleicn/moment_detr verfügbar.