HyperAIHyperAI
vor 7 Tagen

Erkennung von Momenten und Highlights in Videos mittels natürlicher Sprachabfragen

{Mohit Bansal, Tamara Berg, Jie Lei}
Erkennung von Momenten und Highlights in Videos mittels natürlicher Sprachabfragen
Abstract

Die Erkennung maßgeschneiderter Momente und Highlights aus Videos anhand natürlicher Sprache (NL) formulierter Benutzeranfragen ist ein wichtiger, jedoch bisher wenig untersuchter Forschungsbereich. Ein zentrales Hindernis bei der Erforschung dieses Themas ist das Fehlen annotierter Datensätze. Um dieses Problem anzugehen, präsentieren wir den Query-based Video Highlights (QVHighlights)-Datensatz. Er umfasst über 10.000 YouTube-Videos, die eine breite Palette an Themen abdecken – von alltäglichen Aktivitäten und Reiseberichten in Lifestyle-Vlogs bis hin zu sozialen und politischen Ereignissen in Nachrichtenfilmen. Jedes Video wurde annotiert mit: (1) einer frei formulierten, menschlich verfassten NL-Anfrage, (2) relevanten Momenten im Video im Hinblick auf die Anfrage und (3) fünfpunktigen Salienz-Scores für alle anfragebezogenen Clips. Diese umfassende Annotation ermöglicht die Entwicklung und Bewertung von Systemen, die relevante Momente sowie auffällige Highlights für vielfältige und flexible Benutzeranfragen detektieren können. Zudem stellen wir eine starke Baseline für diese Aufgabe vor: Moment-DETR, ein Transformer-Encoder-Decoder-Modell, das die Moment-Entdeckung als direktes Set-Vorhersage-Problem betrachtet. Es nimmt extrahierte Video- und Anfrage-Repräsentationen als Eingabe und prognostiziert end-to-end sowohl Moment-Koordinaten als auch Salienz-Scores. Obwohl unser Modell keinerlei menschliche Vorwissen nutzt, erzielt es gegenüber gut durchdachten Architekturen konkurrenzfähige Ergebnisse. Durch schwach überwachtes Vortrainieren mit ASR-Untertiteln (Automatisierte Spracherkennung) übertrifft Moment-DETR deutlich vorherige Ansätze. Schließlich präsentieren wir mehrere Ablationen und Visualisierungen von Moment-DETR. Die Datensätze und der zugehörige Code sind öffentlich verfügbar unter https://github.com/jayleicn/moment_detr.

Erkennung von Momenten und Highlights in Videos mittels natürlicher Sprachabfragen | Neueste Forschungsarbeiten | HyperAI