HyperAIHyperAI

Command Palette

Search for a command to run...

QVHighlights: Erkennung von Momenten und Highlights in Videos über natürliche Sprachanfragen

Jie Lei Tamara L. Berg Mohit Bansal

Zusammenfassung

Die Erkennung maßgeschneiderter Momente und Highlights aus Videos anhand natürlicher Sprache (NL) gestellter Benutzeranfragen ist ein wichtiger, jedoch bisher wenig erforschter Forschungsbereich. Ein zentrales Hindernis bei der Verfolgung dieser Richtung ist der Mangel an annotierten Datensätzen. Um dieses Problem anzugehen, präsentieren wir den Query-based Video Highlights (QVHIGHLIGHTS)-Datensatz. Er umfasst über 10.000 YouTube-Videos und deckt eine breite Palette an Themen ab, von alltäglichen Aktivitäten und Reisen in Lifestyle-Vlogs bis hin zu sozialen und politischen Ereignissen in Nachrichtenclips. Jedes Video im Datensatz ist annotiert mit: (1) einer frei formulierte, menschlich verfassten NL-Anfrage, (2) relevanten Momenten im Video im Hinblick auf die Anfrage und (3) fünfpunktigen Saliency-Scores für alle anfragebezogenen Clips. Diese umfassende Annotation ermöglicht die Entwicklung und Evaluation von Systemen, die relevante Momente sowie auffällige Highlights für vielfältige und flexible Benutzeranfragen erkennen können. Zudem stellen wir eine starke Baseline für diese Aufgabe vor: Moment-DETR, ein Transformer-Encoder-Decoder-Modell, das die Moment-Extraktion als direktes Set-Prädiktionsproblem betrachtet. Es nimmt extrahierte Video- und Anfrage-Repräsentationen als Eingaben und prognostiziert end-to-end sowohl Momentkoordinaten als auch Saliency-Scores. Obwohl unser Modell keinerlei menschliche Vorwissen nutzt, zeigen wir, dass es gegenüber gut durchdachten Architekturen konkurrenzfähig abschneidet. Durch schwach überwachtes Vortrainieren mittels ASR-Untertitel erreicht Moment-DETR deutlich bessere Ergebnisse als vorherige Ansätze. Schließlich präsentieren wir mehrere Ablationen und Visualisierungen von Moment-DETR. Die Datensätze und der Quellcode sind öffentlich unter https://github.com/jayleicn/moment_detr verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
QVHighlights: Erkennung von Momenten und Highlights in Videos über natürliche Sprachanfragen | Paper | HyperAI