Abfrageabhängige Video-Darstellung für Moment-Retrieval und Highlight-Erkennung

Kürzlich sind Video-Moment-Retrieval und Highlight-Detektion (MR/HD) im Fokus geraten, da die Nachfrage nach Video-Verständnis drastisch zugenommen hat. Das zentrale Ziel von MR/HD besteht darin, den Moment zu lokalisieren und das clipweise Übereinstimmungslevel, also den Salienz-Score, mit der gegebenen Textanfrage abzuschätzen. Obwohl die neuesten transformer-basierten Modelle einige Fortschritte gebracht haben, stellten wir fest, dass diese Methoden die Informationen der gegebenen Anfrage nicht vollständig nutzen. Zum Beispiel wird die Relevanz zwischen Textanfrage und Videoinhalt manchmal vernachlässigt, wenn der Moment und seine Salienz vorhergesagt werden. Um dieses Problem anzugehen, stellen wir Query-Dependent DETR (QD-DETR) vor, einen für MR/HD angepassten Detektions-Transformer. Da wir beobachten, dass die Rolle der gegebenen Anfrage in Transformer-Architekturen unbedeutend ist, beginnt unser Codierungsmodul mit Cross-Attention-Layern, um den Kontext der Textanfrage explizit in die Videodarstellung einzubringen. Anschließend manipulieren wir die Video-Anfrage-Paare, um irrelevante Paare zu erzeugen. Solche negativen (irrelevanten) Video-Anfrage-Paare werden trainiert, niedrige Salienz-Scores zu liefern, was wiederum das Modell dazu anregt, eine präzise Übereinstimmung zwischen Anfrage-Videopaaren abzuschätzen. Schließlich präsentieren wir einen input-adaptiven Salienz-Predictor, der das Kriterium für Salienz-Scores für die gegebenen Video-Anfrage-Paare anpassbar definiert. Unsere umfangreichen Studien bestätigen die Bedeutung des Aufbaus einer anfragedependenten Darstellung für MR/HD. Insbesondere übertrifft QD-DETR state-of-the-art-Methoden auf den Datensätzen QVHighlights, TVSum und Charades-STA. Der Code ist unter github.com/wjun0830/QD-DETR verfügbar.