DiffusionVMR: Diffusionsmodell für die gemeinsame Video-Moment-Retrieval und Highlight-Erkennung

Die Video-Moment-Retrieval und die Highlight-Detektion haben in der aktuellen Ära der Videoinhaltsvermehrung Aufmerksamkeit gefunden, wobei das Ziel darin besteht, Momente zu lokalisieren und die Relevanz von Clips auf Basis benutzerspezifischer Abfragen zu schätzen. Da Videoinhalte zeitlich kontinuierlich sind, fehlen oft klare Grenzen zwischen zeitlichen Ereignissen in einem Video. Diese Grenzunsicherheit macht es für das Modell schwierig, Text-Videoclip-Korrespondenzen zu lernen, was zu mangelhaften Leistungen bestehender Methoden bei der Vorhersage von Zielsegmenten führt. Um dieses Problem zu lindern, schlagen wir vor, die beiden Aufgaben aus der Perspektive der Denoising-Generierung gemeinsam zu lösen. Darüber hinaus kann das Zielgebiet durch eine iterative Verfeinerung von grob zu fein klar lokalisiert werden. Insbesondere wird ein neues Framework, DiffusionVMR, vorgeschlagen, um die beiden Aufgaben als einen vereinten bedingten Denoising-Generierungsprozess neu zu definieren, indem es das Diffusionsmodell kombiniert. Während des Trainings wird Gaußsches Rauschen hinzugefügt, um die Ground Truth zu verzerren, wobei rauschige Kandidaten als Eingabe erzeugt werden. Das Modell wird trainiert, diesen Rauschzusatz-Prozess umzukehren. Im Inferenzphasen startet DiffusionVMR direkt mit Gaußschem Rauschen und verfeinert die Vorschläge schrittweise vom Rauschen zum sinnvollen Output. Bemerkenswerterweise erbt das vorgeschlagene DiffusionVMR die Vorteile des Diffusionsmodells, die es ermöglichen, während der Inferenz iterativ verfeinerte Ergebnisse zu erzielen und den Übergang von grob zu fein an den Grenzen zu verbessern. Des Weiteren sind Training und Inferenz von DiffusionVMR entkoppelt. Eine beliebige Einstellung kann während der Inferenz in DiffusionVMR verwendet werden, ohne dass sie mit der Trainingsphase konsistent sein muss. Ausführliche Experimente auf fünf weit verbreiteten Benchmarks (nämlich QVHighlight, Charades-STA, TACoS, YouTubeHighlights und TVSum) in zwei Aufgaben (Moment-Retrieval und/oder Highlight-Detektion) zeigen die Effektivität und Flexibilität des vorgeschlagenen DiffusionVMR.