DiffusionRet: Generativer Text-Video-Retrieval mit Diffusionsmodell

Bestehende Ansätze zur Text-Video-Retrieval basieren im Wesentlichen auf diskriminativen Modellen, die darauf abzielen, die bedingte Wahrscheinlichkeit zu maximieren, also p(Kandidaten|Abfrage). Obwohl dieser Ansatz einfach ist, vernachlässigt er die zugrundeliegende Datenausgangsverteilung p(Abfrage), was die Erkennung von Daten außerhalb der Trainingsverteilung erschwert. Um diese Limitation zu überwinden, greifen wir kreativ auf einen generativen Ansatz zurück und modellieren die Korrelation zwischen Text und Video als gemeinsame Wahrscheinlichkeit p(Kandidaten, Abfrage). Dies wird durch einen diffusionbasierten Text-Video-Retrieval-Framework (DiffusionRet) erreicht, der die Retrieval-Aufgabe als Prozess der schrittweisen Generierung der gemeinsamen Verteilung aus Rauschen modelliert. Während des Trainings wird DiffusionRet sowohl aus generativer als auch aus diskriminativer Perspektive optimiert: Der Generator wird mittels Generierungsverlust optimiert, während der Merkmalsextraktor mit einem kontrastiven Verlust trainiert wird. Auf diese Weise nutzt DiffusionRet geschickt die Stärken beider Ansätze – generativer und diskriminativer Methoden. Umfassende Experimente an fünf gängigen Benchmarks für Text-Video-Retrieval – darunter MSRVTT, LSMDC, MSVD, ActivityNet Captions und DiDeMo – zeigen überzeugende Ergebnisse und belegen die Wirksamkeit unseres Ansatzes. Noch ermutigender ist, dass DiffusionRet ohne jegliche Modifikation auch in Szenarien mit Daten außerhalb der Trainingsverteilung (out-of-distribution) gut abschneidet. Wir sind überzeugt, dass diese Arbeit grundlegende Erkenntnisse für die betroffenen Forschungsfelder liefert. Der Quellcode ist unter https://github.com/jpthu17/DiffusionRet verfügbar.