HyperAIHyperAI

Command Palette

Search for a command to run...

DiffusionRet: Generativer Text-Video-Retrieval mit Diffusionsmodell

Peng Jin Hao Li Zesen Cheng Kehan Li Xiangyang Ji Chang Liu Li Yuan Jie Chen

Zusammenfassung

Bestehende Ansätze zur Text-Video-Retrieval basieren im Wesentlichen auf diskriminativen Modellen, die darauf abzielen, die bedingte Wahrscheinlichkeit zu maximieren, also p(Kandidaten|Abfrage). Obwohl dieser Ansatz einfach ist, vernachlässigt er die zugrundeliegende Datenausgangsverteilung p(Abfrage), was die Erkennung von Daten außerhalb der Trainingsverteilung erschwert. Um diese Limitation zu überwinden, greifen wir kreativ auf einen generativen Ansatz zurück und modellieren die Korrelation zwischen Text und Video als gemeinsame Wahrscheinlichkeit p(Kandidaten, Abfrage). Dies wird durch einen diffusionbasierten Text-Video-Retrieval-Framework (DiffusionRet) erreicht, der die Retrieval-Aufgabe als Prozess der schrittweisen Generierung der gemeinsamen Verteilung aus Rauschen modelliert. Während des Trainings wird DiffusionRet sowohl aus generativer als auch aus diskriminativer Perspektive optimiert: Der Generator wird mittels Generierungsverlust optimiert, während der Merkmalsextraktor mit einem kontrastiven Verlust trainiert wird. Auf diese Weise nutzt DiffusionRet geschickt die Stärken beider Ansätze – generativer und diskriminativer Methoden. Umfassende Experimente an fünf gängigen Benchmarks für Text-Video-Retrieval – darunter MSRVTT, LSMDC, MSVD, ActivityNet Captions und DiDeMo – zeigen überzeugende Ergebnisse und belegen die Wirksamkeit unseres Ansatzes. Noch ermutigender ist, dass DiffusionRet ohne jegliche Modifikation auch in Szenarien mit Daten außerhalb der Trainingsverteilung (out-of-distribution) gut abschneidet. Wir sind überzeugt, dass diese Arbeit grundlegende Erkenntnisse für die betroffenen Forschungsfelder liefert. Der Quellcode ist unter https://github.com/jpthu17/DiffusionRet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp