HyperAIHyperAI

Command Palette

Search for a command to run...

X-Pool: Cross-Modal Language-Video Attention für Text-Video-Retrieval

Satya Krishna Gorti Noel Vouitsis Junwei Ma Keyvan Golestan Maksims Volkovs Animesh Garg Guangwei Yu

Zusammenfassung

Bei der Text-Videoretrieval-Aufgabe besteht das Ziel darin, eine cross-modale Ähnlichkeitsfunktion zwischen Text und Video zu lernen, die relevante Text-Videopaare gegenüber irrelevanten Paaren höher einstuft. Allerdings drücken Videos intrinsisch ein weitaus größeres Informationspektrum aus als Texte. Im Gegensatz dazu erfassen Texte häufig nur Teilbereiche ganzer Videos und sind semantisch am ähnlichsten bestimmten Bildern innerhalb der Videos. Daher sollte ein Retrieval-Modell für einen gegebenen Text sich auf die semantisch am stärksten mit dem Text übereinstimmenden Subregionen des Videos konzentrieren, um eine relevantere Vergleichsgrundlage zu schaffen. Bisherige Ansätze aggregieren jedoch in der Regel die gesamten Videos, ohne direkt auf den Text zu achten. Häufig verwendete, textunabhängige Aggregationsverfahren wie Mean-Pooling oder Selbst-Attention über die Frames können dagegen verfälschende visuelle Informationen erfassen, die im gegebenen Text nicht beschrieben sind. Um dieses Problem zu lösen, schlagen wir ein cross-modales Aufmerksamkeitsmodell namens X-Pool vor, das zwischen Text und den Frames eines Videos reasoning betreibt. Unser zentrales Mechanismus basiert auf einem skalierten Dot-Product-Attention-Verfahren, mit dem der Text auf die semantisch am besten passenden Frames fokussiert. Anschließend generieren wir eine aggregierte Video-Darstellung, die bedingt durch die Aufmerksamkeitsgewichte des Texts über die Frames ist. Wir evaluieren unsere Methode auf drei etablierten Benchmark-Datensätzen – MSR-VTT, MSVD und LSMDC – und erreichen dabei neue SOTA-Ergebnisse mit bis zu 12 % relativer Verbesserung in Recall@1. Unsere Ergebnisse unterstreichen somit die Bedeutung gemeinsamen Text-Video-Reasoning zur Extraktion relevanter visueller Hinweise auf Basis des Textes. Der vollständige Code und eine Demo sind unter folgender URL verfügbar: https://layer6ai-labs.github.io/xpool/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
X-Pool: Cross-Modal Language-Video Attention für Text-Video-Retrieval | Paper | HyperAI