X-Pool: Cross-Modal Language-Video Attention für Text-Video-Retrieval

Bei der Text-Videoretrieval-Aufgabe besteht das Ziel darin, eine cross-modale Ähnlichkeitsfunktion zwischen Text und Video zu lernen, die relevante Text-Videopaare gegenüber irrelevanten Paaren höher einstuft. Allerdings drücken Videos intrinsisch ein weitaus größeres Informationspektrum aus als Texte. Im Gegensatz dazu erfassen Texte häufig nur Teilbereiche ganzer Videos und sind semantisch am ähnlichsten bestimmten Bildern innerhalb der Videos. Daher sollte ein Retrieval-Modell für einen gegebenen Text sich auf die semantisch am stärksten mit dem Text übereinstimmenden Subregionen des Videos konzentrieren, um eine relevantere Vergleichsgrundlage zu schaffen. Bisherige Ansätze aggregieren jedoch in der Regel die gesamten Videos, ohne direkt auf den Text zu achten. Häufig verwendete, textunabhängige Aggregationsverfahren wie Mean-Pooling oder Selbst-Attention über die Frames können dagegen verfälschende visuelle Informationen erfassen, die im gegebenen Text nicht beschrieben sind. Um dieses Problem zu lösen, schlagen wir ein cross-modales Aufmerksamkeitsmodell namens X-Pool vor, das zwischen Text und den Frames eines Videos reasoning betreibt. Unser zentrales Mechanismus basiert auf einem skalierten Dot-Product-Attention-Verfahren, mit dem der Text auf die semantisch am besten passenden Frames fokussiert. Anschließend generieren wir eine aggregierte Video-Darstellung, die bedingt durch die Aufmerksamkeitsgewichte des Texts über die Frames ist. Wir evaluieren unsere Methode auf drei etablierten Benchmark-Datensätzen – MSR-VTT, MSVD und LSMDC – und erreichen dabei neue SOTA-Ergebnisse mit bis zu 12 % relativer Verbesserung in Recall@1. Unsere Ergebnisse unterstreichen somit die Bedeutung gemeinsamen Text-Video-Reasoning zur Extraktion relevanter visueller Hinweise auf Basis des Textes. Der vollständige Code und eine Demo sind unter folgender URL verfügbar: https://layer6ai-labs.github.io/xpool/