Dual-Modale Aufmerksamkeitsverstärkte Text-Video-Recherche mit triplettem partiellen Margin-Kontrastlernende

In den letzten Jahren hat die Explosion von Web-Videos die Text-Video-Retrieval-Aufgabe zunehmend wichtig und populär gemacht, insbesondere für Video-Filterung, -Empfehlung und -Suche. Ziel des Text-Video-Retrievals ist es, relevante Texte bzw. Videos gegenüber irrelevanten zu priorisieren. Der Kern dieser Aufgabe besteht darin, die Kreuzmodale Ähnlichkeit zwischen Texten und Videos präzise zu messen. In jüngster Zeit haben kontrastive Lernmethoden vielversprechende Ergebnisse für das Text-Video-Retrieval erzielt, wobei die meisten Ansätze auf der Konstruktion von positiven und negativen Paaren basieren, um Text- und Video-Repräsentationen zu lernen. Dennoch wird den sogenannten „hard negatives“ (schwer erkennbaren Negativen) bisher nicht ausreichend Aufmerksamkeit geschenkt, und es fehlt die Fähigkeit, unterschiedliche Grade semantischer Ähnlichkeit zu modellieren. Um diese beiden Probleme anzugehen, verbessern wir das kontrastive Lernen durch zwei neuartige Techniken. Erstens nutzen wir zur Ausnutzung schwieriger Beispiele für eine robuste Unterscheidungskraft einen neuen Dual-Modal Attention-Enhanced Module (DMAE), der harte negative Paare anhand von textuellen und visuellen Hinweisen extrahiert. Durch die zusätzliche Einführung einer negativbewussten InfoNCE-Verlustfunktion (NegNCE) können wir diese harten Negativen adaptiv identifizieren und ihre Auswirkungen im Trainingsverlust explizit verstärken. Zweitens argumentieren wir, dass Triplet-Samples im Vergleich zu Paarweisen besser in der Lage sind, fein abgestufte semantische Ähnlichkeiten zu modellieren. Daher stellen wir einen neuen Triplet Partial Margin Contrastive Learning (TPM-CL)-Modul vor, der partielle Ordnungstriplets durch automatische Generierung fein abgestufter harter Negativen für passende Text-Video-Paare konstruiert. Der vorgeschlagene TPM-CL-Modul integriert eine adaptive Token-Masking-Strategie mit intermodaler Interaktion, um subtile semantische Unterschiede zu erfassen. Umfangreiche Experimente zeigen, dass der vorgeschlagene Ansatz gegenüber bestehenden Methoden auf vier weit verbreiteten Text-Video-Retrieval-Datensätzen – inklusive MSR-VTT, MSVD, DiDeMo und ActivityNet – überlegen ist.