HyperAIHyperAI

Command Palette

Search for a command to run...

Dual-Modale Aufmerksamkeitsverstärkte Text-Video-Recherche mit triplettem partiellen Margin-Kontrastlernende

Zusammenfassung

In den letzten Jahren hat die Explosion von Web-Videos die Text-Video-Retrieval-Aufgabe zunehmend wichtig und populär gemacht, insbesondere für Video-Filterung, -Empfehlung und -Suche. Ziel des Text-Video-Retrievals ist es, relevante Texte bzw. Videos gegenüber irrelevanten zu priorisieren. Der Kern dieser Aufgabe besteht darin, die Kreuzmodale Ähnlichkeit zwischen Texten und Videos präzise zu messen. In jüngster Zeit haben kontrastive Lernmethoden vielversprechende Ergebnisse für das Text-Video-Retrieval erzielt, wobei die meisten Ansätze auf der Konstruktion von positiven und negativen Paaren basieren, um Text- und Video-Repräsentationen zu lernen. Dennoch wird den sogenannten „hard negatives“ (schwer erkennbaren Negativen) bisher nicht ausreichend Aufmerksamkeit geschenkt, und es fehlt die Fähigkeit, unterschiedliche Grade semantischer Ähnlichkeit zu modellieren. Um diese beiden Probleme anzugehen, verbessern wir das kontrastive Lernen durch zwei neuartige Techniken. Erstens nutzen wir zur Ausnutzung schwieriger Beispiele für eine robuste Unterscheidungskraft einen neuen Dual-Modal Attention-Enhanced Module (DMAE), der harte negative Paare anhand von textuellen und visuellen Hinweisen extrahiert. Durch die zusätzliche Einführung einer negativbewussten InfoNCE-Verlustfunktion (NegNCE) können wir diese harten Negativen adaptiv identifizieren und ihre Auswirkungen im Trainingsverlust explizit verstärken. Zweitens argumentieren wir, dass Triplet-Samples im Vergleich zu Paarweisen besser in der Lage sind, fein abgestufte semantische Ähnlichkeiten zu modellieren. Daher stellen wir einen neuen Triplet Partial Margin Contrastive Learning (TPM-CL)-Modul vor, der partielle Ordnungstriplets durch automatische Generierung fein abgestufter harter Negativen für passende Text-Video-Paare konstruiert. Der vorgeschlagene TPM-CL-Modul integriert eine adaptive Token-Masking-Strategie mit intermodaler Interaktion, um subtile semantische Unterschiede zu erfassen. Umfangreiche Experimente zeigen, dass der vorgeschlagene Ansatz gegenüber bestehenden Methoden auf vier weit verbreiteten Text-Video-Retrieval-Datensätzen – inklusive MSR-VTT, MSVD, DiDeMo und ActivityNet – überlegen ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Dual-Modale Aufmerksamkeitsverstärkte Text-Video-Recherche mit triplettem partiellen Margin-Kontrastlernende | Paper | HyperAI