HyperAIHyperAI
vor 9 Tagen

X-CLIP: Ende-zu-Ende mehrschaliges kontrastives Lernen für Video-Text-Retrieval

Yiwei Ma, Guohai Xu, Xiaoshuai Sun, Ming Yan, Ji Zhang, Rongrong Ji
X-CLIP: Ende-zu-Ende mehrschaliges kontrastives Lernen für Video-Text-Retrieval
Abstract

Die Video-Text-Retrieval-Aufgabe stellt eine zentrale und grundlegende Herausforderung im Bereich der multimodalen Forschung dar. Die Entwicklung des Video-Text-Retrievals wurde erheblich durch großskalige, multimodale kontrastive Vortrainingsansätze vorangetrieben, die sich hauptsächlich auf grob- oder feinkörnige Kontrastierung konzentrieren. Die Kreuz-granulare Kontrastierung – also die Kontrastierung zwischen grob- und feinkörnigen Darstellungen – wurde in vorangegangenen Arbeiten jedoch kaum erforscht. Im Gegensatz zu rein grob- oder feinkörnigen Kontrastierungsansätzen berechnet die kreuz-granulare Kontrastierung die Korrelation zwischen grobkörnigen Merkmalen und jedem einzelnen feinkörnigen Merkmal. Dadurch kann während der Ähnlichkeitsberechnung durch die Führung durch die grobkörnigen Merkmale unnötige feinkörnige Merkmale effizient ausgeschlossen werden, was die Genauigkeit der Retrievale verbessert. Um dieses Potenzial auszuschöpfen, präsentieren wir in diesem Artikel ein neuartiges mehrgranulares kontrastives Modell namens X-CLIP für das Video-Text-Retrieval. Ein weiterer zentraler Herausforderung besteht im sogenannten Similarity-Aggregation-Problem, das darin besteht, feinkörnige und kreuz-granulare Ähnlichkeitsmatrizen zu einer instanzbasierten Ähnlichkeitsbewertung zu aggregieren. Um dieses Problem zu lösen, schlagen wir das Attention Over Similarity Matrix (AOSM)-Modul vor, das es dem Modell ermöglicht, sich auf die Kontrastierung zwischen essentiellen Bildern und Wörtern zu konzentrieren und somit die Beeinflussung durch unnötige Bilder und Wörter auf die Retrievaleistung zu minimieren. Durch die Kombination mehrgranularer Kontrastierung und des vorgeschlagenen AOSM-Moduls erzielt X-CLIP herausragende Ergebnisse auf fünf etablierten Video-Text-Retrieval-Datensätzen, darunter MSR-VTT (49,3 R@1), MSVD (50,4 R@1), LSMDC (26,1 R@1), DiDeMo (47,8 R@1) und ActivityNet (46,2 R@1). Im Vergleich zu vorherigen State-of-the-Art-Methoden erreicht X-CLIP relative Verbesserungen von +6,3 %, +6,6 %, +11,1 %, +6,7 % und +3,8 % auf diesen Benchmarks und demonstriert damit die Überlegenheit der mehrgranularen Kontrastierung sowie des AOSM-Moduls.

X-CLIP: Ende-zu-Ende mehrschaliges kontrastives Lernen für Video-Text-Retrieval | Neueste Forschungsarbeiten | HyperAI