Tencent Text-Video Retrieval: Hierarchische cross-modale Interaktionen mit Multi-Level-Repräsentationen

Text-Video-Abfrage spielt eine wichtige Rolle im multimodalen Verständnis und hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen. Die meisten bestehenden Methoden konzentrieren sich darauf, kontrastive Paare zwischen gesamten Videos und vollständigen Caption-Sätzen zu erstellen, während feinabgestimmte, cross-modale Beziehungen – beispielsweise zwischen Clip-Phrase oder Frame-Wort – vernachlässigt werden. In dieser Arbeit stellen wir eine neuartige Methode namens Hierarchische Cross-Modale Interaktion (HCMI) vor, die mehrstufige cross-modale Beziehungen zwischen Video-Satz, Clip-Phrase und Frame-Wort für die Text-Video-Abfrage untersucht. Unter Berücksichtigung inhärenter semantischer Frame-Beziehungen wendet HCMI Selbst-Attention an, um Frame-Ebene-Korrelationen zu erforschen und korrelierte Frames adaptiv zu Clustern, um so clip- und video-ebene Repräsentationen zu generieren. Auf diese Weise konstruiert HCMI mehrstufige Video-Repräsentationen für die Granularitäten Frame-Clip-Video, um feinabgestimmte Video-Inhalte zu erfassen, und mehrstufige Text-Repräsentationen auf den Granularitäten Wort-Phrase-Satz für die Text-Modality. Mit mehrstufigen Repräsentationen für Video und Text wird hierarchisches kontrastives Lernen entworfen, um feinabgestimmte cross-modale Beziehungen – nämlich Frame-Wort, Clip-Phrase und Video-Satz – zu erforschen. Dadurch ermöglicht HCMI eine umfassende semantische Vergleichbarkeit zwischen den Video- und Text-Modalitäten. Durch die zusätzliche Integration von adaptiver Label-Denoising und Verbesserung marginaler Samples erreicht HCMI neue SOTA-Ergebnisse auf verschiedenen Benchmarks, beispielsweise Rank@1 von 55,0 %, 58,2 %, 29,7 %, 52,1 % und 57,3 % auf MSR-VTT, MSVD, LSMDC, DiDemo und ActivityNet.