HyperAIHyperAI

Command Palette

Search for a command to run...

Tencent Text-Video Retrieval: Hierarchische cross-modale Interaktionen mit Multi-Level-Repräsentationen

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

Zusammenfassung

Text-Video-Abfrage spielt eine wichtige Rolle im multimodalen Verständnis und hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen. Die meisten bestehenden Methoden konzentrieren sich darauf, kontrastive Paare zwischen gesamten Videos und vollständigen Caption-Sätzen zu erstellen, während feinabgestimmte, cross-modale Beziehungen – beispielsweise zwischen Clip-Phrase oder Frame-Wort – vernachlässigt werden. In dieser Arbeit stellen wir eine neuartige Methode namens Hierarchische Cross-Modale Interaktion (HCMI) vor, die mehrstufige cross-modale Beziehungen zwischen Video-Satz, Clip-Phrase und Frame-Wort für die Text-Video-Abfrage untersucht. Unter Berücksichtigung inhärenter semantischer Frame-Beziehungen wendet HCMI Selbst-Attention an, um Frame-Ebene-Korrelationen zu erforschen und korrelierte Frames adaptiv zu Clustern, um so clip- und video-ebene Repräsentationen zu generieren. Auf diese Weise konstruiert HCMI mehrstufige Video-Repräsentationen für die Granularitäten Frame-Clip-Video, um feinabgestimmte Video-Inhalte zu erfassen, und mehrstufige Text-Repräsentationen auf den Granularitäten Wort-Phrase-Satz für die Text-Modality. Mit mehrstufigen Repräsentationen für Video und Text wird hierarchisches kontrastives Lernen entworfen, um feinabgestimmte cross-modale Beziehungen – nämlich Frame-Wort, Clip-Phrase und Video-Satz – zu erforschen. Dadurch ermöglicht HCMI eine umfassende semantische Vergleichbarkeit zwischen den Video- und Text-Modalitäten. Durch die zusätzliche Integration von adaptiver Label-Denoising und Verbesserung marginaler Samples erreicht HCMI neue SOTA-Ergebnisse auf verschiedenen Benchmarks, beispielsweise Rank@1 von 55,0 %, 58,2 %, 29,7 %, 52,1 % und 57,3 % auf MSR-VTT, MSVD, LSMDC, DiDemo und ActivityNet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp