HyperAIHyperAI
vor 18 Tagen

PIDRo: Parallel Isomeric Attention mit dynamischer Routing für Text-Video-Retrieval

{Edmund Y. Lam, Youliang Yan, Songcen Xu, Hang Xu, Jiaxi Gu, Weimian Li, Jianzhuang Liu, Bin Shao, Renjing Pei, Peiyan Guan}
PIDRo: Parallel Isomeric Attention mit dynamischer Routing für Text-Video-Retrieval
Abstract

Text-Video-Retrieval ist eine grundlegende Aufgabe mit hohem praktischem Nutzen im Bereich der multimodalen Forschung. Angeregt durch den großen Erfolg vortrainierter Bild-Text-Modelle auf Basis großer Datensätze, wie beispielsweise CLIP, wurden zahlreiche Methoden vorgeschlagen, um die starke Darstellungslernfähigkeit von CLIP auf die Text-Video-Retrieval-Aufgabe zu übertragen. Aufgrund der modalitätsbedingten Unterschiede zwischen Videos und Bildern bleibt jedoch die effektive Anpassung von CLIP an den Video-Bereich weiterhin wenig erforscht. In dieser Arbeit untersuchen wir dieses Problem aus zwei Perspektiven. Erstens verbessern wir den übertragenen Bild-Encoder von CLIP nahtlos, um eine feinabgestimmte Video-Verständnisfähigkeit zu erreichen. Zweitens führen wir eine feinabgestimmte Kontrastierung zwischen Videos und Texten sowohl durch Modellverbesserung als auch durch Verlustfunktionsgestaltung durch. Insbesondere stellen wir ein feinabgestimmtes kontrastives Modell vor, ausgestattet mit paralleler isomorpher Aufmerksamkeit und dynamischer Routing-Mechanismen, namens PIDRo, für die Text-Video-Retrieval-Aufgabe. Der Modul der parallelen isomorphen Aufmerksamkeit dient als Video-Encoder und besteht aus zwei parallelen Zweigen, die die räumlich-zeitliche Information von Videos sowohl auf Patch- als auch auf Frame-Ebene modellieren. Der dynamische Routing-Modul wird konstruiert, um den Text-Encoder von CLIP zu verbessern, indem er informative Wortrepräsentationen generiert, indem feinabgestimmte Informationen innerhalb eines Satzes an die entsprechenden Wort-Token verteilt werden. Diese Modellarchitektur ermöglicht uns, informative Repräsentationen auf Patch-, Frame- und Wort-Ebene zu erzeugen. Anschließend führen wir eine tokenweise Interaktion zwischen diesen Repräsentationen durch. Mit den verbesserten Encodern und der tokenweisen Verlustfunktion erreichen wir eine feinere Abstimmung zwischen Text und Video sowie genauere Retrieval-Ergebnisse. PIDRo erzielt state-of-the-art-Leistungen auf verschiedenen Benchmarks für Text-Video-Retrieval, darunter MSR-VTT, MSVD, LSMDC, DiDeMo und ActivityNet.