HyperAIHyperAI
vor 17 Tagen

TS2-Net: Token Shift und Selection Transformer für Text-Video-Retrieval

Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao, Qin Jin
TS2-Net: Token Shift und Selection Transformer für Text-Video-Retrieval
Abstract

Text-Video-Retrieval ist eine Aufgabe von großer praktischer Relevanz und hat zunehmend an Aufmerksamkeit gewonnen, wobei die Lernung von räumlich-zeitlichen Video-Repräsentationen zu einem der zentralen Forschungsschwerpunkte geworden ist. In den aktuellen Top-Modellen für Video-Retrieval werden typischerweise vortrainierte Vision-Backbones mit fixierter Netzwerkarchitektur direkt übernommen, wodurch eine weitere Verbesserung zur Erzeugung feinkörniger räumlich-zeitlicher Video-Repräsentationen nicht möglich ist. In diesem Artikel stellen wir den Token Shift and Selection Network (TS²-Net) vor, eine neuartige Transformer-Architektur mit dynamischer Token-Verschiebung und -Auswahl, die die Token-Sequenz sowohl zeitlich als auch räumlich anpasset und informative Tokens aus den Eingabevideos selektiert. Der Token-Verschiebungs-Modul verschiebt die gesamten Token-Features zeitlich hin und her zwischen benachbarten Frames, um die vollständige Token-Repräsentation zu bewahren und subtile Bewegungen zu erfassen. Anschließend wählt der Token-Auswahl-Modul die Tokens aus, die den größten Beitrag zur lokalen räumlichen Semantik leisten. Auf Basis umfangreicher Experimente erreicht der vorgeschlagene TS²-Net-Modell die bisher besten Ergebnisse auf etablierten Benchmarks für Text-Video-Retrieval, einschließlich neuer Rekorde auf MSRVTT, VATEX, LSMDC, ActivityNet und DiDeMo.