vor 9 Tagen

CenterCLIP: Token-Clustering für effiziente Text-Video-Retrieval

Shuai Zhao, Linchao Zhu, Xiaohan Wang, Yi Yang

Abstract

Kürzlich haben großskalige Vortrainingsansätze wie CLIP erhebliche Fortschritte in der multimodalen Forschung, beispielsweise bei der Text-Video-Abfrage, erzielt. In CLIP sind Transformers entscheidend für die Modellierung komplexer multimodaler Beziehungen. Allerdings führt der zentrale visuelle Tokenisierungsprozess im Vision-Transformer von CLIP – der diskrete visuelle Tokenfolgen erzeugt – aufgrund der Redundanz aufeinanderfolgender und ähnlicher Frames in Videos zu einer großen Anzahl homogener Tokens. Dies erhöht die Rechenkosten erheblich und behindert die Implementierung von Video-Abfragemodelle in Web-Anwendungen. In diesem Artikel entwickeln wir einen mehrsegmentigen Token-Clustering-Algorithmus, um die Anzahl redundanter Video-Tokens zu reduzieren, indem wir die repräsentativsten Tokens identifizieren und nicht essentielle Tokens entfernen. Da Frame-Redundanz vor allem in aufeinanderfolgenden Frames auftritt, unterteilen wir Videos in mehrere Segmente und führen einen segmentbasierten Clustering-Prozess durch. Zentrale Tokens aus jedem Segment werden anschließend zu einer neuen Sequenz zusammengefügt, wobei ihre ursprünglichen räumlich-zeitlichen Beziehungen gut erhalten bleiben. Wir implementieren zwei Clustering-Algorithmen, um effizient deterministische Medoide zu finden und Gruppen iterativ im hochdimensionalen Raum zu partitionieren. Durch diesen Token-Clustering- und Zentrumsauswahlprozess gelingt es uns, die Rechenkosten erfolgreich zu senken, indem redundante visuelle Tokens eliminiert werden. Diese Methode verstärkt zudem die segmentbasierte semantische Ausrichtung zwischen Video- und Textrepräsentationen und fördert die räumlich-zeitlichen Interaktionen der Tokens innerhalb der einzelnen Segmente. Unser Ansatz, CenterCLIP genannt, übertrifft bestehende State-of-the-Art-Methoden auf typischen Text-Video-Benchmarks deutlich, wobei gleichzeitig der Trainings-Speicherverbrauch um 35 % reduziert und die Inferenzgeschwindigkeit im besten Fall um 14 % beschleunigt wird. Der Quellcode ist unter \href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP} verfügbar.