HyperAIHyperAI

Command Palette

Search for a command to run...

CenterCLIP: Token-Clustering für effiziente Text-Video-Retrieval

Shuai Zhao Linchao Zhu Xiaohan Wang Yi Yang

Zusammenfassung

Kürzlich haben großskalige Vortrainingsansätze wie CLIP erhebliche Fortschritte in der multimodalen Forschung, beispielsweise bei der Text-Video-Abfrage, erzielt. In CLIP sind Transformers entscheidend für die Modellierung komplexer multimodaler Beziehungen. Allerdings führt der zentrale visuelle Tokenisierungsprozess im Vision-Transformer von CLIP – der diskrete visuelle Tokenfolgen erzeugt – aufgrund der Redundanz aufeinanderfolgender und ähnlicher Frames in Videos zu einer großen Anzahl homogener Tokens. Dies erhöht die Rechenkosten erheblich und behindert die Implementierung von Video-Abfragemodelle in Web-Anwendungen. In diesem Artikel entwickeln wir einen mehrsegmentigen Token-Clustering-Algorithmus, um die Anzahl redundanter Video-Tokens zu reduzieren, indem wir die repräsentativsten Tokens identifizieren und nicht essentielle Tokens entfernen. Da Frame-Redundanz vor allem in aufeinanderfolgenden Frames auftritt, unterteilen wir Videos in mehrere Segmente und führen einen segmentbasierten Clustering-Prozess durch. Zentrale Tokens aus jedem Segment werden anschließend zu einer neuen Sequenz zusammengefügt, wobei ihre ursprünglichen räumlich-zeitlichen Beziehungen gut erhalten bleiben. Wir implementieren zwei Clustering-Algorithmen, um effizient deterministische Medoide zu finden und Gruppen iterativ im hochdimensionalen Raum zu partitionieren. Durch diesen Token-Clustering- und Zentrumsauswahlprozess gelingt es uns, die Rechenkosten erfolgreich zu senken, indem redundante visuelle Tokens eliminiert werden. Diese Methode verstärkt zudem die segmentbasierte semantische Ausrichtung zwischen Video- und Textrepräsentationen und fördert die räumlich-zeitlichen Interaktionen der Tokens innerhalb der einzelnen Segmente. Unser Ansatz, CenterCLIP genannt, übertrifft bestehende State-of-the-Art-Methoden auf typischen Text-Video-Benchmarks deutlich, wobei gleichzeitig der Trainings-Speicherverbrauch um 35 % reduziert und die Inferenzgeschwindigkeit im besten Fall um 14 % beschleunigt wird. Der Quellcode ist unter \href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp