HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

PIDRo: Parallel Isomeric Attention mit dynamischer Routing für Text-Video-Retrieval

{Edmund Y. Lam Youliang Yan Songcen Xu Hang Xu Jiaxi Gu Weimian Li Jianzhuang Liu Bin Shao Renjing Pei Peiyan Guan}

PIDRo: Parallel Isomeric Attention mit dynamischer Routing für Text-Video-Retrieval

Abstract

Text-Video-Retrieval ist eine grundlegende Aufgabe mit hohem praktischem Nutzen im Bereich der multimodalen Forschung. Angeregt durch den großen Erfolg vortrainierter Bild-Text-Modelle auf Basis großer Datensätze, wie beispielsweise CLIP, wurden zahlreiche Methoden vorgeschlagen, um die starke Darstellungslernfähigkeit von CLIP auf die Text-Video-Retrieval-Aufgabe zu übertragen. Aufgrund der modalitätsbedingten Unterschiede zwischen Videos und Bildern bleibt jedoch die effektive Anpassung von CLIP an den Video-Bereich weiterhin wenig erforscht. In dieser Arbeit untersuchen wir dieses Problem aus zwei Perspektiven. Erstens verbessern wir den übertragenen Bild-Encoder von CLIP nahtlos, um eine feinabgestimmte Video-Verständnisfähigkeit zu erreichen. Zweitens führen wir eine feinabgestimmte Kontrastierung zwischen Videos und Texten sowohl durch Modellverbesserung als auch durch Verlustfunktionsgestaltung durch. Insbesondere stellen wir ein feinabgestimmtes kontrastives Modell vor, ausgestattet mit paralleler isomorpher Aufmerksamkeit und dynamischer Routing-Mechanismen, namens PIDRo, für die Text-Video-Retrieval-Aufgabe. Der Modul der parallelen isomorphen Aufmerksamkeit dient als Video-Encoder und besteht aus zwei parallelen Zweigen, die die räumlich-zeitliche Information von Videos sowohl auf Patch- als auch auf Frame-Ebene modellieren. Der dynamische Routing-Modul wird konstruiert, um den Text-Encoder von CLIP zu verbessern, indem er informative Wortrepräsentationen generiert, indem feinabgestimmte Informationen innerhalb eines Satzes an die entsprechenden Wort-Token verteilt werden. Diese Modellarchitektur ermöglicht uns, informative Repräsentationen auf Patch-, Frame- und Wort-Ebene zu erzeugen. Anschließend führen wir eine tokenweise Interaktion zwischen diesen Repräsentationen durch. Mit den verbesserten Encodern und der tokenweisen Verlustfunktion erreichen wir eine feinere Abstimmung zwischen Text und Video sowie genauere Retrieval-Ergebnisse. PIDRo erzielt state-of-the-art-Leistungen auf verschiedenen Benchmarks für Text-Video-Retrieval, darunter MSR-VTT, MSVD, LSMDC, DiDeMo und ActivityNet.

Benchmarks

BenchmarkMethodikMetriken
video-retrieval-on-msr-vtt-1kaPIDRo
text-to-video Mean Rank: 10.7
text-to-video Median Rank: 1.0
text-to-video R@1: 55.9
text-to-video R@10: 87.6
text-to-video R@5: 79.8
video-to-text Mean Rank: 7.5
video-to-text Median Rank: 1.0
video-to-text R@1: 54.5
video-to-text R@10: 87.3
video-to-text R@5: 78,3

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PIDRo: Parallel Isomeric Attention mit dynamischer Routing für Text-Video-Retrieval | Forschungsarbeiten | HyperAI