HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Ganzheitliche Merkmale sind fast ausreichend für die Text-zu-Video-Abfrage

{Xirong Li Bangxiang Lan Zijie Xin Ruixiang Zhao Kaibin Tian}

Ganzheitliche Merkmale sind fast ausreichend für die Text-zu-Video-Abfrage

Abstract

Für die Text-zu-Video-Abfrage (Text-to-Video Retrieval, T2VR), die darauf abzielt, unlabeled Videos durch ad-hoc-Textanfragen zu finden, dominieren derzeit CLIP-basierte Methoden. Im Gegensatz zu CLIP4Clip, das effizient und kompakt ist, neigen state-of-the-art-Modelle dazu, die Video-Text-Ähnlichkeit durch feinabgestimmte, cross-modale Merkmalsinteraktion und -anpassung zu berechnen, was ihre Skalierbarkeit für Anwendungen im großen Maßstab bei T2VR in Frage stellt. Wir stellen TeachCLIP vor, ein Verfahren, das es einem studentenbasierten CLIP4Clip-Netzwerk ermöglicht, von leistungsfähigeren, jedoch rechenintensiven Modellen zu lernen. Um einen Lernkanal zu schaffen, der feinabgestimmte, cross-modale Kenntnisse von einem schweren Modell auf den Studenten überträgt, integrieren wir in CLIP4Clip einen einfachen Attentional Frame-Feature-Aggregation (AFA)-Block, der im Design keinen zusätzlichen Speicher- oder Rechenaufwand im Abfragestadium verursacht. Die von dem Lehrmodell berechneten Frame-Text-Relevanz-Scores dienen als weiche Labels, um die Aufmerksamkeitsgewichte des AFA-Blocks zu überwachen. Umfangreiche Experimente auf mehreren öffentlichen Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes. TeachCLIP erreicht dieselbe Effizienz und Kompaktheit wie CLIP4Clip, verfügt aber über eine fast state-of-the-art-Leistungsfähigkeit.

Benchmarks

BenchmarkMethodikMetriken
video-retrieval-on-msr-vtt-1kaTeachCLIP (ViT-B/16)
text-to-video R@1: 48.0
text-to-video R@10: 83.5
text-to-video R@5: 75.9
video-retrieval-on-msr-vtt-1kaTeachCLIP
text-to-video R@1: 46.8
text-to-video R@10: 82.6
text-to-video R@5: 74.3
video-retrieval-on-vatexTeachCLIP
text-to-video R@1: 63.6
text-to-video R@10: 96.1
text-to-video R@5: 91.9

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ganzheitliche Merkmale sind fast ausreichend für die Text-zu-Video-Abfrage | Forschungsarbeiten | HyperAI