HyperAI

Abstract

Für die Text-zu-Video-Abfrage (Text-to-Video Retrieval, T2VR), die darauf abzielt, unlabeled Videos durch ad-hoc-Textanfragen zu finden, dominieren derzeit CLIP-basierte Methoden. Im Gegensatz zu CLIP4Clip, das effizient und kompakt ist, neigen state-of-the-art-Modelle dazu, die Video-Text-Ähnlichkeit durch feinabgestimmte, cross-modale Merkmalsinteraktion und -anpassung zu berechnen, was ihre Skalierbarkeit für Anwendungen im großen Maßstab bei T2VR in Frage stellt. Wir stellen TeachCLIP vor, ein Verfahren, das es einem studentenbasierten CLIP4Clip-Netzwerk ermöglicht, von leistungsfähigeren, jedoch rechenintensiven Modellen zu lernen. Um einen Lernkanal zu schaffen, der feinabgestimmte, cross-modale Kenntnisse von einem schweren Modell auf den Studenten überträgt, integrieren wir in CLIP4Clip einen einfachen Attentional Frame-Feature-Aggregation (AFA)-Block, der im Design keinen zusätzlichen Speicher- oder Rechenaufwand im Abfragestadium verursacht. Die von dem Lehrmodell berechneten Frame-Text-Relevanz-Scores dienen als weiche Labels, um die Aufmerksamkeitsgewichte des AFA-Blocks zu überwachen. Umfangreiche Experimente auf mehreren öffentlichen Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes. TeachCLIP erreicht dieselbe Effizienz und Kompaktheit wie CLIP4Clip, verfügt aber über eine fast state-of-the-art-Leistungsfähigkeit.

Benchmarks

Benchmark	Methodik	Metriken
video-retrieval-on-msr-vtt-1ka	TeachCLIP (ViT-B/16)	text-to-video R@1: 48.0 text-to-video R@10: 83.5 text-to-video R@5: 75.9
video-retrieval-on-msr-vtt-1ka	TeachCLIP	text-to-video R@1: 46.8 text-to-video R@10: 82.6 text-to-video R@5: 74.3
video-retrieval-on-vatex	TeachCLIP	text-to-video R@1: 63.6 text-to-video R@10: 96.1 text-to-video R@5: 91.9

Ganzheitliche Merkmale sind fast ausreichend für die Text-zu-Video-Abfrage

{Xirong Li Bangxiang Lan Zijie Xin Ruixiang Zhao Kaibin Tian}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Ganzheitliche Merkmale sind fast ausreichend für die Text-zu-Video-Abfrage

{Xirong Li Bangxiang Lan Zijie Xin Ruixiang Zhao Kaibin Tian}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters