Ganzheitliche Merkmale sind fast ausreichend für die Text-zu-Video-Abfrage
{Xirong Li Bangxiang Lan Zijie Xin Ruixiang Zhao Kaibin Tian}

Abstract
Für die Text-zu-Video-Abfrage (Text-to-Video Retrieval, T2VR), die darauf abzielt, unlabeled Videos durch ad-hoc-Textanfragen zu finden, dominieren derzeit CLIP-basierte Methoden. Im Gegensatz zu CLIP4Clip, das effizient und kompakt ist, neigen state-of-the-art-Modelle dazu, die Video-Text-Ähnlichkeit durch feinabgestimmte, cross-modale Merkmalsinteraktion und -anpassung zu berechnen, was ihre Skalierbarkeit für Anwendungen im großen Maßstab bei T2VR in Frage stellt. Wir stellen TeachCLIP vor, ein Verfahren, das es einem studentenbasierten CLIP4Clip-Netzwerk ermöglicht, von leistungsfähigeren, jedoch rechenintensiven Modellen zu lernen. Um einen Lernkanal zu schaffen, der feinabgestimmte, cross-modale Kenntnisse von einem schweren Modell auf den Studenten überträgt, integrieren wir in CLIP4Clip einen einfachen Attentional Frame-Feature-Aggregation (AFA)-Block, der im Design keinen zusätzlichen Speicher- oder Rechenaufwand im Abfragestadium verursacht. Die von dem Lehrmodell berechneten Frame-Text-Relevanz-Scores dienen als weiche Labels, um die Aufmerksamkeitsgewichte des AFA-Blocks zu überwachen. Umfangreiche Experimente auf mehreren öffentlichen Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes. TeachCLIP erreicht dieselbe Effizienz und Kompaktheit wie CLIP4Clip, verfügt aber über eine fast state-of-the-art-Leistungsfähigkeit.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| video-retrieval-on-msr-vtt-1ka | TeachCLIP (ViT-B/16) | text-to-video R@1: 48.0 text-to-video R@10: 83.5 text-to-video R@5: 75.9 |
| video-retrieval-on-msr-vtt-1ka | TeachCLIP | text-to-video R@1: 46.8 text-to-video R@10: 82.6 text-to-video R@5: 74.3 |
| video-retrieval-on-vatex | TeachCLIP | text-to-video R@1: 63.6 text-to-video R@10: 96.1 text-to-video R@5: 91.9 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.