Ganzheitliche Merkmale sind fast ausreichend für die Text-zu-Video-Abfrage

Für die Text-zu-Video-Abfrage (Text-to-Video Retrieval, T2VR), die darauf abzielt, unlabeled Videos durch ad-hoc-Textanfragen zu finden, dominieren derzeit CLIP-basierte Methoden. Im Gegensatz zu CLIP4Clip, das effizient und kompakt ist, neigen state-of-the-art-Modelle dazu, die Video-Text-Ähnlichkeit durch feinabgestimmte, cross-modale Merkmalsinteraktion und -anpassung zu berechnen, was ihre Skalierbarkeit für Anwendungen im großen Maßstab bei T2VR in Frage stellt. Wir stellen TeachCLIP vor, ein Verfahren, das es einem studentenbasierten CLIP4Clip-Netzwerk ermöglicht, von leistungsfähigeren, jedoch rechenintensiven Modellen zu lernen. Um einen Lernkanal zu schaffen, der feinabgestimmte, cross-modale Kenntnisse von einem schweren Modell auf den Studenten überträgt, integrieren wir in CLIP4Clip einen einfachen Attentional Frame-Feature-Aggregation (AFA)-Block, der im Design keinen zusätzlichen Speicher- oder Rechenaufwand im Abfragestadium verursacht. Die von dem Lehrmodell berechneten Frame-Text-Relevanz-Scores dienen als weiche Labels, um die Aufmerksamkeitsgewichte des AFA-Blocks zu überwachen. Umfangreiche Experimente auf mehreren öffentlichen Datensätzen bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes. TeachCLIP erreicht dieselbe Effizienz und Kompaktheit wie CLIP4Clip, verfügt aber über eine fast state-of-the-art-Leistungsfähigkeit.