Les caractéristiques holistiques sont presque suffisantes pour la recherche textuelle vers vidéo

Pour la recherche vidéo à partir de requêtes textuelles (T2VR), dont l'objectif est de retrouver des vidéos non étiquetées à partir de requêtes textuelles ad hoc, les méthodes basées sur CLIP occupent actuellement la première place. Contrairement à CLIP4Clip, qui est à la fois efficace et compact, les modèles d'état de l'art les plus récents ont tendance à calculer la similarité entre vidéo et texte grâce à des interactions et correspondances fine-grained entre modalités, ce qui remet en question leur scalabilité dans des applications de T2VR à grande échelle. Nous proposons TeachCLIP, une méthode permettant à un réseau étudiant basé sur CLIP4Clip d'apprendre à partir de modèles plus avancés mais plus coûteux en calcul. Afin de créer un canal d'apprentissage capable de transmettre des connaissances fine-grained entre modalités du modèle lourd vers l'étudiant, nous ajoutons à CLIP4Clip un bloc simple d’agrégation d’informations par attention sur les trames (AFA, Attentional frame-Feature Aggregation), conçu pour ne pas introduire de surcharge en stockage ou en calcul lors de l’étape de recherche. Les scores de pertinence trame-texte calculés par le modèle enseignant sont utilisés comme étiquettes souples pour superviser les poids d’attention produits par le bloc AFA. Des expériences étendues sur plusieurs jeux de données publics justifient la faisabilité de la méthode proposée. TeachCLIP conserve l’efficacité et la compacité de CLIP4Clip tout en atteignant une performance proche de l’état de l’art.