HyperAI

Résumé

Pour la recherche vidéo à partir de requêtes textuelles (T2VR), dont l'objectif est de retrouver des vidéos non étiquetées à partir de requêtes textuelles ad hoc, les méthodes basées sur CLIP occupent actuellement la première place. Contrairement à CLIP4Clip, qui est à la fois efficace et compact, les modèles d'état de l'art les plus récents ont tendance à calculer la similarité entre vidéo et texte grâce à des interactions et correspondances fine-grained entre modalités, ce qui remet en question leur scalabilité dans des applications de T2VR à grande échelle. Nous proposons TeachCLIP, une méthode permettant à un réseau étudiant basé sur CLIP4Clip d'apprendre à partir de modèles plus avancés mais plus coûteux en calcul. Afin de créer un canal d'apprentissage capable de transmettre des connaissances fine-grained entre modalités du modèle lourd vers l'étudiant, nous ajoutons à CLIP4Clip un bloc simple d’agrégation d’informations par attention sur les trames (AFA, Attentional frame-Feature Aggregation), conçu pour ne pas introduire de surcharge en stockage ou en calcul lors de l’étape de recherche. Les scores de pertinence trame-texte calculés par le modèle enseignant sont utilisés comme étiquettes souples pour superviser les poids d’attention produits par le bloc AFA. Des expériences étendues sur plusieurs jeux de données publics justifient la faisabilité de la méthode proposée. TeachCLIP conserve l’efficacité et la compacité de CLIP4Clip tout en atteignant une performance proche de l’état de l’art.

Benchmarks

Benchmark	Méthodologie	Métriques
video-retrieval-on-msr-vtt-1ka	TeachCLIP (ViT-B/16)	text-to-video R@1: 48.0 text-to-video R@10: 83.5 text-to-video R@5: 75.9
video-retrieval-on-msr-vtt-1ka	TeachCLIP	text-to-video R@1: 46.8 text-to-video R@10: 82.6 text-to-video R@5: 74.3
video-retrieval-on-vatex	TeachCLIP	text-to-video R@1: 63.6 text-to-video R@10: 96.1 text-to-video R@5: 91.9

Les caractéristiques holistiques sont presque suffisantes pour la recherche textuelle vers vidéo

{Xirong Li Bangxiang Lan Zijie Xin Ruixiang Zhao Kaibin Tian}

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Les caractéristiques holistiques sont presque suffisantes pour la recherche textuelle vers vidéo

{Xirong Li Bangxiang Lan Zijie Xin Ruixiang Zhao Kaibin Tian}

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters