HyperAIHyperAI

Command Palette

Search for a command to run...

Les caractéristiques holistiques sont presque suffisantes pour la recherche textuelle vers vidéo

Xirong Li Bangxiang Lan Zijie Xin Ruixiang Zhao Kaibin Tian

Résumé

Pour la recherche vidéo à partir de requêtes textuelles (T2VR), dont l'objectif est de retrouver des vidéos non étiquetées à partir de requêtes textuelles ad hoc, les méthodes basées sur CLIP occupent actuellement la première place. Contrairement à CLIP4Clip, qui est à la fois efficace et compact, les modèles d'état de l'art les plus récents ont tendance à calculer la similarité entre vidéo et texte grâce à des interactions et correspondances fine-grained entre modalités, ce qui remet en question leur scalabilité dans des applications de T2VR à grande échelle. Nous proposons TeachCLIP, une méthode permettant à un réseau étudiant basé sur CLIP4Clip d'apprendre à partir de modèles plus avancés mais plus coûteux en calcul. Afin de créer un canal d'apprentissage capable de transmettre des connaissances fine-grained entre modalités du modèle lourd vers l'étudiant, nous ajoutons à CLIP4Clip un bloc simple d’agrégation d’informations par attention sur les trames (AFA, Attentional frame-Feature Aggregation), conçu pour ne pas introduire de surcharge en stockage ou en calcul lors de l’étape de recherche. Les scores de pertinence trame-texte calculés par le modèle enseignant sont utilisés comme étiquettes souples pour superviser les poids d’attention produits par le bloc AFA. Des expériences étendues sur plusieurs jeux de données publics justifient la faisabilité de la méthode proposée. TeachCLIP conserve l’efficacité et la compacité de CLIP4Clip tout en atteignant une performance proche de l’état de l’art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp