HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur multimodal pour la recherche vidéo

Valentin Gabeur Chen Sun Karteek Alahari Cordelia Schmid

Résumé

La tâche de récupération de contenus vidéo pertinents par rapport à des requêtes en langage naturel joue un rôle fondamental dans la gestion efficace de jeux de données à l’échelle d’internet. La plupart des méthodes existantes pour le problème de recherche vidéo à partir de légendes (caption-to-video retrieval) ne tirent pas pleinement parti des indices intermodaux présents dans les vidéos. En outre, elles agrègent les caractéristiques visuelles par trame en ne tenant compte que de manière limitée ou nullement de l’information temporelle. Dans cet article, nous proposons un transformer multimodal capable d’encoder conjointement les différentes modalités présentes dans la vidéo, permettant ainsi à chaque modalité d’attendre les autres. L’architecture de transformer est également exploitée pour encoder et modéliser l’information temporelle. Du côté du langage naturel, nous étudions les meilleures pratiques pour optimiser conjointement l’embedding linguistique avec le transformer multimodal. Ce cadre novateur nous permet d’obtenir des résultats de pointe pour la recherche vidéo sur trois jeux de données. Pour plus de détails, consulter : http://thoth.inrialpes.fr/research/MMT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp