HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux Multimodaux Autonomes et Polyvalents

Jean-Baptiste Alayrac extsuperscript1 extsuperscript* Adrià Recasens extsuperscript1 extsuperscript* Rosalia Schneider extsuperscript1 extsuperscript* Relja Arandjelović extsuperscript1 extsuperscript* Jason Ramapuram extsuperscript2,3 extsuperscript† Jeffrey De Fauw extsuperscript1 Lucas Smaira extsuperscript1 Sander Dieleman extsuperscript1 Andrew Zisserman extsuperscript1,4

Résumé

Les vidéos sont une source riche de supervision multi-modale. Dans cette étude, nous apprenons des représentations en utilisant l'auto-supervision en exploitant trois modalités naturellement présentes dans les vidéos : les flux visuels, audio et linguistiques. À cet effet, nous introduisons le concept d'un réseau multi-modale polyvalent -- un réseau capable de traiter plusieurs modalités et dont les représentations permettent d'effectuer des tâches en aval dans plusieurs modalités. Plus particulièrement, nous explorons la meilleure façon de combiner ces modalités afin de maintenir des représentations détaillées des modalités visuelle et auditive tout en intégrant le texte dans un espace d'embedding commun. Guidés par la polyvalence, nous introduisons également un nouveau processus de déflation, permettant aux réseaux d'être appliqués sans effort aux données visuelles sous forme de vidéo ou d'image statique. Nous montrons comment ces réseaux formés sur de grandes collections de données vidéo non étiquetées peuvent être utilisés pour des tâches impliquant des vidéos, du texte-vidéo, des images et des données audio. Dotés de ces représentations, nous obtenons des performances de pointe sur plusieurs benchmarks difficiles, notamment UCF101, HMDB51, Kinetics600, AudioSet et ESC-50, en comparaison avec les travaux précédents en auto-supervision. Nos modèles sont disponibles au public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp