HyperAIHyperAI

Command Palette

Search for a command to run...

OmniVec : Apprentissage de représentations robustes par partage intermodal

Siddharth Srivastava Gaurav Sharma

Résumé

La majorité des recherches sur les méthodes basées sur l'apprentissage se sont concentrées sur la conception et l'entraînement de réseaux pour des tâches spécifiques. Cependant, de nombreuses tâches d'apprentissage, à travers différentes modalités, partagent des similitudes et pourraient potentiellement être abordées dans un cadre commun. Nous présentons une approche dans cette direction, visant à apprendre plusieurs tâches, dans plusieurs modalités, avec une architecture unifiée. Le réseau proposé est composé d'encodeurs spécifiques à chaque tâche, d'un tronc commun au milieu, suivi de têtes de prédiction spécifiques à chaque tâche. Nous le pré-entraînons initialement par un entraînement masqué auto-supervisé, suivi d'un entraînement séquentiel pour les différentes tâches. Nous entraînons le réseau sur toutes les principales modalités, par exemple visuelle, audio, texte et 3D, et nous rapportons des résultats sur 22 benchmarks publics variés et difficiles. Nous démontrons empiriquement que l'utilisation d'un réseau commun pour l'entraînement à travers les modalités conduit à un partage significatif d'informations et cela nous permet d'obtenir des résultats de pointe sur la plupart des benchmarks. Nous montrons également la généralisation du réseau entraîné sur des tâches inter-modales ainsi que sur des ensembles de données et des tâches inédits.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OmniVec : Apprentissage de représentations robustes par partage intermodal | Articles | HyperAI