OmniVec : Apprentissage de représentations robustes par partage intermodal

La majorité des recherches sur les méthodes basées sur l'apprentissage se sont concentrées sur la conception et l'entraînement de réseaux pour des tâches spécifiques. Cependant, de nombreuses tâches d'apprentissage, à travers différentes modalités, partagent des similitudes et pourraient potentiellement être abordées dans un cadre commun. Nous présentons une approche dans cette direction, visant à apprendre plusieurs tâches, dans plusieurs modalités, avec une architecture unifiée. Le réseau proposé est composé d'encodeurs spécifiques à chaque tâche, d'un tronc commun au milieu, suivi de têtes de prédiction spécifiques à chaque tâche. Nous le pré-entraînons initialement par un entraînement masqué auto-supervisé, suivi d'un entraînement séquentiel pour les différentes tâches. Nous entraînons le réseau sur toutes les principales modalités, par exemple visuelle, audio, texte et 3D, et nous rapportons des résultats sur 22 benchmarks publics variés et difficiles. Nous démontrons empiriquement que l'utilisation d'un réseau commun pour l'entraînement à travers les modalités conduit à un partage significatif d'informations et cela nous permet d'obtenir des résultats de pointe sur la plupart des benchmarks. Nous montrons également la généralisation du réseau entraîné sur des tâches inter-modales ainsi que sur des ensembles de données et des tâches inédits.