OmniVec2 - Un nouveau réseau basé sur Transformer pour l'apprentissage multimodal et multitâche à grande échelle

Nous présentons un nouveau réseau multimodal multitâche ainsi qu’un algorithme d’entraînement associé. La méthode est capable d’ingérer des données provenant d’environ 12 modalités différentes, à savoir : images, vidéos, audio, texte, profondeur, nuages de points, séries temporelles, données tabulaires, graphes, radiographies, infrarouges, capteurs IMU et hyperspectrales. L’approche proposée utilise des tokeniseurs spécialisés par modalité, une architecture partagée de transformateur et des mécanismes d’attention croisée afin de projeter les données issues de différentes modalités dans un espace d’encodage unifié. Elle traite à la fois les scénarios multimodaux et multitâches en intégrant des têtes de tâche spécifiques à chaque modalité, adaptées aux différentes tâches à accomplir. Nous proposons une nouvelle stratégie de pré-entraînement basée sur un commutateur itératif de modalités pour initier le réseau, ainsi qu’un algorithme d’entraînement qui équilibre l’entraînement conjoint complet sur toutes les modalités contre l’entraînement par paires de modalités à la fois. Une évaluation exhaustive est réalisée sur 25 jeux de données provenant de 12 modalités différentes, démontrant des performances de pointe et validant l’efficacité de l’architecture proposée, de la stratégie de pré-entraînement ainsi que de l’entraînement multitâche adapté.