HyperAIHyperAI
il y a 11 jours

OmniVec2 - Un nouveau réseau basé sur Transformer pour l'apprentissage multimodal et multitâche à grande échelle

{Gaurav Sharma, Siddharth Srivastava}
OmniVec2 - Un nouveau réseau basé sur Transformer pour l'apprentissage multimodal et multitâche à grande échelle
Résumé

Nous présentons un nouveau réseau multimodal multitâche ainsi qu’un algorithme d’entraînement associé. La méthode est capable d’ingérer des données provenant d’environ 12 modalités différentes, à savoir : images, vidéos, audio, texte, profondeur, nuages de points, séries temporelles, données tabulaires, graphes, radiographies, infrarouges, capteurs IMU et hyperspectrales. L’approche proposée utilise des tokeniseurs spécialisés par modalité, une architecture partagée de transformateur et des mécanismes d’attention croisée afin de projeter les données issues de différentes modalités dans un espace d’encodage unifié. Elle traite à la fois les scénarios multimodaux et multitâches en intégrant des têtes de tâche spécifiques à chaque modalité, adaptées aux différentes tâches à accomplir. Nous proposons une nouvelle stratégie de pré-entraînement basée sur un commutateur itératif de modalités pour initier le réseau, ainsi qu’un algorithme d’entraînement qui équilibre l’entraînement conjoint complet sur toutes les modalités contre l’entraînement par paires de modalités à la fois. Une évaluation exhaustive est réalisée sur 25 jeux de données provenant de 12 modalités différentes, démontrant des performances de pointe et validant l’efficacité de l’architecture proposée, de la stratégie de pré-entraînement ainsi que de l’entraînement multitâche adapté.

OmniVec2 - Un nouveau réseau basé sur Transformer pour l'apprentissage multimodal et multitâche à grande échelle | Articles de recherche récents | HyperAI