HyperAIHyperAI

Command Palette

Search for a command to run...

OmniVec2 - Un nouveau réseau basé sur les Transformers pour l'apprentissage multimodal et multitâche à grande échelle

Gaurav Sharma Siddharth Srivastava

Résumé

Nous présentons un nouveau réseau multimodal multitâche ainsi qu’un algorithme d’entraînement associé. La méthode est capable d’ingérer des données provenant d’environ 12 modalités différentes : images, vidéos, sons, textes, profondeurs, nuages de points, séries temporelles, données tabulaires, graphes, radiographies, infrarouges, capteurs IMU et hyperspectrales. L’approche proposée utilise des tokeniseurs spécialisés par modalité, une architecture partagée de type transformer et des mécanismes d’attention croisée afin de projeter les données issues de différentes modalités dans un espace d’embeddings unifié. Elle traite les scénarios multimodaux et multitâches en intégrant des têtes de tâches spécifiques à chaque modalité, adaptées aux différentes tâches à réaliser. Nous proposons une nouvelle stratégie de pré-entraînement basée sur un changement itératif de modalité pour initialiser le réseau, ainsi qu’un algorithme d’entraînement qui équilibre l’entraînement conjoint complet sur toutes les modalités avec l’entraînement par paires de modalités. Nous fournissons une évaluation exhaustive sur 25 jeux de données issus de 12 modalités différentes, et démontrons des performances de pointe, mettant ainsi en évidence l’efficacité de l’architecture proposée, de la stratégie de pré-entraînement et de l’entraînement multitâche adapté.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp