Command Palette
Search for a command to run...
OmniVec2 - Un nouveau réseau basé sur les Transformers pour l'apprentissage multimodal et multitâche à grande échelle
{Gaurav Sharma Siddharth Srivastava}

Résumé
Nous présentons un nouveau réseau multimodal multitâche ainsi qu’un algorithme d’entraînement associé. La méthode est capable d’ingérer des données provenant d’environ 12 modalités différentes : images, vidéos, sons, textes, profondeurs, nuages de points, séries temporelles, données tabulaires, graphes, radiographies, infrarouges, capteurs IMU et hyperspectrales. L’approche proposée utilise des tokeniseurs spécialisés par modalité, une architecture partagée de type transformer et des mécanismes d’attention croisée afin de projeter les données issues de différentes modalités dans un espace d’embeddings unifié. Elle traite les scénarios multimodaux et multitâches en intégrant des têtes de tâches spécifiques à chaque modalité, adaptées aux différentes tâches à réaliser. Nous proposons une nouvelle stratégie de pré-entraînement basée sur un changement itératif de modalité pour initialiser le réseau, ainsi qu’un algorithme d’entraînement qui équilibre l’entraînement conjoint complet sur toutes les modalités avec l’entraînement par paires de modalités. Nous fournissons une évaluation exhaustive sur 25 jeux de données issus de 12 modalités différentes, et démontrons des performances de pointe, mettant ainsi en évidence l’efficacité de l’architecture proposée, de la stratégie de pré-entraînement et de l’entraînement multitâche adapté.
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| 3d-point-cloud-classification-on-modelnet40-c | OmniVec2 | Error Rate: 0.142 |
| 3d-point-cloud-classification-on-scanobjectnn | OmniVec2 | Overall Accuracy: 97.2 |
| action-classification-on-kinetics-400 | OmniVec2 | Acc@1: 93.6 |
| action-classification-on-moments-in-time | OmniVec2 | Top 1 Accuracy: 53.1 |
| action-classification-on-moments-in-time-2 | OmniVec2 | Top 1 Accuracy: 53.1 |
| action-recognition-in-videos-on-ucf101 | OmniVec2 | 3-fold Accuracy: 99.6 |
| audio-classification-on-audioset | OmniVec2 | Test mAP: 0.558 |
| audio-classification-on-esc-50 | OmniVec2 | Accuracy (5-fold): 99.1 PRE-TRAINING DATASET: Multiple Top-1 Accuracy: 99.1 |
| fine-grained-image-classification-on-oxford-1 | OmniVec2 | Accuracy: 99.6 |
| image-classification-on-imagenet | OmniVec2 | Top 1 Accuracy: 89.3% |
| image-classification-on-inaturalist-2018 | OmniVec2 | Top-1 Accuracy: 94.6 |
| image-classification-on-places365 | OmniVec2 | Top 1 Accuracy: 65.1 |
| semantic-segmentation-on-nyu-depth-v2 | OmniVec2 | Mean IoU: 63.6 |
| text-summarization-on-dialogsum | OmniVec2 | BertScore: 72.8 Rouge1: 47.6 Rouge2: 22.1 RougeL: 41.4 |
| text-summarization-on-samsum-corpus | OmniVec2 | BertScoreF1: 65.1 ROUGE-1: 59.1 ROUGE-2: 34.1 ROUGE-L: 63.7 |
| zero-shot-video-retrieval-on-youcook2 | OmniVec2 | text-to-video R@1: 26.1 text-to-video R@10: 70.8 text-to-video R@5: 54.1 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.