HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

OmniVec2 - Un nouveau réseau basé sur les Transformers pour l'apprentissage multimodal et multitâche à grande échelle

{Gaurav Sharma Siddharth Srivastava}

OmniVec2 - Un nouveau réseau basé sur les Transformers pour l'apprentissage multimodal et multitâche à grande échelle

Résumé

Nous présentons un nouveau réseau multimodal multitâche ainsi qu’un algorithme d’entraînement associé. La méthode est capable d’ingérer des données provenant d’environ 12 modalités différentes : images, vidéos, sons, textes, profondeurs, nuages de points, séries temporelles, données tabulaires, graphes, radiographies, infrarouges, capteurs IMU et hyperspectrales. L’approche proposée utilise des tokeniseurs spécialisés par modalité, une architecture partagée de type transformer et des mécanismes d’attention croisée afin de projeter les données issues de différentes modalités dans un espace d’embeddings unifié. Elle traite les scénarios multimodaux et multitâches en intégrant des têtes de tâches spécifiques à chaque modalité, adaptées aux différentes tâches à réaliser. Nous proposons une nouvelle stratégie de pré-entraînement basée sur un changement itératif de modalité pour initialiser le réseau, ainsi qu’un algorithme d’entraînement qui équilibre l’entraînement conjoint complet sur toutes les modalités avec l’entraînement par paires de modalités. Nous fournissons une évaluation exhaustive sur 25 jeux de données issus de 12 modalités différentes, et démontrons des performances de pointe, mettant ainsi en évidence l’efficacité de l’architecture proposée, de la stratégie de pré-entraînement et de l’entraînement multitâche adapté.

Benchmarks

BenchmarkMéthodologieMétriques
3d-point-cloud-classification-on-modelnet40-cOmniVec2
Error Rate: 0.142
3d-point-cloud-classification-on-scanobjectnnOmniVec2
Overall Accuracy: 97.2
action-classification-on-kinetics-400OmniVec2
Acc@1: 93.6
action-classification-on-moments-in-timeOmniVec2
Top 1 Accuracy: 53.1
action-classification-on-moments-in-time-2OmniVec2
Top 1 Accuracy: 53.1
action-recognition-in-videos-on-ucf101OmniVec2
3-fold Accuracy: 99.6
audio-classification-on-audiosetOmniVec2
Test mAP: 0.558
audio-classification-on-esc-50OmniVec2
Accuracy (5-fold): 99.1
PRE-TRAINING DATASET: Multiple
Top-1 Accuracy: 99.1
fine-grained-image-classification-on-oxford-1OmniVec2
Accuracy: 99.6
image-classification-on-imagenetOmniVec2
Top 1 Accuracy: 89.3%
image-classification-on-inaturalist-2018OmniVec2
Top-1 Accuracy: 94.6
image-classification-on-places365OmniVec2
Top 1 Accuracy: 65.1
semantic-segmentation-on-nyu-depth-v2OmniVec2
Mean IoU: 63.6
text-summarization-on-dialogsumOmniVec2
BertScore: 72.8
Rouge1: 47.6
Rouge2: 22.1
RougeL: 41.4
text-summarization-on-samsum-corpusOmniVec2
BertScoreF1: 65.1
ROUGE-1: 59.1
ROUGE-2: 34.1
ROUGE-L: 63.7
zero-shot-video-retrieval-on-youcook2OmniVec2
text-to-video R@1: 26.1
text-to-video R@10: 70.8
text-to-video R@5: 54.1

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OmniVec2 - Un nouveau réseau basé sur les Transformers pour l'apprentissage multimodal et multitâche à grande échelle | Articles de recherche | HyperAI