HyperAIHyperAI

Command Palette

Search for a command to run...

ONE-PEACE : Exploration d'un modèle de représentation généraliste vers des modalités illimitées

Peng Wang Shijie Wang Junyang Lin Shuai Bai Xiaohuan Zhou Jingren Zhou Xinggang Wang Chang Zhou

Résumé

Dans ce travail, nous explorons une approche évolutivement scalable pour construire un modèle de représentation généraliste capable de traiter un nombre illimité de modalités. Nous présentons ONE-PEACE, un modèle hautement extensible comprenant 4 milliards de paramètres, capable d’aligner et d’intégrer de manière fluide les représentations issues de modalités visuelles, auditives et linguistiques. L’architecture de ONE-PEACE repose sur des adaptateurs de modalité, des couches partagées d’attention auto-associative et des réseaux feed-forward spécifiques à chaque modalité (modality FFNs). Ce design permet une extension aisée à de nouvelles modalités en ajoutant simplement des adaptateurs et des FFNs, tout en permettant une fusion multimodale efficace grâce aux couches d’attention auto-associative. Pour pré-entraîner ONE-PEACE, nous avons conçu deux tâches de pré-entraînement indépendantes des modalités : une tâche d’alignement intermodale par contraste et une tâche de débruitage intramodal par contraste, qui permettent simultanément d’aligner les espaces sémantiques entre différentes modalités et de capturer des détails fins à l’intérieur de chaque modalité. Grâce à son architecture évolutivement compatible et à ses tâches de pré-entraînement innovantes, ONE-PEACE possède un potentiel d’extension vers un nombre théoriquement illimité de modalités. Sans recourir à aucun modèle pré-entraîné sur l’image ou le langage pour l’initialisation, ONE-PEACE atteint des résultats de pointe sur une large gamme de tâches unimodales et multimodales, incluant la classification d’images (ImageNet), la segmentation sémantique (ADE20K), la récupération audio-texte (AudioCaps, Clotho), la classification audio (ESC-50, FSD50K, VGGSound), la réponse à des questions audio (AVQA), la récupération image-texte (MSCOCO, Flickr30K) et le repérage visuel (RefCOCO/+/g). Le code est disponible à l’adresse suivante : https://github.com/OFA-Sys/ONE-PEACE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp