il y a 16 jours

ONE-PEACE : Exploration d'un modèle de représentation généraliste vers des modalités illimitées

Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren Zhou, Xinggang Wang, Chang Zhou

Résumé

Dans ce travail, nous explorons une approche évolutivement scalable pour construire un modèle de représentation généraliste capable de traiter un nombre illimité de modalités. Nous présentons ONE-PEACE, un modèle hautement extensible comprenant 4 milliards de paramètres, capable d’aligner et d’intégrer de manière fluide les représentations issues de modalités visuelles, auditives et linguistiques. L’architecture de ONE-PEACE repose sur des adaptateurs de modalité, des couches partagées d’attention auto-associative et des réseaux feed-forward spécifiques à chaque modalité (modality FFNs). Ce design permet une extension aisée à de nouvelles modalités en ajoutant simplement des adaptateurs et des FFNs, tout en permettant une fusion multimodale efficace grâce aux couches d’attention auto-associative. Pour pré-entraîner ONE-PEACE, nous avons conçu deux tâches de pré-entraînement indépendantes des modalités : une tâche d’alignement intermodale par contraste et une tâche de débruitage intramodal par contraste, qui permettent simultanément d’aligner les espaces sémantiques entre différentes modalités et de capturer des détails fins à l’intérieur de chaque modalité. Grâce à son architecture évolutivement compatible et à ses tâches de pré-entraînement innovantes, ONE-PEACE possède un potentiel d’extension vers un nombre théoriquement illimité de modalités. Sans recourir à aucun modèle pré-entraîné sur l’image ou le langage pour l’initialisation, ONE-PEACE atteint des résultats de pointe sur une large gamme de tâches unimodales et multimodales, incluant la classification d’images (ImageNet), la segmentation sémantique (ADE20K), la récupération audio-texte (AudioCaps, Clotho), la classification audio (ESC-50, FSD50K, VGGSound), la réponse à des questions audio (AVQA), la récupération image-texte (MSCOCO, Flickr30K) et le repérage visuel (RefCOCO/+/g). Le code est disponible à l’adresse suivante : https://github.com/OFA-Sys/ONE-PEACE.