HyperAI

Architecture Du MoMa

Le cadre MoMa (nom complet : Mixture of Modality-Aware Experts) a été proposé par Meta dans l'article «MoMa : pré-formation efficace à la fusion précoce avec un mélange d'experts connaissant les modalités" a proposé une nouvelle architecture de mélange d'experts (MoE) prenant en compte les modalités, conçue pour la pré-formation de modèles de langage à modalités mixtes et à fusion précoce.

Le MoMa traite des séquences arbitraires d'images et de textes en divisant les modules experts en groupes spécifiques à chaque modalité. Ces groupes se spécialisent dans le traitement des balises désignées, tandis que le routage appris est utilisé au sein de chaque groupe pour maintenir une adaptabilité sémantiquement informée. Nos résultats montrent que l’efficacité de la pré-formation est considérablement améliorée grâce à cette allocation de paramètres spécifiques à la modalité. Avec un budget de formation étiqueté de 1 000 milliards, le modèle MoMa 1,4 milliard avec 4 experts en texte et 4 experts en image réalise des économies FLOP de 3,7x au total, 2,6x pour le texte et 5,2x pour le traitement d'image, par rapport à une base de référence dense équivalente en calcul, mesurée par la perte avant formation. Cela surpasse la sélection d'experts standard MoE avec 8 experts à modalités mixtes, ce qui permet de réaliser des économies FLOP globales de 3x (3x pour le texte et 2,8x pour les images). La combinaison de MoMa avec Mixed-by-Deep (MoD) permet d'économiser davantage de FLOP de pré-formation à 4,2x au total (texte : 3,4x, image : 5,3x), bien que cette combinaison dégrade les performances de l'inférence causale en raison de la sensibilité accrue à la précision du routeur. Ces résultats suggèrent que MoMa a le potentiel d'améliorer considérablement l'efficacité du pré-entraînement des modèles de langage à fusion précoce et en mode mixte, ouvrant la voie à des systèmes d'IA multimodaux plus efficaces en ressources et plus puissants.