Command Palette
Search for a command to run...
L'espace de conception des modèles de diffusion masqués tri-modaux
L'espace de conception des modèles de diffusion masqués tri-modaux
Résumé
Les modèles de diffusion discrète se sont imposés comme des alternatives prometteuses aux modèles linguistiques autoregressifs, des travaux récents ayant notamment pour objectif d’initialiser et de fine-tuner un modèle de base unimodal afin de générer des données bimodales. À la différence des approches antérieures, nous introduisons le premier modèle de diffusion masquée tri-modalement préentraîné depuis le début sur des données textuelles, textuelles-images et textuelles-audio. Nous analysons de manière systématique les lois d’échelle multimodales, les ratios de mélange entre modalités, les schémas de bruit et les effets de la taille du batch, tout en proposant des paramètres d’échantillonnage d’inférence optimisés. Notre analyse de la taille du batch conduit à une nouvelle réparamétrisation basée sur une équation différentielle stochastique (SDE), qui élimine la nécessité d’ajuster la taille optimale du batch, comme cela était rapporté dans des travaux récents. Cette réparamétrisation permet de délier la taille physique du batch — souvent choisie en fonction des contraintes de calcul (saturation GPU, efficacité des FLOP, temps réel) — de la taille logique du batch, sélectionnée pour équilibrer la variance du gradient lors de l’optimisation stochastique. Enfin, nous préentraînons un modèle tri-modalement initial de 3 milliards de paramètres sur 6,4 téra-éléments (tokens), démontrant ainsi les capacités d’une architecture unifiée et obtenant de solides résultats dans les tâches de génération de texte, de génération d’image à partir de texte, et de synthèse vocale à partir de texte. Ce travail constitue l’étude systématique la plus étendue à ce jour sur les modèles de diffusion discrète multimodaux, offrant des perspectives précieuses sur les comportements d’échelle à travers plusieurs modalités.