il y a 2 jours

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Résumé

Les modèles de diffusion discrète se sont imposés comme des alternatives prometteuses aux modèles linguistiques autoregressifs, des travaux récents ayant notamment pour objectif d’initialiser et de fine-tuner un modèle de base unimodal afin de générer des données bimodales. À la différence des approches antérieures, nous introduisons le premier modèle de diffusion masquée tri-modalement préentraîné depuis le début sur des données textuelles, textuelles-images et textuelles-audio. Nous analysons de manière systématique les lois d’échelle multimodales, les ratios de mélange entre modalités, les schémas de bruit et les effets de la taille du batch, tout en proposant des paramètres d’échantillonnage d’inférence optimisés. Notre analyse de la taille du batch conduit à une nouvelle réparamétrisation basée sur une équation différentielle stochastique (SDE), qui élimine la nécessité d’ajuster la taille optimale du batch, comme cela était rapporté dans des travaux récents. Cette réparamétrisation permet de délier la taille physique du batch — souvent choisie en fonction des contraintes de calcul (saturation GPU, efficacité des FLOP, temps réel) — de la taille logique du batch, sélectionnée pour équilibrer la variance du gradient lors de l’optimisation stochastique. Enfin, nous préentraînons un modèle tri-modalement initial de 3 milliards de paramètres sur 6,4 téra-éléments (tokens), démontrant ainsi les capacités d’une architecture unifiée et obtenant de solides résultats dans les tâches de génération de texte, de génération d’image à partir de texte, et de synthèse vocale à partir de texte. Ce travail constitue l’étude systématique la plus étendue à ce jour sur les modèles de diffusion discrète multimodaux, offrant des perspectives précieuses sur les comportements d’échelle à travers plusieurs modalités.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 2 jours

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 2 jours

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

L'espace de conception des modèles de diffusion masqués tri-modaux

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm14 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

L'espace de conception des modèles de diffusion masqués tri-modaux

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm14 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

L'espace de conception des modèles de diffusion masqués tri-modaux

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm14 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm