il y a 6 mois

Subham Sekhar Sahoo Marianne Arriola Yair Schiff Aaron Gokaslan Edgar Marroquin Justin T Chiu Alexander Rush Volodymyr Kuleshov

Résumé

Bien que les modèles de diffusion se distinguent par leur capacité à générer des images de haute qualité, les travaux antérieurs ont révélé un écart significatif de performance entre les modèles de diffusion et les méthodes autoregressives (AR) en modélisation du langage. Dans ce travail, nous montrons que la diffusion discrète masquée simple est plus performante qu’on ne le pensait auparavant. Nous appliquons une recette d’entraînement efficace qui améliore les performances des modèles de diffusion masquée, et dérivons un objectif simplifié, Rao-Blackwellisé, qui entraîne des gains supplémentaires. Notre objectif présente une forme simple — il s’agit d’un mélange de pertes classiques de modélisation du langage masqué — et peut être utilisé pour entraîner des modèles langagiers à encodeur unique, compatibles avec des échantillonneurs efficaces, y compris ceux capables de générer des textes de longueur arbitraire de manière semi-autoregressive, comme un modèle langagier traditionnel. Sur des benchmarks de modélisation du langage, une gamme de modèles de diffusion masquée entraînés avec des pratiques d’ingénierie modernes atteint un nouveau record de performance parmi les modèles de diffusion, et se rapproche de la perplexité des méthodes autoregressives. Nous mettons notre code à disposition à l’adresse suivante : https://github.com/kuleshov-group/mdlm

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Modèle De Diffusion

Traitement Du Langage Naturel

LLM

Approche/Framework

Traitement Du Langage Naturel

Tâche

Subham Sekhar Sahoo Marianne Arriola Yair Schiff Aaron Gokaslan Edgar Marroquin Justin T Chiu Alexander Rush Volodymyr Kuleshov

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Modèle De Diffusion

Traitement Du Langage Naturel

LLM

Approche/Framework

Traitement Du Langage Naturel

Tâche

Subham Sekhar Sahoo Marianne Arriola Yair Schiff Aaron Gokaslan Edgar Marroquin Justin T Chiu Alexander Rush Volodymyr Kuleshov

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Modèles de langage à diffusion masquée simples et efficaces

Subham Sekhar Sahoo Marianne Arriola Yair Schiff Aaron Gokaslan Edgar Marroquin Justin T Chiu Alexander Rush Volodymyr Kuleshov

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Modèles de langage à diffusion masquée simples et efficaces

Subham Sekhar Sahoo Marianne Arriola Yair Schiff Aaron Gokaslan Edgar Marroquin Justin T Chiu Alexander Rush Volodymyr Kuleshov

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Modèles de langage à diffusion masquée simples et efficaces

Subham Sekhar Sahoo Marianne Arriola Yair Schiff Aaron Gokaslan Edgar Marroquin Justin T Chiu Alexander Rush Volodymyr Kuleshov

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters