HyperAIHyperAI
vor 3 Monaten

Einfache und effektive maskierte Diffusions-Sprachmodelle

Subham Sekhar Sahoo, Marianne Arriola, Yair Schiff, Aaron Gokaslan, Edgar Marroquin, Justin T Chiu, Alexander Rush, Volodymyr Kuleshov
Einfache und effektive maskierte Diffusions-Sprachmodelle
Abstract

Während Diffusionsmodelle hervorragende Leistung bei der Erzeugung hochwertiger Bilder erzielen, zeigt die vorherige Forschung eine erhebliche Leistungslücke zwischen Diffusions- und autoregressiven (AR) Methoden im Bereich der Sprachmodellierung. In dieser Arbeit zeigen wir, dass einfache maskierte diskrete Diffusionsmodelle leistungsfähiger sind, als bisher angenommen. Wir wenden ein effektives Trainingsrezept an, das die Leistung maskierter Diffusionsmodelle verbessert, und leiten ein vereinfachtes, Rao-Blackwellisiertes Ziel her, das zusätzliche Verbesserungen ermöglicht. Unser Ziel besitzt eine einfache Form – es handelt sich um eine Mischung klassischer maskierter Sprachmodellierungsverluste – und kann verwendet werden, um encoder-only Sprachmodelle zu trainieren, die effiziente Sampler zulassen, darunter solche, die Texte beliebiger Länge semi-autoregressiv erzeugen können, ähnlich wie traditionelle Sprachmodelle. Auf Sprachmodellierungsbenchmarks erreicht eine Reihe maskierter Diffusionsmodelle, die mit modernen Engineering-Praktiken trainiert wurden, eine neue state-of-the-art-Leistung unter Diffusionsmodellen und nähert sich der AR-Perplexität an. Wir stellen unseren Code unter folgender URL bereit: https://github.com/kuleshov-group/mdlm