HyperAIHyperAI
il y a 2 mois

KERMIT : Modélisation générative par insertion pour les séquences

William Chan; Nikita Kitaev; Kelvin Guu; Mitchell Stern; Jakob Uszkoreit
KERMIT : Modélisation générative par insertion pour les séquences
Résumé

Nous présentons KERMIT, une approche simple basée sur l'insertion pour la modélisation générative de séquences et de paires de séquences. KERMIT modélise la distribution conjointe et ses décompositions (c'est-à-dire les marginales et les conditionnelles) à l'aide d'un seul réseau neuronal, contrairement à beaucoup de travaux antérieurs qui ne s'appuient pas sur une factorisation préspécifiée de la distribution des données. Pendant l'entraînement, on peut alimenter KERMIT avec des données appariées $(x, y)$ pour apprendre la distribution conjointe $p(x, y)$, et éventuellement mélanger des données non appariées $x$ ou $y$ pour affiner les marginales $p(x)$ ou $p(y)$. Pendant l'inférence, nous avons accès aux conditionnelles $p(x \mid y)$ et $p(y \mid x)$ dans les deux sens. Nous pouvons également échantillonner à partir de la distribution conjointe ou des marginales. Le modèle prend en charge à la fois le décodage entièrement autoregressif séquentiel et le décodage partiellement autoregressif parallèle, ce dernier présentant un temps d'exécution logarithmique empirique. Nous montrons par des expériences en traduction automatique, apprentissage de représentation et réponse à des questions cloze en zero-shot que notre approche unifiée est capable d'égaler ou surpasser les performances des systèmes dédiés de pointe sur une large gamme de tâches sans nécessiter d'adaptation architecturale spécifique au problème.