HyperAIHyperAI

Command Palette

Search for a command to run...

KERMIT : Modélisation générative par insertion pour les séquences

William Chan; Nikita Kitaev; Kelvin Guu; Mitchell Stern; Jakob Uszkoreit

Résumé

Nous présentons KERMIT, une approche simple basée sur l'insertion pour la modélisation générative de séquences et de paires de séquences. KERMIT modélise la distribution conjointe et ses décompositions (c'est-à-dire les marginales et les conditionnelles) à l'aide d'un seul réseau neuronal, contrairement à beaucoup de travaux antérieurs qui ne s'appuient pas sur une factorisation préspécifiée de la distribution des données. Pendant l'entraînement, on peut alimenter KERMIT avec des données appariées (x,y)(x, y)(x,y) pour apprendre la distribution conjointe p(x,y)p(x, y)p(x,y), et éventuellement mélanger des données non appariées xxx ou yyy pour affiner les marginales p(x)p(x)p(x) ou p(y)p(y)p(y). Pendant l'inférence, nous avons accès aux conditionnelles p(xy)p(x \mid y)p(xy) et p(yx)p(y \mid x)p(yx) dans les deux sens. Nous pouvons également échantillonner à partir de la distribution conjointe ou des marginales. Le modèle prend en charge à la fois le décodage entièrement autoregressif séquentiel et le décodage partiellement autoregressif parallèle, ce dernier présentant un temps d'exécution logarithmique empirique. Nous montrons par des expériences en traduction automatique, apprentissage de représentation et réponse à des questions cloze en zero-shot que notre approche unifiée est capable d'égaler ou surpasser les performances des systèmes dédiés de pointe sur une large gamme de tâches sans nécessiter d'adaptation architecturale spécifique au problème.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
KERMIT : Modélisation générative par insertion pour les séquences | Articles | HyperAI