vor 2 Monaten

KERMIT: Generatives einsetzungsbasierendes Modellierung für Sequenzen

William Chan; Nikita Kitaev; Kelvin Guu; Mitchell Stern; Jakob Uszkoreit

Abstract

Wir stellen KERMIT vor, einen einfachen einfügungsbasierten Ansatz für die generative Modellierung von Sequenzen und Sequenzpaaren. KERMIT modelliert die gemeinsame Verteilung und ihre Zerlegungen (d.h., Randverteilungen und bedingte Verteilungen) mithilfe eines einzigen neuronalen Netzes und unterscheidet sich im Gegensatz zu vielen früheren Arbeiten dadurch, dass es nicht auf eine vorgegebene Faktorisierung der Datenverteilung angewiesen ist. Während des Trainings kann man KERMIT gepaarte Daten $(x, y)$ zur Lernung der gemeinsamen Verteilung $p(x, y)$ zuführen und optional unangepaarte Daten $x$ oder $y$ hinzufügen, um die Randverteilungen $p(x)$ oder $p(y)$ zu verfeinern. Während der Inferenz haben wir Zugang zu den bedingten Verteilungen $p(x \mid y)$ und $p(y \mid x)$ in beiden Richtungen. Wir können auch aus der gemeinsamen Verteilung oder den Randverteilungen sampeln. Das Modell unterstützt sowohl serielle vollständig autoregressive Dekodierung als auch parallele teilweise autoregressive Dekodierung, wobei letztere empirisch logarithmische Laufzeiten aufweist. Durch Experimente im maschinellen Übersetzen, Repräsentationslernen und bei Zero-Shot-Cloze-Fragen beantworten zeigen wir, dass unser einheitlicher Ansatz in der Lage ist, die Leistung spezialisierter state-of-the-art-Systeme über einen breiten Spektrum von Aufgaben hinweg zu erreichen oder sogar zu übertreffen, ohne eine problemabhängige architekturale Anpassung zu erfordern.