HyperAIHyperAI
vor 9 Tagen

Mixture of Content Selection für die vielfältige Sequenzgenerierung

Jaemin Cho, Minjoon Seo, Hannaneh Hajishirzi
Mixture of Content Selection für die vielfältige Sequenzgenerierung
Abstract

Die Generierung vielfältiger Sequenzen ist in vielen Anwendungen der natürlichen Sprachverarbeitung (NLP), wie beispielsweise der Frageerzeugung oder der abstraktiven Zusammenfassung, von entscheidender Bedeutung, da hier zwischen Quell- und Zielsequenzen semantisch eine ein-zu-viele-Beziehung besteht. Wir präsentieren eine Methode, die die Diversifizierung explizit von der Generierung trennt, indem wir ein allgemein einsetzbares Plug-and-Play-Modul (namens SELECTOR) verwenden, das ein bestehendes Encoder-Decoder-Modell umgibt und leitet. Im Diversifizierungsstadium wird ein Mixture-of-Experts-Ansatz eingesetzt, um verschiedene binäre Masken auf die Quellsequenz anzuwenden, um unterschiedliche Inhalte auszuwählen. Im Generierungsstadium nutzt ein standardmäßiges Encoder-Decoder-Modell jeweils den ausgewählten Inhalt aus der Quellsequenz. Aufgrund der nicht-differenzierbaren Natur diskreter Stichproben und des Fehlens von Ground-Truth-Masken für die binären Masken verwenden wir eine Proxy-Label-Approximation und integrieren einen stochastischen hard-EM-Ansatz für das Training. In der Frageerzeugung (SQuAD) und der abstraktiven Zusammenfassung (CNN-DM) zeigt unsere Methode signifikante Verbesserungen hinsichtlich Genauigkeit, Diversität und Trainingseffizienz – einschließlich state-of-the-art-Genauigkeit auf Top-1 in beiden Datensätzen, einer Steigerung der Top-5-Genauigkeit um 6 % sowie einer 3,7-fach schnelleren Trainingsgeschwindigkeit im Vergleich zu einem state-of-the-art-Modell. Unser Code ist öffentlich unter https://github.com/clovaai/FocusSeq2Seq verfügbar.