Ein einfacher, aber schwer zu schlagender Ansatz zur Daten-Augmentation für das Verständnis und die Generierung natürlicher Sprache

Adversariales Training hat sich als wirksam erwiesen, um die gelernten Darstellungen mit einer stärkeren Generalisierungsfähigkeit auszustatten. Allerdings erfordert es typischerweise aufwendige Berechnungen, um die Richtung der eingefügten Störungen zu bestimmen. In diesem Paper stellen wir eine Reihe einfacher, jedoch wirksamer Datenverstärkungsstrategien vor, die wir „Cutoff“ nennen, bei denen ein Teil der Informationen innerhalb eines Eingabesatzes entfernt wird, um dessen eingeschränkte Perspektiven (im Verfeinerungsstadium) zu erzeugen. Insbesondere basiert dieser Prozess ausschließlich auf stochastischer Stichprobenauswahl und fügt somit nur geringen zusätzlichen Rechenaufwand hinzu. Zusätzlich wird eine Konsistenzverlustfunktion basierend auf der Jensen-Shannon-Divergenz eingesetzt, um die veränderten Proben auf systematische Weise in das Trainingsziel einzubinden. Um die Wirksamkeit der vorgeschlagenen Strategien zu überprüfen, wenden wir Cutoff sowohl auf Aufgaben des natürlichen Sprachverstehens als auch der Sprachgenerierung an. Auf der GLUE-Benchmark zeigt sich, dass Cutoff, trotz seiner Einfachheit, die Leistung mehrerer konkurrierender adversarialer Ansätze erreicht oder sogar übertrifft. Wir erweitern Cutoff zudem auf die maschinelle Übersetzung und beobachten signifikante Verbesserungen der BLEU-Scores (unter Verwendung des Transformer Base-Modells). Darüber hinaus übertrifft Cutoff konsistent das adversariale Training und erreicht auf dem IWSLT2014-Datensatz Deutsch-Englisch state-of-the-art-Ergebnisse.