HyperAIHyperAI
vor 17 Tagen

Freischalten der zusammengesetzten Generalisierung in vortrainierten Modellen unter Verwendung von Zwischenrepräsentationen

Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang
Freischalten der zusammengesetzten Generalisierung in vortrainierten Modellen unter Verwendung von Zwischenrepräsentationen
Abstract

Sequence-to-Sequence-(Seq2Seq)-Modelle sind in der semantischen Parsing-Aufgabe weit verbreitet, haben sich jedoch bei der generalisierenden Leistung auf zusammengesetzte, außerhalb der Trainingsverteilung liegende Eingaben als problematisch erwiesen. Obwohl spezialisierte Modellarchitekturen und Vortrainingsstrategien für Seq2Seq-Modelle vorgeschlagen wurden, um dieses Problem zu bewältigen, führt die erstere oft zu einem Verlust an Allgemeingültigkeit, während die letztere nur begrenzten Erfolg zeigt. In diesem Paper untersuchen wir den Einfluss von Zwischenrepräsentationen auf die zusammengesetzte Generalisierung in vortrainierten Seq2Seq-Modellen – ohne dabei die Modellarchitektur zu verändern – und identifizieren Schlüsselelemente für die Gestaltung effektiver Darstellungen. Anstatt direkt von natürlicher Sprache auf eine ausführbare Form abzubilden, leiten wir stattdessen zu einer umkehrbaren oder verlustbehafteten Zwischenrepräsentation über, die eine stärkere strukturelle Korrespondenz mit der natürlichen Sprache aufweist. Die Kombination der vorgeschlagenen Zwischenrepräsentationen mit vortrainierten Modellen erweist sich als überraschend wirksam: Die besten Kombinationen erreichen eine neue State-of-the-Art-Leistung auf CFQ (+14,8 Punkte Genauigkeit) sowie auf den Template-Splits dreier Text-zu-SQL-Datensätze (+15,0 bis +19,4 Punkte Genauigkeit). Diese Arbeit unterstreicht, dass Zwischenrepräsentationen eine wichtige und möglicherweise übersehene Freiheitsgrad darstellen, um die Fähigkeit vortrainierter Seq2Seq-Modelle zur zusammengesetzten Generalisierung zu verbessern.