ZeroGen: Effizientes Zero-shot-Lernen durch Datensatzgenerierung

In letzter Zeit wächst das Interesse an der Datensatzgenerierung aufgrund der hervorragenden generativen Fähigkeiten großer vortrainierter Sprachmodelle (PLMs). In diesem Artikel untersuchen wir eine flexible und effiziente Zero-Shot-Lernmethode namens \textsc{ZeroGen}. Gegeben eine Zero-Shot-Aufgabe generieren wir zunächst unabhängig von Annotationen einen Datensatz von Grund auf mithilfe von PLMs. Anschließend trainieren wir ein kleines Aufgabenmodell (z. B. LSTM) unter der Aufsicht des synthetisierten Datensatzes. Dieser Ansatz ermöglicht eine äußerst effiziente Inferenz, da das finale Aufgabenmodell im Vergleich zu PLMs (z. B. GPT2-XL) um Größenordnungen weniger Parameter besitzt. Neben der annotierungsfreien und effizienten Arbeitsweise argumentieren wir, dass \textsc{ZeroGen} zudem wertvolle Erkenntnisse aus der Perspektive der datenfreien, modellunabhängigen Wissensdistillation und der bewertungsfreien Textgenerierung liefern kann. Experimente und Analysen an verschiedenen NLP-Aufgaben – nämlich Textklassifikation, Fragebeantwortung und natürliche Sprachinferenz – belegen die Wirksamkeit von \textsc{ZeroGen}.