vor 17 Tagen

Einfügen numerischer Schlussfolgerungsfähigkeiten in Sprachmodelle

Mor Geva, Ankit Gupta, Jonathan Berant

Abstract

Große vortrainierte Sprachmodelle (LMs) sind dafür bekannt, erhebliche Mengen linguistischer Informationen zu speichern. Dennoch sind hochwertige Schlussfolgerungsfähigkeiten, wie numerische Schlussfolgerung, schwer aus einer rein sprachmodellbasierten Zielsetzung zu erlernen. Daher haben bestehende Modelle für numerische Schlussfolgerung spezialisierte Architekturen mit begrenzter Flexibilität verwendet. In dieser Arbeit zeigen wir, dass numerische Schlussfolgerung durch automatisierte Datengenerierung zugänglich ist, sodass man diese Fähigkeit in vortrainierte LMs einbringen kann, indem man große Datenmengen generiert und im Rahmen eines Multi-Task-Trainings vortrainiert. Wir zeigen, dass das Vortrainieren unseres Modells, GenBERT, auf diesen Daten die Leistung auf DROP erheblich verbessert (von 49,3 auf 72,3 F1) und eine Leistung erreicht, die state-of-the-art-Modellen vergleichbarer Größe entspricht, wobei eine einfache und allgemein verwendbare Encoder-Decoder-Architektur genutzt wird. Zudem generalisiert GenBERT gut auf mathematische Textaufgaben-Datensätze, während es gleichzeitig eine hohe Leistung auf standardmäßigen Leseverstehens-Aufgaben beibehält. Unser Ansatz bietet eine allgemeine Vorgehensweise, um Fähigkeiten in große vortrainierte LMs einzubringen, solange diese Fähigkeiten durch automatisierte Datenaugmentation unterstützt werden können.