HyperAIHyperAI

Command Palette

Search for a command to run...

Einfügen numerischer Schlussfolgerungsfähigkeiten in Sprachmodelle

Mor Geva Ankit Gupta Jonathan Berant

Zusammenfassung

Große vortrainierte Sprachmodelle (LMs) sind dafür bekannt, erhebliche Mengen linguistischer Informationen zu speichern. Dennoch sind hochwertige Schlussfolgerungsfähigkeiten, wie numerische Schlussfolgerung, schwer aus einer rein sprachmodellbasierten Zielsetzung zu erlernen. Daher haben bestehende Modelle für numerische Schlussfolgerung spezialisierte Architekturen mit begrenzter Flexibilität verwendet. In dieser Arbeit zeigen wir, dass numerische Schlussfolgerung durch automatisierte Datengenerierung zugänglich ist, sodass man diese Fähigkeit in vortrainierte LMs einbringen kann, indem man große Datenmengen generiert und im Rahmen eines Multi-Task-Trainings vortrainiert. Wir zeigen, dass das Vortrainieren unseres Modells, GenBERT, auf diesen Daten die Leistung auf DROP erheblich verbessert (von 49,3 auf 72,3 F1) und eine Leistung erreicht, die state-of-the-art-Modellen vergleichbarer Größe entspricht, wobei eine einfache und allgemein verwendbare Encoder-Decoder-Architektur genutzt wird. Zudem generalisiert GenBERT gut auf mathematische Textaufgaben-Datensätze, während es gleichzeitig eine hohe Leistung auf standardmäßigen Leseverstehens-Aufgaben beibehält. Unser Ansatz bietet eine allgemeine Vorgehensweise, um Fähigkeiten in große vortrainierte LMs einzubringen, solange diese Fähigkeiten durch automatisierte Datenaugmentation unterstützt werden können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Einfügen numerischer Schlussfolgerungsfähigkeiten in Sprachmodelle | Paper | HyperAI