HyperAIHyperAI

Command Palette

Search for a command to run...

Dies ist kein Datensatz: Ein großes Negationsbenchmark zur Herausforderung von Large Language Models

Iker García-Ferrero Begoña Altuna Javier Álvez Itziar Gonzalez-Dios German Rigau

Zusammenfassung

Obwohl große Sprachmodelle (LLMs) anscheinend ein gewisses Maß an grammatischem Wissen und der Fähigkeit zur Generalisierung erworben haben, versagen sie bei der Interpretation von Verneinungen – einem entscheidenden Schritt im Bereich der natürlichen Sprachverarbeitung. Wir untersuchen die Ursachen für die suboptimalen Leistungen von LLMs bei der Verständnis von Negationen. Dazu stellen wir eine große, halbautomatisch generierte Datensammlung mit etwa 400.000 deskriptiven Sätzen zum Alltagswissen vor, die entweder wahr oder falsch sein können und in etwa zwei Dritteln der Korpusdaten in unterschiedlichen Formen Verneinungen enthalten. Wir nutzen diese Datensammlung gemeinsam mit den größten verfügbaren offenen LLMs in einem Zero-Shot-Ansatz, um deren Generalisierungs- und Inferenzfähigkeit zu bewerten, und fine-tunen zudem einige Modelle, um zu prüfen, ob das Verständnis von Negationen trainiert werden kann. Unsere Ergebnisse zeigen, dass LLMs zwar gut darin sind, affirmativen Sätzen zuzuordnen, jedoch erhebliche Schwierigkeiten mit negativen Sätzen haben und ein tiefes Verständnis von Negationen fehlt – sie stützen sich vielmehr oft auf oberflächliche Hinweise. Obwohl das Fine-Tuning der Modelle auf negativen Sätzen deren Leistung verbessert, bleibt das Problem der mangelnden Generalisierung beim Umgang mit Negationen bestehen und unterstreicht die anhaltenden Herausforderungen bei der Verarbeitung von Negationen in LLMs. Die Datensammlung und der zugehörige Code sind öffentlich zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp