Dies ist kein Datensatz: Ein großes Negationsbenchmark zur Herausforderung von Large Language Models

Obwohl große Sprachmodelle (LLMs) anscheinend ein gewisses Maß an grammatischem Wissen und der Fähigkeit zur Generalisierung erworben haben, versagen sie bei der Interpretation von Verneinungen – einem entscheidenden Schritt im Bereich der natürlichen Sprachverarbeitung. Wir untersuchen die Ursachen für die suboptimalen Leistungen von LLMs bei der Verständnis von Negationen. Dazu stellen wir eine große, halbautomatisch generierte Datensammlung mit etwa 400.000 deskriptiven Sätzen zum Alltagswissen vor, die entweder wahr oder falsch sein können und in etwa zwei Dritteln der Korpusdaten in unterschiedlichen Formen Verneinungen enthalten. Wir nutzen diese Datensammlung gemeinsam mit den größten verfügbaren offenen LLMs in einem Zero-Shot-Ansatz, um deren Generalisierungs- und Inferenzfähigkeit zu bewerten, und fine-tunen zudem einige Modelle, um zu prüfen, ob das Verständnis von Negationen trainiert werden kann. Unsere Ergebnisse zeigen, dass LLMs zwar gut darin sind, affirmativen Sätzen zuzuordnen, jedoch erhebliche Schwierigkeiten mit negativen Sätzen haben und ein tiefes Verständnis von Negationen fehlt – sie stützen sich vielmehr oft auf oberflächliche Hinweise. Obwohl das Fine-Tuning der Modelle auf negativen Sätzen deren Leistung verbessert, bleibt das Problem der mangelnden Generalisierung beim Umgang mit Negationen bestehen und unterstreicht die anhaltenden Herausforderungen bei der Verarbeitung von Negationen in LLMs. Die Datensammlung und der zugehörige Code sind öffentlich zugänglich.