Command Palette
Search for a command to run...
Messung der Kurzform-Faktualität in großen Sprachmodellen
Messung der Kurzform-Faktualität in großen Sprachmodellen
Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus
Abstract
Wir stellen SimpleQA vor, eine Benchmark, die die Fähigkeit von Sprachmodellen zur Beantwortung kurzer, faktensuchender Fragen evaluiert. Bei der Gestaltung dieser Evaluation haben wir zwei Eigenschaften priorisiert. Erstens ist SimpleQA anspruchsvoll, da sie adversarisch gegenüber den Antworten von GPT-4 gesammelt wurde. Zweitens sind die Antworten leicht zu bewerten, da die Fragen so konzipiert sind, dass jeweils nur eine eindeutig richtige Antwort existiert. Jede Antwort in SimpleQA wird als korrekt, falsch oder nicht beantwortet bewertet. Ein Modell mit idealer Leistung würde möglichst viele Fragen korrekt beantworten, ohne Fragen zu bearbeiten, für die es nicht sicher ist, die richtige Antwort zu kennen. SimpleQA ist eine einfache, gezielte Evaluation, um zu prüfen, ob Modelle „wissen, was sie wissen“, und wir hoffen, dass diese Benchmark auch in den kommenden Generationen fortschrittlicher Sprachmodelle weiterhin relevant bleibt.