HyperAIHyperAI

Command Palette

Search for a command to run...

Messung der Kurzform-Faktualität in großen Sprachmodellen

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

Zusammenfassung

Wir stellen SimpleQA vor, eine Benchmark, die die Fähigkeit von Sprachmodellen zur Beantwortung kurzer, faktensuchender Fragen evaluiert. Bei der Gestaltung dieser Evaluation haben wir zwei Eigenschaften priorisiert. Erstens ist SimpleQA anspruchsvoll, da sie adversarisch gegenüber den Antworten von GPT-4 gesammelt wurde. Zweitens sind die Antworten leicht zu bewerten, da die Fragen so konzipiert sind, dass jeweils nur eine eindeutig richtige Antwort existiert. Jede Antwort in SimpleQA wird als korrekt, falsch oder nicht beantwortet bewertet. Ein Modell mit idealer Leistung würde möglichst viele Fragen korrekt beantworten, ohne Fragen zu bearbeiten, für die es nicht sicher ist, die richtige Antwort zu kennen. SimpleQA ist eine einfache, gezielte Evaluation, um zu prüfen, ob Modelle „wissen, was sie wissen“, und wir hoffen, dass diese Benchmark auch in den kommenden Generationen fortschrittlicher Sprachmodelle weiterhin relevant bleibt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Messung der Kurzform-Faktualität in großen Sprachmodellen | Paper | HyperAI