HyperAI

Zusammenfassung

Wir stellen SimpleQA vor, eine Benchmark, die die Fähigkeit von Sprachmodellen zur Beantwortung kurzer, faktensuchender Fragen evaluiert. Bei der Gestaltung dieser Evaluation haben wir zwei Eigenschaften priorisiert. Erstens ist SimpleQA anspruchsvoll, da sie adversarisch gegenüber den Antworten von GPT-4 gesammelt wurde. Zweitens sind die Antworten leicht zu bewerten, da die Fragen so konzipiert sind, dass jeweils nur eine eindeutig richtige Antwort existiert. Jede Antwort in SimpleQA wird als korrekt, falsch oder nicht beantwortet bewertet. Ein Modell mit idealer Leistung würde möglichst viele Fragen korrekt beantworten, ohne Fragen zu bearbeiten, für die es nicht sicher ist, die richtige Antwort zu kennen. SimpleQA ist eine einfache, gezielte Evaluation, um zu prüfen, ob Modelle „wissen, was sie wissen“, und wir hoffen, dass diese Benchmark auch in den kommenden Generationen fortschrittlicher Sprachmodelle weiterhin relevant bleibt.

Zusammenfassung

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Messung der Kurzform-Faktualität in großen Sprachmodellen

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Messung der Kurzform-Faktualität in großen Sprachmodellen

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Messung der Kurzform-Faktualität in großen Sprachmodellen

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters