HyperAIHyperAI

Command Palette

Search for a command to run...

Messung der Kurzform-Faktualität in großen Sprachmodellen

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

Abstract

Wir stellen SimpleQA vor, eine Benchmark, die die Fähigkeit von Sprachmodellen zur Beantwortung kurzer, faktensuchender Fragen evaluiert. Bei der Gestaltung dieser Evaluation haben wir zwei Eigenschaften priorisiert. Erstens ist SimpleQA anspruchsvoll, da sie adversarisch gegenüber den Antworten von GPT-4 gesammelt wurde. Zweitens sind die Antworten leicht zu bewerten, da die Fragen so konzipiert sind, dass jeweils nur eine eindeutig richtige Antwort existiert. Jede Antwort in SimpleQA wird als korrekt, falsch oder nicht beantwortet bewertet. Ein Modell mit idealer Leistung würde möglichst viele Fragen korrekt beantworten, ohne Fragen zu bearbeiten, für die es nicht sicher ist, die richtige Antwort zu kennen. SimpleQA ist eine einfache, gezielte Evaluation, um zu prüfen, ob Modelle „wissen, was sie wissen“, und wir hoffen, dass diese Benchmark auch in den kommenden Generationen fortschrittlicher Sprachmodelle weiterhin relevant bleibt.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Messung der Kurzform-Faktualität in großen Sprachmodellen | Papers | HyperAI