Command Palette
Search for a command to run...
SimpleQA – Datensatz Zur Bewertung Von Prägnanten, Faktischen Frage-Antwort-Systemen
Date
Paper URL
SimpleQA ist ein Datensatz zur Bewertung der faktischen Genauigkeit großer Sprachmodelle, der 2024 von OpenAI veröffentlicht wurde. Zugehörige Veröffentlichungen sind unter anderem… Messung der Kurzformfaktizität in großen SprachmodellenZiel ist es, die Korrektheit des Modells bei der Beantwortung kurzer, klarer und eindeutig überprüfbarer Faktenfragen zu bewerten, wobei komplexe Schlussfolgerungen oder subjektive Urteile die Bewertungsergebnisse nicht verfälschen.
Der Datensatz wurde aktualisiert und enthält nun 4.326 Beispielfragen aus verschiedenen Themenbereichen wie Wissenschaft und Technik, Kunst und Unterhaltung. Davon bilden 4.321 den offiziellen Testdatensatz, 5 dienen der Evaluierung. Jede Frage hat eine eindeutige und unbestrittene Standardantwort, die von zwei unabhängigen Trainern aus zuverlässigen Quellen verifiziert wurde, um Genauigkeit und Nachvollziehbarkeit zu gewährleisten. Jede Beispielfrage ist zudem mit dem jeweiligen Thema, dem Antworttyp (z. B. Person, Zahl oder Ort) und weiterführenden Links versehen, um eine präzise Auswertung und Ergebnisanalyse zu ermöglichen.
Im Vergleich zu früheren faktischen Benchmarks ist SimpleQA deutlich anspruchsvoller, und selbst die Genauigkeit aktueller State-of-the-Art-Modelle ist bei diesem Datensatz klar begrenzt. Daher eignet es sich als intensives Testverfahren zur Bewertung der faktischen Zuverlässigkeit von Modellen.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.