Command Palette
Search for a command to run...
SimpleQA – Datensatz Zur Bewertung Von Prägnanten, Faktischen Frage-Antwort-Systemen
Datum
Paper-URL
SimpleQA ist ein Datensatz zur Bewertung der faktischen Genauigkeit großer Sprachmodelle, der 2024 von OpenAI veröffentlicht wurde. Zugehörige Veröffentlichungen sind unter anderem… Messung der Kurzformfaktizität in großen SprachmodellenZiel ist es, die Korrektheit des Modells bei der Beantwortung kurzer, klarer und eindeutig überprüfbarer Faktenfragen zu bewerten, wobei komplexe Schlussfolgerungen oder subjektive Urteile die Bewertungsergebnisse nicht verfälschen.
Der Datensatz wurde aktualisiert und enthält nun 4.326 Beispielfragen aus verschiedenen Themenbereichen wie Wissenschaft und Technik, Kunst und Unterhaltung. Davon bilden 4.321 den offiziellen Testdatensatz, 5 dienen der Evaluierung. Jede Frage hat eine eindeutige und unbestrittene Standardantwort, die von zwei unabhängigen Trainern aus zuverlässigen Quellen verifiziert wurde, um Genauigkeit und Nachvollziehbarkeit zu gewährleisten. Jede Beispielfrage ist zudem mit dem jeweiligen Thema, dem Antworttyp (z. B. Person, Zahl oder Ort) und weiterführenden Links versehen, um eine präzise Auswertung und Ergebnisanalyse zu ermöglichen.
Im Vergleich zu früheren faktischen Benchmarks ist SimpleQA deutlich anspruchsvoller, und selbst die Genauigkeit aktueller State-of-the-Art-Modelle ist bei diesem Datensatz klar begrenzt. Daher eignet es sich als intensives Testverfahren zur Bewertung der faktischen Zuverlässigkeit von Modellen.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.