Datum

vor einem Monat

Organisation

Paper-URL

Tags

SimpleQA ist ein Datensatz zur Bewertung der faktischen Genauigkeit großer Sprachmodelle, der 2024 von OpenAI veröffentlicht wurde. Zugehörige Veröffentlichungen sind unter anderem… Messung der Kurzformfaktizität in großen SprachmodellenZiel ist es, die Korrektheit des Modells bei der Beantwortung kurzer, klarer und eindeutig überprüfbarer Faktenfragen zu bewerten, wobei komplexe Schlussfolgerungen oder subjektive Urteile die Bewertungsergebnisse nicht verfälschen.

Der Datensatz wurde aktualisiert und enthält nun 4.326 Beispielfragen aus verschiedenen Themenbereichen wie Wissenschaft und Technik, Kunst und Unterhaltung. Davon bilden 4.321 den offiziellen Testdatensatz, 5 dienen der Evaluierung. Jede Frage hat eine eindeutige und unbestrittene Standardantwort, die von zwei unabhängigen Trainern aus zuverlässigen Quellen verifiziert wurde, um Genauigkeit und Nachvollziehbarkeit zu gewährleisten. Jede Beispielfrage ist zudem mit dem jeweiligen Thema, dem Antworttyp (z. B. Person, Zahl oder Ort) und weiterführenden Links versehen, um eine präzise Auswertung und Ergebnisanalyse zu ermöglichen.

Im Vergleich zu früheren faktischen Benchmarks ist SimpleQA deutlich anspruchsvoller, und selbst die Genauigkeit aktueller State-of-the-Art-Modelle ist bei diesem Datensatz klar begrenzt. Daher eignet es sich als intensives Testverfahren zur Bewertung der faktischen Zuverlässigkeit von Modellen.

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Datensätze

DeepSearchQA Mehrstufiger Datensatz Zur Informationssuche Und Beantwortung Von Fragen

vor einem Monat

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

vor 3 Monaten

71.74 GB82

HumanSense Benchmark-Datensatz

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

Datum

vor einem Monat

Organisation

Paper-URL

2411.04368

Verwandt Datensätze

VideoRewardBench-Datensatz Zur Evaluierung Des Videobelohnungsmodells

vor 2 Monaten

VERA Voice Reasoning Evaluation Dataset

vor 3 Monaten

2.37 GB59

FirstAidQA Erste-Hilfe-Wissensfragen-Antworten-Datensatz

vor 2 Monaten

Datensatz Menschlicher Gesichtsausdrücke

vor 25 Tagen

INFINITY-CHAT Realer Offener Frage-Antwort-Datensatz

vor 2 Monaten

SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache

vor 2 Monaten

DeepSearchQA Mehrstufiger Datensatz Zur Informationssuche Und Beantwortung Von Fragen

vor einem Monat

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

vor 3 Monaten

71.74 GB82

HumanSense Benchmark-Datensatz

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SimpleQA – Datensatz Zur Bewertung Von Prägnanten, Faktischen Frage-Antwort-Systemen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SimpleQA – Datensatz Zur Bewertung Von Prägnanten, Faktischen Frage-Antwort-Systemen

Verwandt Datensätze

VideoRewardBench-Datensatz Zur Evaluierung Des Videobelohnungsmodells

VERA Voice Reasoning Evaluation Dataset

FirstAidQA Erste-Hilfe-Wissensfragen-Antworten-Datensatz

Datensatz Menschlicher Gesichtsausdrücke

INFINITY-CHAT Realer Offener Frage-Antwort-Datensatz

SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache

DeepSearchQA Mehrstufiger Datensatz Zur Informationssuche Und Beantwortung Von Fragen

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

HumanSense Benchmark-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SimpleQA – Datensatz Zur Bewertung Von Prägnanten, Faktischen Frage-Antwort-Systemen

Verwandt Datensätze

VideoRewardBench-Datensatz Zur Evaluierung Des Videobelohnungsmodells

VERA Voice Reasoning Evaluation Dataset

FirstAidQA Erste-Hilfe-Wissensfragen-Antworten-Datensatz

Datensatz Menschlicher Gesichtsausdrücke

INFINITY-CHAT Realer Offener Frage-Antwort-Datensatz

SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache

DeepSearchQA Mehrstufiger Datensatz Zur Informationssuche Und Beantwortung Von Fragen

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

HumanSense Benchmark-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Datensätze

VideoRewardBench-Datensatz Zur Evaluierung Des Videobelohnungsmodells

VERA Voice Reasoning Evaluation Dataset

FirstAidQA Erste-Hilfe-Wissensfragen-Antworten-Datensatz

Datensatz Menschlicher Gesichtsausdrücke

INFINITY-CHAT Realer Offener Frage-Antwort-Datensatz

SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache

DeepSearchQA Mehrstufiger Datensatz Zur Informationssuche Und Beantwortung Von Fragen

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

HumanSense Benchmark-Datensatz

Verwandt Datensätze

VideoRewardBench-Datensatz Zur Evaluierung Des Videobelohnungsmodells

VERA Voice Reasoning Evaluation Dataset

FirstAidQA Erste-Hilfe-Wissensfragen-Antworten-Datensatz

Datensatz Menschlicher Gesichtsausdrücke

INFINITY-CHAT Realer Offener Frage-Antwort-Datensatz

SSRB-Datensatz Für Semistrukturierte Daten Und Abfragen in Natürlicher Sprache

DeepSearchQA Mehrstufiger Datensatz Zur Informationssuche Und Beantwortung Von Fragen

olmOCR-mix-1025 Dokumentenerkennungsdatensatz

HumanSense Benchmark-Datensatz