Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 10 Monaten

Organisation

Paper-URL

2508.17580

Lizenz

CC BY-SA 4.0

Tags

Mathematik

Theoretische Informatik

Der UQ-Datensatz ist ein im Jahr 2025 von der Stanford University, der University of Washington, der University of North Carolina und anderen Institutionen veröffentlichter Bewertungsmaßstab. Die relevanten Ergebnisse des Papiers sind „UQ: Bewertung von Sprachmodellen anhand ungelöster Fragen", dessen Ziel es ist, die Argumentation, Faktizität und Browsing-Fähigkeiten hochmoderner großer Modelle anhand realer und schwieriger "Probleme, die von der menschlichen Gesellschaft noch nicht beantwortet wurden" zu bewerten. Der Datensatz besteht aus 500 seit langem unbeantworteten Fragen der Stack Exchange-Plattform und deckt Themen wie Informatiktheorie, Mathematik, Science-Fiction und Geschichte ab. Er verwendet eine Sammlungspipeline mit „Regelfilterung + LLM-Überprüfung + manueller Überprüfung“ und ist mit UQ-Validatoren für die automatische Vorprüfung und Community-Überprüfung der Kandidatenantworten ausgestattet. Seine Merkmale sind schwierig, aber realistisch, asynchrone Bewertung und Trennung von Generation und Überprüfung. Er eignet sich für Szenarien wie die Argumentations-/Abrufbewertung von Spitzenmodellen, die langfristige Fortschrittsverfolgung und öffentliche Rankings.

Datenverteilung:

Wissenschaft: 395
Technologie: 52
Kultur & Freizeit: 16
Leben & Kunst: 35
Prozess der Datensatzerstellung

Zitat

@misc{nie2025uqassessinglanguagemodels, title={UQ: Assessing Language Models on Unsolved Questions}, Autor={Fan Nie und Ken Ziyu Liu und Zihao Wang und Rui Sun und Wei Liu und Weijia Shi und Huaxiu Yao und Linjun Zhang und Andrew Y. Ng und James Zou und Sanmi Koyejo und Yejin Choi und Percy Liang und Niklas Muennighoff}, Jahr={2025}, eprint={2508.17580}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.17580}, }

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

vor 41 Minuten

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

vor 5 Tagen

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

vor 7 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 10 Monaten

Organisation

Paper-URL

2508.17580

Lizenz

CC BY-SA 4.0

Datenverteilung:

Wissenschaft: 395
Technologie: 52
Kultur & Freizeit: 16
Leben & Kunst: 35
Prozess der Datensatzerstellung

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

vor 41 Minuten

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

vor 5 Tagen

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

vor 7 Tagen

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

vor 25 Tagen

SMOL Multilingual Translation Parallel Dataset

vor einem Monat

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

vor 13 Tagen

MemLens Multimodal Long Context Benchmark-Datensatz

vor einem Monat

Claw-Eval Real-World Benchmark Dataset

vor einem Monat

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

vor 2 Monaten

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

vor 8 Tagen

MDPBench Multilingual Document Parsing Benchmark Dataset

vor 8 Tagen

Datensatz „Einfache Sprachfragen“

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

UQ-Datensatz Zu Ungelösten Fragen

Datenverteilung:

Zitat

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UQ-Datensatz Zu Ungelösten Fragen

Datenverteilung:

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

MemLens Multimodal Long Context Benchmark-Datensatz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

MDPBench Multilingual Document Parsing Benchmark Dataset

Datensatz „Einfache Sprachfragen“

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UQ-Datensatz Zu Ungelösten Fragen

Datenverteilung:

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

MemLens Multimodal Long Context Benchmark-Datensatz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

MDPBench Multilingual Document Parsing Benchmark Dataset

Datensatz „Einfache Sprachfragen“

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

MemLens Multimodal Long Context Benchmark-Datensatz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

MDPBench Multilingual Document Parsing Benchmark Dataset

Datensatz „Einfache Sprachfragen“

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

MemLens Multimodal Long Context Benchmark-Datensatz

Claw-Eval Real-World Benchmark Dataset

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

MDPBench Multilingual Document Parsing Benchmark Dataset

Datensatz „Einfache Sprachfragen“