Command Palette
Search for a command to run...
UQ-Datensatz Zu Ungelösten Fragen
Datum
Paper-URL
Lizenz
CC BY-SA 4.0
*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Der UQ-Datensatz ist ein im Jahr 2025 von der Stanford University, der University of Washington, der University of North Carolina und anderen Institutionen veröffentlichter Bewertungsmaßstab. Die relevanten Ergebnisse des Papiers sind „UQ: Bewertung von Sprachmodellen anhand ungelöster Fragen", dessen Ziel es ist, die Argumentation, Faktizität und Browsing-Fähigkeiten hochmoderner großer Modelle anhand realer und schwieriger "Probleme, die von der menschlichen Gesellschaft noch nicht beantwortet wurden" zu bewerten.
Der Datensatz besteht aus 500 seit langem unbeantworteten Fragen der Stack Exchange-Plattform und deckt Themen wie Informatiktheorie, Mathematik, Science-Fiction und Geschichte ab. Er verwendet eine Sammlungspipeline mit „Regelfilterung + LLM-Überprüfung + manueller Überprüfung“ und ist mit UQ-Validatoren für die automatische Vorprüfung und Community-Überprüfung der Kandidatenantworten ausgestattet. Seine Merkmale sind schwierig, aber realistisch, asynchrone Bewertung und Trennung von Generation und Überprüfung. Er eignet sich für Szenarien wie die Argumentations-/Abrufbewertung von Spitzenmodellen, die langfristige Fortschrittsverfolgung und öffentliche Rankings.
Datenverteilung:
- Wissenschaft: 395
- Technologie: 52
- Kultur & Freizeit: 16
- Leben & Kunst: 35

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.