Command Palette
Search for a command to run...
UQ-Datensatz Zu Ungelösten Fragen
Date
Paper URL
License
CC BY-SA 4.0
Der UQ-Datensatz ist ein im Jahr 2025 von der Stanford University, der University of Washington, der University of North Carolina und anderen Institutionen veröffentlichter Bewertungsmaßstab. Die relevanten Ergebnisse des Papiers sind „UQ: Bewertung von Sprachmodellen anhand ungelöster Fragen", dessen Ziel es ist, die Argumentation, Faktizität und Browsing-Fähigkeiten hochmoderner großer Modelle anhand realer und schwieriger "Probleme, die von der menschlichen Gesellschaft noch nicht beantwortet wurden" zu bewerten.
Der Datensatz besteht aus 500 seit langem unbeantworteten Fragen der Stack Exchange-Plattform und deckt Themen wie Informatiktheorie, Mathematik, Science-Fiction und Geschichte ab. Er verwendet eine Sammlungspipeline mit „Regelfilterung + LLM-Überprüfung + manueller Überprüfung“ und ist mit UQ-Validatoren für die automatische Vorprüfung und Community-Überprüfung der Kandidatenantworten ausgestattet. Seine Merkmale sind schwierig, aber realistisch, asynchrone Bewertung und Trennung von Generation und Überprüfung. Er eignet sich für Szenarien wie die Argumentations-/Abrufbewertung von Spitzenmodellen, die langfristige Fortschrittsverfolgung und öffentliche Rankings.
Datenverteilung:
- Wissenschaft: 395
- Technologie: 52
- Kultur & Freizeit: 16
- Leben & Kunst: 35

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.