HyperAIHyperAI

Command Palette

Search for a command to run...

UQ-Datensatz Zu Ungelösten Fragen

Use this DatasetDiscuss on Discord

Date

vor 4 Monaten

Organization

Stanford Universität
Universität von Washington

Paper URL

2508.17580

License

CC BY-SA 4.0

Der UQ-Datensatz ist ein im Jahr 2025 von der Stanford University, der University of Washington, der University of North Carolina und anderen Institutionen veröffentlichter Bewertungsmaßstab. Die relevanten Ergebnisse des Papiers sind „UQ: Bewertung von Sprachmodellen anhand ungelöster Fragen", dessen Ziel es ist, die Argumentation, Faktizität und Browsing-Fähigkeiten hochmoderner großer Modelle anhand realer und schwieriger "Probleme, die von der menschlichen Gesellschaft noch nicht beantwortet wurden" zu bewerten.

Der Datensatz besteht aus 500 seit langem unbeantworteten Fragen der Stack Exchange-Plattform und deckt Themen wie Informatiktheorie, Mathematik, Science-Fiction und Geschichte ab. Er verwendet eine Sammlungspipeline mit „Regelfilterung + LLM-Überprüfung + manueller Überprüfung“ und ist mit UQ-Validatoren für die automatische Vorprüfung und Community-Überprüfung der Kandidatenantworten ausgestattet. Seine Merkmale sind schwierig, aber realistisch, asynchrone Bewertung und Trennung von Generation und Überprüfung. Er eignet sich für Szenarien wie die Argumentations-/Abrufbewertung von Spitzenmodellen, die langfristige Fortschrittsverfolgung und öffentliche Rankings.

Datenverteilung:

  • Wissenschaft: 395
  • Technologie: 52
  • Kultur & Freizeit: 16
  • Leben & Kunst: 35
Prozess der Datensatzerstellung

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp