Command Palette
Search for a command to run...
UQ: Beurteilung von Sprachmodellen auf ungelösten Fragen
Fan Nie Ken Ziyu Liu Zihao Wang Rui Sun Wei Liu Weijia Shi et al

Abstract
Benchmarking prägt den Fortschritt in der KI-Forschung. Ein sinnvoller Benchmark sollte gleichzeitig anspruchsvoll und realitätsnah sein: Die Fragen müssen die aktuellsten Modelle herausfordern, gleichzeitig aber auch reale Anwendungsszenarien widerspiegeln. Derzeit herrscht jedoch eine Spannung zwischen Schwierigkeit und Realitätsnähe: Prüfungsartige Benchmarks sind oft künstlich erschwert und besitzen nur begrenzten praktischen Nutzen, während Benchmarks auf Basis echter Nutzerinteraktionen tendenziell einfache, häufig auftretende Probleme betonen. In dieser Arbeit untersuchen wir einen radikal anderen Ansatz: die Bewertung von Modellen anhand ungelöster Fragen. Anstatt eines statischen Benchmarks, der nur einmal bewertet wird, sammeln wir ungelöste Fragen und evaluieren die Modelle asynchron über die Zeit, unterstützt durch Validatoren und eine Gemeinschaftsverifikation. Wir stellen UQ vor – ein Testfeld mit 500 anspruchsvollen, vielfältigen Fragen, die aus Stack Exchange stammen und Themen wie theoretische Informatik, Mathematik, Science-Fiction und Geschichte abdecken, um Fähigkeiten wie Schlussfolgern, Faktengenauigkeit und Informationsrecherche zu testen. UQ ist per Konstruktion anspruchsvoll und realitätsnah: Ungelöste Fragen sind typischerweise schwierig und entstehen natürlich, wenn Menschen nach Antworten suchen, sodass ihre Lösung unmittelbaren praktischen Nutzen erzeugt. Unsere Beiträge sind dreifach: (1) Das UQ-Dataset und dessen Sammlungspipeline, die regelbasierte Filter, LLM-Beurteiler und menschliche Überprüfung kombiniert, um die Qualität der Fragen sicherzustellen (z. B. gut definiert und anspruchsvoll); (2) UQ-Validatoren, komplexere Validierungsstrategien, die die Lücke zwischen Generatoren und Validatoren nutzen, um Bewertungssignale zu liefern und Kandidatenlösungen zur menschlichen Überprüfung vorzubereiten; und (3) die UQ-Plattform, eine offene Umgebung, in der Experten gemeinsam Fragen und Lösungen verifizieren. Das führende Modell besteht die UQ-Validierung nur bei 15 % der Fragen, und erste menschliche Überprüfungen haben bereits korrekte Antworten unter den bestandenen Lösungen identifiziert. UQ eröffnet einen Weg zur Bewertung fortschrittlicher Modelle anhand realweltrelevanter, offener Herausforderungen, bei denen ein Erfolg die Grenzen des menschlichen Wissens erweitert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.