HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

UQ: Beurteilung von Sprachmodellen auf ungelösten Fragen

Fan Nie Ken Ziyu Liu Zihao Wang Rui Sun Wei Liu Weijia Shi et al

UQ: Beurteilung von Sprachmodellen auf ungelösten Fragen

Abstract

Benchmarking prägt den Fortschritt in der KI-Forschung. Ein sinnvoller Benchmark sollte gleichzeitig anspruchsvoll und realitätsnah sein: Die Fragen müssen die aktuellsten Modelle herausfordern, gleichzeitig aber auch reale Anwendungsszenarien widerspiegeln. Derzeit herrscht jedoch eine Spannung zwischen Schwierigkeit und Realitätsnähe: Prüfungsartige Benchmarks sind oft künstlich erschwert und besitzen nur begrenzten praktischen Nutzen, während Benchmarks auf Basis echter Nutzerinteraktionen tendenziell einfache, häufig auftretende Probleme betonen. In dieser Arbeit untersuchen wir einen radikal anderen Ansatz: die Bewertung von Modellen anhand ungelöster Fragen. Anstatt eines statischen Benchmarks, der nur einmal bewertet wird, sammeln wir ungelöste Fragen und evaluieren die Modelle asynchron über die Zeit, unterstützt durch Validatoren und eine Gemeinschaftsverifikation. Wir stellen UQ vor – ein Testfeld mit 500 anspruchsvollen, vielfältigen Fragen, die aus Stack Exchange stammen und Themen wie theoretische Informatik, Mathematik, Science-Fiction und Geschichte abdecken, um Fähigkeiten wie Schlussfolgern, Faktengenauigkeit und Informationsrecherche zu testen. UQ ist per Konstruktion anspruchsvoll und realitätsnah: Ungelöste Fragen sind typischerweise schwierig und entstehen natürlich, wenn Menschen nach Antworten suchen, sodass ihre Lösung unmittelbaren praktischen Nutzen erzeugt. Unsere Beiträge sind dreifach: (1) Das UQ-Dataset und dessen Sammlungspipeline, die regelbasierte Filter, LLM-Beurteiler und menschliche Überprüfung kombiniert, um die Qualität der Fragen sicherzustellen (z. B. gut definiert und anspruchsvoll); (2) UQ-Validatoren, komplexere Validierungsstrategien, die die Lücke zwischen Generatoren und Validatoren nutzen, um Bewertungssignale zu liefern und Kandidatenlösungen zur menschlichen Überprüfung vorzubereiten; und (3) die UQ-Plattform, eine offene Umgebung, in der Experten gemeinsam Fragen und Lösungen verifizieren. Das führende Modell besteht die UQ-Validierung nur bei 15 % der Fragen, und erste menschliche Überprüfungen haben bereits korrekte Antworten unter den bestandenen Lösungen identifiziert. UQ eröffnet einen Weg zur Bewertung fortschrittlicher Modelle anhand realweltrelevanter, offener Herausforderungen, bei denen ein Erfolg die Grenzen des menschlichen Wissens erweitert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UQ: Beurteilung von Sprachmodellen auf ungelösten Fragen | Forschungsarbeiten | HyperAI