HyperAIHyperAI

Command Palette

Search for a command to run...

Massives Mehrfach-Aufgaben-Sprachverständnis messen

Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Dawn Song Jacob Steinhardt

Zusammenfassung

Wir schlagen einen neuen Test vor, um die Multitask-Genauigkeit eines Textmodells zu messen. Der Test umfasst 57 Aufgaben, darunter elementare Mathematik, US-Geschichte, Informatik, Rechtswissenschaft und weitere Bereiche. Um in diesem Test eine hohe Genauigkeit zu erzielen, müssen Modelle umfangreiches Weltwissen und Problemlösefähigkeiten besitzen. Wir stellen fest, dass die meisten aktuellen Modelle eine Genauigkeit nahe dem Zufallsergebnis aufweisen. Das größte GPT-3-Modell verbessert sich jedoch im Durchschnitt um fast 20 Prozentpunkte gegenüber dem Zufallsergebnis. Dennoch benötigen die besten Modelle bei jeder der 57 Aufgaben erhebliche Verbesserungen, bevor sie Experten-Niveau erreichen können. Die Modelle zeigen zudem ein ungleichmäßiges Leistungsverhalten und erkennen häufig nicht, wenn sie falsch liegen. Schlimmer noch, sie haben bei manchen sozial wichtigen Themen wie Moral und Rechtswissenschaft eine Genauigkeit nahe dem Zufallsergebnis. Durch eine umfassende Bewertung des Umfangs und der Tiefe des akademischen und professionellen Verständnisses eines Modells kann unser Test verwendet werden, um Modelle bei vielen Aufgaben zu analysieren und wichtige Mängel zu identifizieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp