HyperAIHyperAI
vor 2 Monaten

Massives Mehrfach-Aufgaben-Sprachverständnis messen

Dan Hendrycks; Collin Burns; Steven Basart; Andy Zou; Mantas Mazeika; Dawn Song; Jacob Steinhardt
Massives Mehrfach-Aufgaben-Sprachverständnis messen
Abstract

Wir schlagen einen neuen Test vor, um die Multitask-Genauigkeit eines Textmodells zu messen. Der Test umfasst 57 Aufgaben, darunter elementare Mathematik, US-Geschichte, Informatik, Rechtswissenschaft und weitere Bereiche. Um in diesem Test eine hohe Genauigkeit zu erzielen, müssen Modelle umfangreiches Weltwissen und Problemlösefähigkeiten besitzen. Wir stellen fest, dass die meisten aktuellen Modelle eine Genauigkeit nahe dem Zufallsergebnis aufweisen. Das größte GPT-3-Modell verbessert sich jedoch im Durchschnitt um fast 20 Prozentpunkte gegenüber dem Zufallsergebnis. Dennoch benötigen die besten Modelle bei jeder der 57 Aufgaben erhebliche Verbesserungen, bevor sie Experten-Niveau erreichen können. Die Modelle zeigen zudem ein ungleichmäßiges Leistungsverhalten und erkennen häufig nicht, wenn sie falsch liegen. Schlimmer noch, sie haben bei manchen sozial wichtigen Themen wie Moral und Rechtswissenschaft eine Genauigkeit nahe dem Zufallsergebnis. Durch eine umfassende Bewertung des Umfangs und der Tiefe des akademischen und professionellen Verständnisses eines Modells kann unser Test verwendet werden, um Modelle bei vielen Aufgaben zu analysieren und wichtige Mängel zu identifizieren.

Massives Mehrfach-Aufgaben-Sprachverständnis messen | Neueste Forschungsarbeiten | HyperAI