vor 8 Monaten

Zusammenfassung

Wir schlagen einen neuen Test vor, um die Multitask-Genauigkeit eines Textmodells zu messen. Der Test umfasst 57 Aufgaben, darunter elementare Mathematik, US-Geschichte, Informatik, Rechtswissenschaft und weitere Bereiche. Um in diesem Test eine hohe Genauigkeit zu erzielen, müssen Modelle umfangreiches Weltwissen und Problemlösefähigkeiten besitzen. Wir stellen fest, dass die meisten aktuellen Modelle eine Genauigkeit nahe dem Zufallsergebnis aufweisen. Das größte GPT-3-Modell verbessert sich jedoch im Durchschnitt um fast 20 Prozentpunkte gegenüber dem Zufallsergebnis. Dennoch benötigen die besten Modelle bei jeder der 57 Aufgaben erhebliche Verbesserungen, bevor sie Experten-Niveau erreichen können. Die Modelle zeigen zudem ein ungleichmäßiges Leistungsverhalten und erkennen häufig nicht, wenn sie falsch liegen. Schlimmer noch, sie haben bei manchen sozial wichtigen Themen wie Moral und Rechtswissenschaft eine Genauigkeit nahe dem Zufallsergebnis. Durch eine umfassende Bewertung des Umfangs und der Tiefe des akademischen und professionellen Verständnisses eines Modells kann unser Test verwendet werden, um Modelle bei vielen Aufgaben zu analysieren und wichtige Mängel zu identifizieren.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Dawn Song Jacob Steinhardt

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Dawn Song Jacob Steinhardt

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Massives Mehrfach-Aufgaben-Sprachverständnis messen | Paper | HyperAI

Command Palette

Massives Mehrfach-Aufgaben-Sprachverständnis messen

Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Dawn Song Jacob Steinhardt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Massives Mehrfach-Aufgaben-Sprachverständnis messen

Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Dawn Song Jacob Steinhardt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Massives Mehrfach-Aufgaben-Sprachverständnis messen

Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Dawn Song Jacob Steinhardt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters