Eine systematische Studie und umfassende Bewertung von ChatGPT auf Benchmark-Datensätzen

Die Entwicklung großer Sprachmodelle (Large Language Models, LLMs) wie ChatGPT hat in letzter Zeit erhebliche Aufmerksamkeit erzeugt. Dennoch bleibt ihre Bewertung anhand standardisierter akademischer Datensätze bisher untererforscht, da die Bewertung der generativen Ausgaben dieser Modelle gegenüber einer Referenzlösung (Ground Truth) besonders herausfordernd ist. In diesem Paper präsentieren wir eine umfassende Evaluation der Leistungsfähigkeit von ChatGPT anhand vielfältiger akademischer Datensätze, die Aufgaben wie Fragenbeantwortung, Textzusammenfassung, Codegenerierung, allgemeines Wissen (commonsense reasoning), mathematische Problemlösung, maschinelle Übersetzung, Bias-Detektion sowie ethische Überlegungen abdecken. Konkret bewerten wir ChatGPT an 140 Aufgaben und analysieren 255.000 generierte Antworten aus diesen Datensätzen. Dadurch stellt unsere Studie die umfassendste bisher durchgeführte Evaluation von ChatGPT in NLP-Benchmarks dar. Kurz gesagt zielt unsere Untersuchung darauf ab, die Stärken und Schwächen von ChatGPT in verschiedenen Aufgaben zu validieren und Erkenntnisse für zukünftige Forschungsarbeiten mit LLMs bereitzustellen. Zudem dokumentieren wir eine neu aufgetretene Fähigkeit, mehrere Anweisungen gleichzeitig zu befolgen, die wir vor allem bei ChatGPT und anderen an Anweisungen (instruction-tuned) trainierten Modellen beobachten konnten. Unsere umfassende Analyse zeigt, dass ChatGPT zwar in der Lage ist, eine Vielzahl unterschiedlicher Aufgaben zu bewältigen und in mehreren Benchmark-Datensätzen beeindruckende Ergebnisse erzielen kann, dennoch weit davon entfernt ist, viele anspruchsvolle Aufgaben zuverlässig lösen zu können. Durch eine gründliche Beurteilung der Leistungsfähigkeit von ChatGPT über eine breite Palette von NLP-Aufgaben legt dieses Papier die Grundlage für eine gezielte Anwendung von ChatGPT-ähnlichen LLMs in realen Anwendungsszenarien.