HyperAIHyperAI

Command Palette

Search for a command to run...

Eine systematische Studie und umfassende Bewertung von ChatGPT auf Benchmark-Datensätzen

Md Tahmid Rahman Laskar M Saiful Bari Mizanur Rahman Md Amran Hossen Bhuiyan Shafiq Joty Jimmy Xiangji Huang

Zusammenfassung

Die Entwicklung großer Sprachmodelle (Large Language Models, LLMs) wie ChatGPT hat in letzter Zeit erhebliche Aufmerksamkeit erzeugt. Dennoch bleibt ihre Bewertung anhand standardisierter akademischer Datensätze bisher untererforscht, da die Bewertung der generativen Ausgaben dieser Modelle gegenüber einer Referenzlösung (Ground Truth) besonders herausfordernd ist. In diesem Paper präsentieren wir eine umfassende Evaluation der Leistungsfähigkeit von ChatGPT anhand vielfältiger akademischer Datensätze, die Aufgaben wie Fragenbeantwortung, Textzusammenfassung, Codegenerierung, allgemeines Wissen (commonsense reasoning), mathematische Problemlösung, maschinelle Übersetzung, Bias-Detektion sowie ethische Überlegungen abdecken. Konkret bewerten wir ChatGPT an 140 Aufgaben und analysieren 255.000 generierte Antworten aus diesen Datensätzen. Dadurch stellt unsere Studie die umfassendste bisher durchgeführte Evaluation von ChatGPT in NLP-Benchmarks dar. Kurz gesagt zielt unsere Untersuchung darauf ab, die Stärken und Schwächen von ChatGPT in verschiedenen Aufgaben zu validieren und Erkenntnisse für zukünftige Forschungsarbeiten mit LLMs bereitzustellen. Zudem dokumentieren wir eine neu aufgetretene Fähigkeit, mehrere Anweisungen gleichzeitig zu befolgen, die wir vor allem bei ChatGPT und anderen an Anweisungen (instruction-tuned) trainierten Modellen beobachten konnten. Unsere umfassende Analyse zeigt, dass ChatGPT zwar in der Lage ist, eine Vielzahl unterschiedlicher Aufgaben zu bewältigen und in mehreren Benchmark-Datensätzen beeindruckende Ergebnisse erzielen kann, dennoch weit davon entfernt ist, viele anspruchsvolle Aufgaben zuverlässig lösen zu können. Durch eine gründliche Beurteilung der Leistungsfähigkeit von ChatGPT über eine breite Palette von NLP-Aufgaben legt dieses Papier die Grundlage für eine gezielte Anwendung von ChatGPT-ähnlichen LLMs in realen Anwendungsszenarien.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp