HyperAIHyperAI

Command Palette

Search for a command to run...

Studie: KI-Modelle lösen und erstellen EQ-Tests genauso gut wie Menschen.

Große Sprachmodelle erweisen sich bei der Erstellung und Lösung von Tests zur Emotionale Intelligenz (EI) als äußerst erfolgreich, zeigt eine Studie Bild, das die Art von Szenarien illustriert, die in Tests zur Emotionale Intelligenz verwendet werden, zusammen mit kurzen Erläuterungen, die die emotionale Begründung hinter jeder Antwort bewerten. Quelle: Katja Schlegel. Im Laufe ihres Lebens können Menschen sinnvolle soziale Bindungen zu anderen aufbauen, indem sie deren Gefühle nachvollziehen und ihre Erfahrungen teilen. Die Fähigkeit, die eigenen und fremden Emotionen zu verwalten, wahrzunehmen und zu verstehen, wird als emotionale Intelligenz (EI) bezeichnet. In den letzten Jahrzehnten haben Psychologen verschiedene Tests entwickelt, um die emotionale Intelligenz zu messen. Diese Tests beurteilen in der Regel die Fähigkeiten von Menschen, emotionale Probleme zu lösen, die sie im Alltag begegnen könnten. Die Tests finden Anwendung in verschiedenen psychologischen Bewertungen in Forschung, klinischen, beruflichen und Bildungssettings. Wissenschaftlerinnen und Wissenschaftler der Universität Bern und der Universität Genf haben kürzlich eine Studie durchgeführt, in der sie das Leistungsspektrum großer Sprachmodelle (LLMs) bei der Lösung und Erstellung von EI-Tests untersuchten. Die Studie, veröffentlicht in Communications Psychology, ergab, dass LLMs diese Tests fast genauso gut lösen können wie Menschen und als vielversprechende Werkzeuge zur Entwicklung zukünftiger psychometrischer EI-Tests angesehen werden können. "Ich forsche seit vielen Jahren zur Emotionalen Intelligenz und habe mehrere leistungsorientierte Tests entwickelt, um die Fähigkeit von Menschen, Emotionen bei sich selbst und anderen korrekt zu erkennen, zu verstehen und zu regulieren, zu messen," sagte Katja Schlegel, die erste Autorin der Studie, gegenüber Medical Xpress. "Als ChatGPT und andere große Sprachmodelle allgemein verfügbar wurden und viele Kolleginnen und Kollegen sowie ich selbst sie in unserer Arbeit ausprobierten, erschien es natürlich, die Frage zu stellen: Wie würden diese Modelle in den EI-Tests abschneiden, die wir für Menschen entwickelt haben? Gleichzeitig entfaltet sich ein lebhafter wissenschaftlicher Diskurs darüber, ob KI tatsächlich Empathie besitzen kann – die Fähigkeit, die Gefühle anderer zu verstehen, zu teilen und darauf zu reagieren." EI und Empathie sind eng miteinander verbundene Konzepte, da beide mit der Fähigkeit zusammenhängen, die Gefühle anderer zu verstehen. Schlegel und ihre Kollegen Nils R. Sommer und Marcello Mortillaro untersuchten daher, inwiefern LLMs in der Lage sind, emotionale Probleme in EI-Tests zu lösen und zu erstellen. Dies könnte auch Hinweise darauf geben, welches Maß an Empathie diese Modelle besitzen. Zunächst baten die Forscher sechs häufig verwendete LLMs, fünf für Menschen entwickelte EI-Tests zu bearbeiten, die Teil psychologischer Evaluierungen sind. Zu den getesteten Modellen gehörten ChatGPT-4, CHatGPT-o1, Gemini 1.5 Flash, Copilot 365, Claude 3.5, Haiku und DeepSeek V3. "Die EI-Tests, die wir verwendeten, präsentieren kurze emotionale Szenarien und fordern die Teilnehmer auf, die emotional intelligenteste Reaktion zu identifizieren, beispielsweise zu erkennen, was jemand wahrscheinlich fühlt oder wie man am besten eine emotionale Situation managen kann," erklärte Schlegel. "Wir verglichen anschließend die Ergebnisse der Modelle mit den durchschnittlichen menschlichen Werten aus früheren Studien." Im zweiten Teil ihres Experiments bat die Forschungsgruppe ChatGPT-4, eine der neuesten Versionen von ChatGPT, die der Öffentlichkeit zur Verfügung steht, vollständig neue Versionen der in der Studie verwendeten EI-Tests zu erstellen. Diese neuen Tests sollten verschiedene emotionale Szenarien, Fragen und Antwortoptionen enthalten sowie die richtigen Antworten spezifizieren. "Wir gaben sowohl die originalen als auch die von der KI generierten Tests über 460 menschlichen Teilnehmern, um zu sehen, wie sich beide Versionen hinsichtlich Schwierigkeit, Klarheit, Realismus und Korrelation mit anderen EI-Tests sowie einem Maßstab für traditionelle kognitive Intelligenz verhielten," fügte Schlegel hinzu. "Dies ermöglichte es uns, nicht nur zu prüfen, ob LLMs EI-Tests lösen können, sondern auch, ob sie tief genug über Emotionen nachdenken, um valide Tests selbst zu konstruieren, was wir für einen wichtigen Schritt zur Anwendung solcher Fähigkeiten in offeneren, realen Kontexten halten." Bemerkenswerterweise zeigten Schlegel und ihre Kollegen, dass die getesteten LLMs in allen EI-Tests sehr gut abschnitten und eine durchschnittliche Genauigkeit von 81 % erreichten, was deutlich höher ist als die durchschnittliche Genauigkeit menschlicher Teilnehmer (56 %). Ihre Ergebnisse legen nahe, dass bestehende LLMs bereits eine ausgeprägte Fähigkeit besitzen, zu verstehen, was Menschen in verschiedenen Kontexten fühlen könnten, zumindest wenn es sich um strukturierte Situationen wie die in EI-Tests handelt. "Beindruckenderweise war ChatGPT-4 in der Lage, vollständig neue Testitems zu generieren, die von menschlichen Teilnehmern als ebenso klar und realistisch bewertet wurden wie die Originalitems und vergleichbare psychometrische Qualität aufwiesen," sagte Schlegel. "In unserer Sicht spiegelt die Fähigkeit, sowohl Tests zu lösen als auch zu konstruieren, ein hohes konzeptuelles Verständnis von Emotionen wider." Die Ergebnisse dieser Studie könnten Psychologen dazu ermutigen, LLMs bei der Entwicklung von EI-Tests und Trainingsmaterialien einzusetzen, die derzeit manuell erstellt und Zeit in Anspruch nehmen. Zudem könnten die Modelle inspirieren, personalisierte Rollenspielszenarien und anderes Material für den Einsatz bei Sozialarbeitern zu generieren. "Unsere Ergebnisse sind auch für die Entwicklung sozialer Agenten relevant, wie Psychogesprächschatbots, pädagogische Tutoren und Kundendienst-Avatare, die oft in emotional sensiblem Kontext operieren, wo das Verstehen menschlicher Emotionen essentiell ist," schloss Schlegel. "Unsere Ergebnisse deuten darauf hin, dass LLMs zumindest die emotionale Denkfähigkeit nachahmen können, die für solche Interaktionen erforderlich ist. In unseren zukünftigen Studien planen wir, wie gut LLMs in weniger strukturierten, realen emotionalen Gesprächen abschneiden, die über das kontrollierte Format von Testitems hinausgehen. Wir wollen auch untersuchen, wie kultursensibel ihre emotionale Denkfähigkeit ist, da die aktuellen Modelle hauptsächlich auf westzentrierten Daten trainiert wurden." Diese Studie liefert wichtige Hinweise darauf, dass LLMs bereits eine erstaunliche Fähigkeit zur Emotionsanalyse aufweisen. Experten sehen in den Ergebnissen ein Potenzial, sowohl die Methoden zur Messung der emotionale Intelligenz zu verbessern als auch die Effektivität von KI-gestützten Anwendungen in emotional sensiblen Bereichen zu steigern. Die Universität Bern und die Universität Genf sind führende Einrichtungen in der Forschung zu Emotionen und KI, und ihre Arbeiten könnten zukünftige Entwicklungen in diesen Bereichen maßgeblich beeinflussen.

Verwandte Links

Studie: KI-Modelle lösen und erstellen EQ-Tests genauso gut wie Menschen. | Aktuelle Beiträge | HyperAI