HyperAIHyperAI

Command Palette

Search for a command to run...

KI bewertet Uni-Aufsätze ungenau

Ein von der Universität Cambridge geleitetes Forschungsteam hat herausgefunden, dass aktuelle Generative-KI-Modelle derzeit nicht geeignet sind, um Hochschulpräsentationen allein zu bewerten. In einer umfassenden Studie, die Ende 2026 durchgeführt wurde, testeten Psychologen und KI-Experten drei führende KI-Systeme, darunter die neuesten Versionen von Claude und ChatGPT, an über 750 Bachelor-Aufsätzen aus drei britischen Universitäten. Die Ergebnisse zeigen, dass die KI die von Menschen vergebenen Notenklassen nur in etwa der Hälfte der Fälle korrekt übereinstimmend bewerten konnte. Ein zentrales Problem der automatisierten Bewertung besteht darin, dass die KI-Systeme oft den Stil vor dem Inhalt bevorzugen. Im Gegensatz zu menschlichen Prüfern reagieren die Modelle überempfindlich auf sprachliche Merkmale wie Aufsatzlänge, Wortschatzvielfalt und Satzkomplexität, unabhängig von der tatsächlichen akademischen Qualität. Dies führt dazu, dass Arbeiten mit sehr guten Noten von Menschen systematisch unterbewertet werden, während schwache Arbeiten überbewertet wurden. Die KI weist eine sogenannte „Tendenz zur Mitte" auf, bei der sie für jede Einreichung mittlere Noten vergibt. Dadurch scheitert sie besonders häufig genau dort, wo es am wichtigsten ist: bei der Unterscheidung zwischen Erstklassarbeiten und guten zweiten Abschlüssen sowie bei der Erkennung von Durchfällen. Die Studie verwendete 761 Psychologie-Aufsätze aus der Zeit zwischen 2022 und 2025 von Studierenden der Universitäten Cambridge, Manchester Metropolitan und Nottingham. Die Genauigkeit der KI variierte je nach Institution erheblich. Während sie an der Universität Cambridge in 63 Prozent der Fälle die richtige Notenklasse ermittelte, lag sie an der Manchester Metropolitan University nur bei 35 Prozent. Forscher führen dies auf die Streuung der Noten zurück; an der Cambridge, wo Aufsätze oft in kontrollierten Examenssituationen entstanden, war die Spanne der Bewertungen enger, während die coursework-basierten Arbeiten an der Manchester-Universität eine breitere Streuung aufwiesen. Trotz dieser gravierenden Einschränkungen sehen die Forscher ein Potenzial für den Einsatz von KI als unterstützendes Werkzeug. Sie schlägt vor, KI zur Fehlererkennung, zur Überprüfung der Konsistenz oder zur Sortierung von Rückmeldungen zu nutzen, sozusagen als ein „zweites Paar Augen". Große Abweichungen zwischen den KI-Ergebnissen und den menschlichen Noten könnten als Warnsignal fürassignments dienen, die eine zusätzliche menschliche Überprüfung erfordern. Zudem wurde festgestellt, dass KI-Feedback oft dreimal so lang ist wie menschliches Feedback. Wenn die Länge angeglichen wurde, konnten Probanden kaum noch zwischen menschlichem und KI-generiertem Feedback unterscheiden. Die Studienleiterin, Dr. Deborah Talmi, warnt jedoch davor, sich zu stark auf KI zu verlassen. Eine alleinige Automatisierung würde die Bewertungen homogenisieren, brillante Leistungen unterschätzen und den akademischen Diskurs schwächen. Für viele Studierende und Lehrende ist die menschliche Bewertung ein fundamentaler Teil des sozialen Vertrags zwischen Akademie und Studierenden. Das Vertrauen in die Fairness der Ausbildung und die Motivation der Lernenden könnten gefährdet sein, wenn die KI die endgültige Note bestimmt. Zusammenfassend kommt der Bericht „KI in der Universitätsbewertung" zu dem Schluss, dass menschliche Experten weiterhin die finale Beurteilung vornehmen müssen, um Qualität und Gerechtigkeit im Hochschulwesen zu gewährleisten.

Verwandte Links

KI bewertet Uni-Aufsätze ungenau | Aktuelle Beiträge | HyperAI