LLMs: Durchschnittlich
Studie StoryScope offenbart strukturelle Grenzen von Large Language Models bei der Textgenerierung Forschende der University of Maryland und Google DeepMind haben mit dem Projekt StoryScope empirisch belegt, dass KI-Sprachmodelle narrative Inhalte systematisch auf statistische Mittelwerte trimmen. Anstelle innovativer oder risikoreicher Erzählentscheidungen bevorzugen die Modelle den zentralen Wahrscheinlichkeitskorridor ihrer Trainingsdaten. Das Forschungsteam wertete 10.272 menschliche Kurzgeschichten aus, extrahierte daraus automatisch Prompts und generierte mit fünf aktuellen Modellen (Claude, DeepSeek, Gemini, GPT, Kimi) jeweils eine KI-Version. Insgesamt entstanden 61.608 Texte mit einer durchschnittlichen Länge von 5.000 Wörtern. Im Gegensatz zu klassischen KI-Erkennungsmethoden, die sich auf austauschbare Stilmerkmale wie Phrasierungen oder Zeichensetzung verlassen, entwickelte das Team einen Satz von 304 narrativen Analyseparametern. Diese bewerten Handlungsführung, Zeitstruktur, Figurenagency und Enthüllungslogik auf einer konzeptionellen Ebene. Die Ergebnisse zeigen ein deutliches Konvergenzverhalten der KI-Systeme. Alle fünf Modelle aggregieren in einem engen narrativen Raum und weichen kaum voneinander ab. Im Kontrast dazu verteilen sich menschliche Texte deutlich breiter. In 57,8 Prozent der Vergleichsfälle wurde die menschliche Variante als statistisch seltenste Narrative identifiziert. KI-Texte verzichten systematisch auf Ambiguität, Zeitverschiebungen, Handlungsnebenstränge und offene Schlusspunkte. Sie folgen meist einer einzigen linearen Fadenführung, die zwingend aufgelöst wird. Zudem erklären KI-Narratoren die moralische Botschaft in 77 Prozent der Fälle explizit, während Menschen dies nur zu 52 Prozent tun. Emotionen werden überwiegend körperlich inszeniert (81 Prozent), statt direkt zu benennen oder den Leser durch implizite Hinweise zu beteiligen. Menschliche Texte nutzen stattdessen häufiger direkte Adressen, kulturelle Referenzen und brechen narrative Konventionen gezielt auf. Die Studie unterstreicht, dass die Abhängigkeit von oberflächlichen Stilmerkmalen für die KI-Erkennung zunehmend wirkungslos ist. KI-Systeme optimieren ihre Schreibgewohnheiten kontinuierlich, wodurch pattern-basierte Detektoren schnell obsolet werden. Stattdessen müssen Analyseframeworks narrative Logik, Strukturkomplexität und Entscheidungsresonanz priorisieren. Die Erkenntnisse bieten eine evidenzbasierte Grundlage für die Weiterentwicklung von Textvalidierungstools, warnen vor der inhärenten Homogenisierung von KI-Content und verdeutlichen den unverzichtbaren Mehrwert menschlicher narrativer Diversität für zukünftige Medien- und Forschungsprozesse.
