Künstliche Intelligenz produziert immer wieder dieselben 12 Bildklischees
Künstliche Intelligenz (KI) generiert bei der Erstellung von Bildern immer wieder dieselben 12 typischen, stereotypen Motive – ein Phänomen, das Forschende in einer neuen Studie in Patterns aufgedeckt haben. In einem Experiment, das an das Spiel „visueller Telefon“ erinnert, ließen Wissenschaftler zwei KI-Modelle über 100 Runden miteinander kommunizieren: Ein Textprompt wurde in ein Bild umgewandelt, dieses beschrieben, und die Beschreibung erneut in ein Bild umgesetzt. Obwohl die Ausgangstexte absichtlich extrem unterschiedlich und kreativ gewählt waren – von einer Reise in die Unendlichkeit bis zu einem alten Buch in einer vergessenen Sprache – drifteten die Bilder in fast allen Fällen in dieselben, allzu vertrauten Szenen ab: gotische Kathedralen, idyllische Landschaften, regnerische Nächte in Paris, luxuriöse Sitzzimmer mit Chandeliers. Diese 12 dominierenden Motive, die die Forscher als „visuelle Aufzugsmusik“ bezeichnen, entstehen, weil KI-Modelle wie Stable Diffusion XL und die Large Language and Vision Assistant auf riesigen, vorgefertigten Datensätzen trainiert wurden, die visuell ansprechend, kulturell neutral und von vornherein auf allgemeine Akzeptanz abgestimmt sind. So werden kulturell spezifische oder ungewöhnliche Darstellungen systematisch verdrängt. Selbst bei Veränderung der Zufallsfaktoren oder Wechsel der Modelle blieb der Trend bestehen. Nach 1000 Runden blieben die meisten Sequenzen in einem der 12 Motive stecken, was auf eine starke Tendenz zur Stabilisierung in den am leichtesten beschreibbaren und allgemein akzeptierten Szenen hindeutet. Studienleiter Arend Hintze von der Dalarna University warnt, dass KI-Systeme, die autonom kreativ arbeiten – also Texte generieren, bewerten und überarbeiten –, ohne menschliche Kontrolle zu einer kreativen Homogenisierung neigen. Die KI „reinigt“ sich selbst, indem sie immer wieder die einfachsten, vertrautesten Formen auswählt, die sich leicht beschreiben und reproduzieren lassen. Dieser Prozess fehlt an kritischer Distanz, wie Philosophin Caterina Moruzzi von der Edinburgh College of Art betont: „In der KI gibt es keine Gegenkulturen, die gegen die Homogenisierung ankämpfen.“ Industrieexperten wie Ahmed Elgammal von der Rutgers University sehen in der Entdeckung eine Bestätigung dafür, dass KI-Systeme, die auf Generalisierung ausgelegt sind, zwangsläufig zu vertrauten Mustern tendieren. Doch die Quantifizierung dieses Phänomens sei „sehr, sehr interessant“. Kritisch wird aber auch die Frage gestellt, ob dies wirklich ein technisches Problem ist, das gelöst werden muss – oder ob es vielmehr ein philosophisches Dilemma darstellt. Christian Guckelsberger von der Aalto University warnt davor, die KI-Homogenität nur als „Ingenieurproblem“ zu sehen. Stattdessen fordert er: „Wir sollten uns fragen, was Kreativität eigentlich bedeutet – als Ausdruck von Identität, Sinnstiftung und Selbstverwirklichung.“ Die Studie zeigt, dass KI nicht nur die Welt abbildet, sondern sie auch formt – und dabei oft die Vielfalt der menschlichen Kreativität ausblendet. Die Herausforderung liegt nicht nur in der Technik, sondern in der Frage, welche Art von Kreativität wir wirklich wollen.
