L’IA s’embourbe dans 12 clichés visuels répétitifs, révélant une crise de créativité algorithmique
Dans une expérience inédite, des chercheurs ont soumis des modèles d’intelligence artificielle à un jeu similaire au « téléphone arabe visuel », où une image est générée à partir d’un texte, décrite ensuite par un autre modèle, puis retransformée en image, et ainsi de suite sur 100 tours. Le résultat, publié dans Patterns, révèle une tendance alarmante : malgré des prompts initiaux variés et originaux, les systèmes convergent systématiquement vers 12 motifs visuels répétitifs, souvent stéréotypés, européocentriques et esthétiquement neutres – ce que les auteurs qualifient de « musique d’ascenseur visuelle ». Ces clichés incluent des paysages bucoliques, des cathédrales gothiques, des scènes pluvieuses à Paris ou des intérieurs luxueux aux lustres dramatiques. L’étude, menée par Arend Hintze de l’université Dalarna et ses collègues, utilise deux modèles clés : Stable Diffusion XL pour générer les images, et le Large Language and Vision Assistant pour les décrire. Les prompts initiaux étaient soigneusement choisis pour être aussi différents que possible – par exemple, une scène de huit voyageurs épuisés devant un projet impossible, ou un livre ancien à huit pages dans une nature isolée. Pourtant, après seulement quelques cycles, les images dérivent rapidement vers des représentations génériques. Le prompt sur un Premier ministre confronté à une paix fragile se transforme en une pièce richement décorée avec lustre et velours, loin de toute référence politique ou dramatique. Cette convergence persiste même lorsque les paramètres aléatoires sont ajustés ou que d’autres modèles sont utilisés. L’analyse des centaines de trajectoires montre que les systèmes s’arrêtent souvent sur l’un des 12 motifs dominants, et que, dans des tests prolongés à 1000 itérations, la majorité des séquences s’y figent définitivement. Une seule exception notable est observée : une transition soudaine d’une maison enneigée à des vaches dans un champ, puis à un village champêtre, mais ce type de saut reste rare et imprévisible. Les chercheurs attribuent ce phénomène à la nature des données d’entraînement des modèles visuels, souvent sélectionnées pour être esthétiquement plaisantes, universellement acceptables et dépourvues de contenu controversé. Cela favorise les images familières, sans risque, au détriment de la diversité culturelle et créative. Ahmed Elgammal, de l’université Rutgers, souligne que la généralisation est une caractéristique inhérente aux IA, mais que la quantification de ce biais est un progrès significatif. Jeba Rezwana, spécialiste de la co-création humain-IA, insiste sur le risque d’amplification des biais culturels lorsque les humains sont exclus du processus créatif. Caterina Moruzzi, philosophe de l’art à l’Édimbourg College of Art, explique que l’IA est récompensée pour la stabilité et la facilité de description, ce qui pousse à la répétition. Christian Guckelsberger, de l’université Aalto, va plus loin : ce n’est pas seulement un problème technique, mais une question existentielle. Il invite à repenser le rôle de la créativité humaine comme acte de sens et d’auto-réalisation. « Le vrai défi n’est pas de corriger l’IA, mais de préserver ce qui rend la créativité humaine précieuse », affirme-t-il. Cette étude met en lumière non seulement une limitation technique, mais aussi une réflexion profonde sur la valeur de la diversité culturelle et de l’originalité dans un monde dominé par des systèmes autonomes.
