Le CEO de Surge AI dénonce l’ère de l’« IA-slop » : les entreprises préfèrent les réponses flashy aux solutions réelles
Le fondateur de Surge AI, Edwin Chen, s’exprime avec inquiétude sur la direction actuelle du développement de l’intelligence artificielle. Dans un épisode publié dimanche du podcast Lenny’s, il dénonce une tendance préoccupante : les entreprises s’efforcent davantage d’optimiser des réponses spectaculaires mais superficielles — qu’il qualifie d’« AI slop » — plutôt que de s’attaquer à des problèmes concrets comme la guérison du cancer, la réduction de la pauvreté ou la compréhension des grandes questions universelles. « Je m’inquiète du fait que, au lieu de construire une IA qui nous fasse véritablement progresser en tant qu’espèce, nous nous concentrons sur des modèles qui cherchent à capter l’attention, à susciter un effet immédiat, plutôt que la vérité », affirme Edwin Chen, qui a fondé Surge AI en 2020 après avoir travaillé chez Twitter, Google et Meta. La société, spécialisée dans la formation d’IA, exploite une plateforme de micro-tâches appelée Data Annotation, qui rémunère un million de travailleurs indépendants pour étiqueter des données utilisées dans l’entraînement des modèles. Selon lui, cette dérive est alimentée par des classements industrielles biaisés, comme LMArena, une plateforme populaire où les utilisateurs comparent des réponses d’IA en votant sur la base de premières impressions. « Les gens ne lisent pas attentivement, ils survolent les réponses en deux secondes et choisissent celle qui semble la plus flashy », explique-t-il. « C’est comme optimiser un modèle pour plaire à ceux qui achètent les magazines à scandales au supermarché. » Malgré cette critique, Chen reconnaît que les laboratoires d’IA ne peuvent ignorer ces classements, car ils sont souvent interrogés à leur sujet lors de réunions commerciales. Cette pression incite les entreprises à produire des résultats esthétiquement attrayants, même si leur utilité réelle reste limitée. D’autres experts partagent cette préoccupation. En mars, Dean Valentine, cofondateur de ZeroPath, une entreprise spécialisée dans la sécurité de l’IA, a publié un billet affirmant que « les progrès récents des modèles d’IA ressemblent surtout à du vent ». Après avoir testé plusieurs modèles annonçant des améliorations significatives depuis la sortie d’Anthropic 3.5 Sonnet en juin 2024, son équipe n’a observé aucune avancée notable dans ses propres tests internes ni dans la détection de bugs par les développeurs. « Ils peuvent être plus agréables à utiliser, mais ils ne reflètent pas une véritable utilité économique ni une généralisation réelle », conclut-il. Une étude publiée en février par le Centre commun de recherche de la Commission européenne souligne également les failles fondamentales des méthodes actuelles d’évaluation. Elle affirme que les benchmarks sont « profondément influencés par des dynamiques culturelles, commerciales et compétitives » qui valorisent souvent les performances « à la pointe » au détriment des enjeux sociétaux plus larges. En avril, Meta a même été accusée de « tricher » lors de la publication de deux nouveaux modèles Llama. LMArena a fait remarquer que la version soumise avait été spécifiquement ajustée pour mieux performer dans son format de test, ce qui contredit les attentes en matière d’équité. « L’interprétation de Meta de nos règles ne correspond pas à ce que nous attendons des fournisseurs de modèles », a indiqué la plateforme sur X. En somme, l’avenir de l’IA ne dépend pas seulement de sa puissance technique, mais de la capacité des acteurs du secteur à rester fidèles à des objectifs plus profonds que la simple recherche de visibilité.
