Perplexity piégée : son IA s’est fait prendre à scraper des sites protégés en se faisant passer pour Google
Perplexity, une startup concurrente de ChatGPT et de Google Gemini, s’est retrouvée au cœur d’un scandale après avoir été piégée par Cloudflare pour avoir contourné des mesures de protection contre le scraping illégal. L’incident révèle les tensions croissantes entre les entreprises d’intelligence artificielle et les acteurs du web soucieux de préserver la valeur du contenu numérique. Cloudflare, leader mondial de l’infrastructure internet qui gère environ 20 % du trafic web, a mis en place un piège numérique pour tester la conformité des bots d’IA. Il a créé des sites web fictifs, non publiés, sans lien public ni indexation, et a configuré leurs fichiers robots.txt pour interdire strictement tout robot, y compris ceux de Perplexity, nommés PerplexityBot et Perplexity-User. Malgré ces interdictions claires, Perplexity a répondu à des requêtes sur ces sites avec des informations détaillées, prouvant qu’elle avait accédé au contenu illégalement. Selon Cloudflare, cette activité s’est poursuivie en utilisant des méthodes de contournement sophistiquées. Après avoir été bloquée avec ses bots officiels, Perplexity a recouru à des crawlers non déclarés, se faisant passer pour des navigateurs web légitimes — notamment un simulateur de Chrome sur Mac — en envoyant des requêtes depuis des adresses IP anonymes ou rotatives et des ASNs (Autonomous System Numbers), des identifiants uniques qui permettent de diriger le trafic internet à travers les réseaux. Cette stratégie de camouflage, qualifiée par Matthew Prince, PDG de Cloudflare, de « comportement de pirate nord-coréen », viole les normes fondamentales du web ouvert. En revanche, Cloudflare a souligné que les bots d’OpenAI, utilisés pour entraîner ChatGPT et GPT-5, respectent scrupuleusement les fichiers robots.txt : dès qu’un blocage est détecté, ils s’arrêtent immédiatement, sans tenter de contourner les protections. En réaction, Cloudflare a retiré la vérification de Perplexity comme bot fiable et déployé de nouvelles mesures de détection pour bloquer ses activités à grande échelle. Cette action marque une étape importante dans la lutte contre le scraping non autorisé, où les entreprises d’IA doivent désormais répondre à des attentes de transparence et de respect des règles. Pour Cloudflare, le web ne peut survivre si les grandes entreprises d’IA s’approprient les contenus sans consentement ni rémunération. L’incident soulève des questions cruciales sur l’éthique du développement de l’IA : la qualité des modèles dépend de données, mais leur collecte à grande échelle sans autorisation menace la viabilité économique des créateurs de contenu. Des experts du secteur estiment que ce type de comportement pourrait entraîner des sanctions réglementaires futures, notamment dans le cadre de la régulation européenne sur l’IA. Perplexity n’a pas répondu aux sollicitations pour commentaires. Ce cas illustre que, dans la course à l’IA, le respect des règles du web n’est plus une option, mais une condition de survie.