Une faille dans la base de données perturbe Cloudflare, causant une panne mondiale affectant ChatGPT et de nombreux sites
Cloudflare a expliqué mardi la panne qui a temporairement rendu inaccessible ChatGPT, ainsi que de nombreux autres sites internet. L’entreprise, qui assure que près de 20 % du web passe par son réseau, est censée répartir la charge pour maintenir les sites opérationnels face aux pics de trafic ou aux attaques DDoS. Pourtant, cette fois-ci, le système a connu un dysfonctionnement majeur, coupant pendant plusieurs heures des services essentiels comme X (anciennement Twitter), ChatGPT, ou encore Downdetector, un outil de suivi des pannes, rappelant les récents incidents liés à des problèmes chez Microsoft Azure ou Amazon Web Services. Les contrôles anti-bot de Cloudflare sont conçus pour lutter contre les robots qui extrayent des données pour entraîner des modèles d’intelligence artificielle générative. L’entreprise a récemment lancé une solution innovante baptisée « AI Labyrinth », qui utilise l’intelligence artificielle pour générer du contenu perturbant, ralentissant ainsi les crawlers malveillants qui ignorent les directives « no crawl ». Toutefois, Cloudflare précise que la cause de la panne n’était ni liée à son système d’IA, ni à ses serveurs DNS, ni à une attaque cybernétique comme une attaque DDoS à grande échelle, comme elle l’avait initialement cru. Le problème vient d’un changement dans le système de permissions d’une base de données. Selon Prince, le modèle d’apprentissage automatique derrière le service de gestion des bots, chargé d’évaluer les requêtes automatiques, repose sur un fichier de configuration mis à jour fréquemment. Ce fichier permet d’identifier les comportements automatisés. Or, une modification du comportement des requêtes dans la base de données ClickHouse, utilisée pour générer ce fichier, a entraîné la création d’un grand nombre de lignes redondantes, appelées « features ». Ce phénomène a provoqué une croissance exponentielle du fichier de configuration, dépassant rapidement les limites de mémoire prévues. En conséquence, le système central de traitement du trafic, dépendant du module anti-bot, a été complètement saturé et est tombé en panne. Ce dysfonctionnement a eu des répercussions immédiates : les entreprises utilisant les règles de Cloudflare pour bloquer certains bots ont commencé à rejeter des requêtes légitimes, générant des faux positifs. En revanche, les clients qui ne s’appuyaient pas sur les scores générés par l’IA anti-bot ont pu rester en ligne. Cloudflare a confirmé que la panne a été résolue après plusieurs heures, mais elle souligne l’importance de la vigilance lors de modifications critiques dans les systèmes de base de données, même lorsqu’elles semblent mineures. L’incident rappelle les fragilités inhérentes aux infrastructures numériques centralisées, où une faille dans un composant apparemment secondaire peut avoir des effets dévastateurs à grande échelle.
