Cloudflare 揭秘 ChatGPT 服务中断背后的技术故障
Cloudflare近日解释了周二大规模服务中断的原因,此次故障导致包括ChatGPT、X(原Twitter)以及知名宕机追踪网站Downdetector在内的众多网站长时间无法访问,影响范围广泛,类似此前微软Azure和亚马逊AWS出现的系统性故障。 Cloudflare表示,其网络承载了全球约20%的互联网流量,本应通过分布式架构应对流量高峰和DDoS攻击,确保网站稳定运行。然而,此次故障并非由网络攻击、DNS问题或其新推出的生成式AI防护技术引发。 问题根源在于对数据库权限系统的一次变更,具体是其用于识别自动化请求的机器学习模型所依赖的配置文件生成逻辑出现异常。该模型依赖一个名为ClickHouse的数据库,定期生成包含“特征”数据的配置文件,以判断请求是否为机器人行为。但一次数据库查询行为的变更,导致该文件中出现了大量重复的“特征”行。 随着配置文件迅速膨胀并超出内存限制,核心代理系统崩溃,该系统负责处理所有依赖“机器人管理”模块的客户流量。结果,使用Cloudflare机器人规则进行防护的网站开始误判正常用户为恶意机器人,导致大量真实流量被错误拦截,服务中断。 而未启用该机器人评分机制的客户则未受影响,仍可正常访问。Cloudflare已确认问题并非由其AI驱动的“AI迷宫”(AI Labyrinth)等新功能引起,该功能旨在通过生成干扰内容来对抗无视“禁止爬取”指令的AI爬虫。 目前,Cloudflare已修复问题,服务逐步恢复。公司表示,此次事件凸显了系统变更对核心基础设施的潜在影响,未来将加强变更管理与监控机制。
