CrowdStrike 网络中断一周年:企业应如何提升安全韧性
2024年7月19日, Crowdstrike遭遇了史上最严重的网络安全事件之一,一场由故障软件更新引发的全球性中断,给公司、客户和行业带来了深远的影响。这场持续78分钟的故障导致全球约850万台Windows系统崩溃,美国前500家公司因此蒙受54亿美元损失,航空业尤为严重,全球共有5078个航班被取消。 事件的主要原因是Crowdstrike在部署Channel File 291更新时出现了一系列技术失误,包括IPC模板类型中的输入字段不匹配、运行时数组边界检查缺失以及Content Validator中的逻辑错误。这些失误并非罕见的边缘情况,而是基本的质量控制漏洞。 Crowdstrike总裁Mike Sentonas在公司的博客中回顾了这一年来的历程,并介绍了公司在安全韧性上的重大改进。作为事件的亲历者,他承认这次故障“深刻影响了我们的客户和合作伙伴”,并表示这是Crowdstrike历史上的一个重要章节。创始人兼CEO George Kurtz也在一篇LinkedIn帖子中反思了这一年,强调个人和公司的责任感,他表示:“我们面临的这一时刻考验了我们的技术和运营,更重要的是考验了客户的信任。” Crowdstrike推出了一项名为“Resilient by Design”的框架,旨在全面改进其安全平台。该框架包含三大支柱:基础部分、自适应部分和持续部分,分别聚焦于加强基础架构、提高适应能力和维持持续的安全评估。Sentonas指出,他们不仅增加了配置选项,而是从根本上重新设计了客户与企业安全平台的互动方式,使其更加可控和稳定。 业内专家认为,此次事件为整个行业敲响了警钟,促使企业和供应商重新审视彼此之间的依赖关系。Steffen Schreier, Telesign的产品和组合高级副总裁指出,即便在例行更新中,也可能会出现导致大规模中断的问题。这提醒所有公司要更加重视系统的韧性,而不仅仅是防止外部攻击。 Merritt Baer,即将任Enkrypt AI首席安全官的顾问,提供了关键的背景信息。她认为Crowdstrike的故障虽然是一次偶然的技术失误,但反映出公司在某些基本的CI/CD实践上有明显的不足。如果当初采用逐步推广的方式并在测试环境中先行验证,这次中断可能会大大减轻甚至完全避免。同时,她高度评价了Crowdstrike在危机沟通中的透明度和高管的责任感。 Sam Curry,Zscaler的CISO表示,尽管Crowdstrike的灾难令人遗憾,但它促使整个行业对韧性的关注重新聚焦,并提升了集体的安全意识。他认为这一事件是一个共同的胜利,因为“我们共同的目标是让互联网更安全、更可靠”。 展望未来,AI和其他新技术正在改变安全行业的面貌。Baer认为,未来的基础设施决策将更多地考虑到自主权和AI的结合,从而在强制更新等高权限操作中增加更多的风险缓解措施。“我们需要将推理和有效的风险缓解策略层层叠加,确保在系统出现故障时有手动干预的能力。” 经过一年的努力,Crowdstrike已经变得更加坚固和智慧。Kurtz感谢了所有在这段艰难时期支持公司的客户和合作伙伴,表示他们的信任和支持是公司能够克服危机的关键。他强调:“我们比去年更强大,我们的工作仍在继续,我们的使命永恒。” 这一事件不仅改变了Crowdstrike,也对整个安全生态系统产生了积极影响。许多组织现在都在实施分阶段的更新部署、保留手动覆盖功能,并针对自身安全工具可能失败的情况提前做好准备。此外,供应商的关系被重新评估,强调在互连互通的基础设施中每个组件都至关重要。 正如Sentonas所言,“韧性不是一个里程碑,而是一项需要不断付出和进化的纪律。”78分钟的重大故障及随后一年的改进,使Crowdstrike及其客户乃至整个行业意识到,保护系统不受威胁同样意味着确保保护工具本身不会成为单点故障。 在经历了最严峻的挑战后,Crowdstrike和安全生态系统对韧性和透明度的理解达到了新的高度。这次事件不仅揭示了潜在的风险,也推动了整个行业向更高等级的韧性转型。这可能是最宝贵的遗产。 业内专家认为,这次事件为Crowdstrike及其客户提供了重要的教训,促使他们更加注重技术更新和部署过程中的风险管理。Crowdstrike是一家全球领先的端点安全解决方案提供商,致力于通过云服务为企业和政府机构提供高度有效的网络安全防护。