HyperAI超神经

2024年7月19日， Crowdstrike遭遇了史上最严重的网络安全事件之一，一场由故障软件更新引发的全球性中断，给公司、客户和行业带来了深远的影响。这场持续78分钟的故障导致全球约850万台Windows系统崩溃，美国前500家公司因此蒙受54亿美元损失，航空业尤为严重，全球共有5078个航班被取消。事件的主要原因是Crowdstrike在部署Channel File 291更新时出现了一系列技术失误，包括IPC模板类型中的输入字段不匹配、运行时数组边界检查缺失以及Content Validator中的逻辑错误。这些失误并非罕见的边缘情况，而是基本的质量控制漏洞。 Crowdstrike总裁Mike Sentonas在公司的博客中回顾了这一年来的历程，并介绍了公司在安全韧性上的重大改进。作为事件的亲历者，他承认这次故障“深刻影响了我们的客户和合作伙伴”，并表示这是Crowdstrike历史上的一个重要章节。创始人兼CEO George Kurtz也在一篇LinkedIn帖子中反思了这一年，强调个人和公司的责任感，他表示：“我们面临的这一时刻考验了我们的技术和运营，更重要的是考验了客户的信任。” Crowdstrike推出了一项名为“Resilient by Design”的框架，旨在全面改进其安全平台。该框架包含三大支柱：基础部分、自适应部分和持续部分，分别聚焦于加强基础架构、提高适应能力和维持持续的安全评估。Sentonas指出，他们不仅增加了配置选项，而是从根本上重新设计了客户与企业安全平台的互动方式，使其更加可控和稳定。业内专家认为，此次事件为整个行业敲响了警钟，促使企业和供应商重新审视彼此之间的依赖关系。Steffen Schreier， Telesign的产品和组合高级副总裁指出，即便在例行更新中，也可能会出现导致大规模中断的问题。这提醒所有公司要更加重视系统的韧性，而不仅仅是防止外部攻击。 Merritt Baer，即将任Enkrypt AI首席安全官的顾问，提供了关键的背景信息。她认为Crowdstrike的故障虽然是一次偶然的技术失误，但反映出公司在某些基本的CI/CD实践上有明显的不足。如果当初采用逐步推广的方式并在测试环境中先行验证，这次中断可能会大大减轻甚至完全避免。同时，她高度评价了Crowdstrike在危机沟通中的透明度和高管的责任感。 Sam Curry，Zscaler的CISO表示，尽管Crowdstrike的灾难令人遗憾，但它促使整个行业对韧性的关注重新聚焦，并提升了集体的安全意识。他认为这一事件是一个共同的胜利，因为“我们共同的目标是让互联网更安全、更可靠”。展望未来，AI和其他新技术正在改变安全行业的面貌。Baer认为，未来的基础设施决策将更多地考虑到自主权和AI的结合，从而在强制更新等高权限操作中增加更多的风险缓解措施。“我们需要将推理和有效的风险缓解策略层层叠加，确保在系统出现故障时有手动干预的能力。” 经过一年的努力，Crowdstrike已经变得更加坚固和智慧。Kurtz感谢了所有在这段艰难时期支持公司的客户和合作伙伴，表示他们的信任和支持是公司能够克服危机的关键。他强调：“我们比去年更强大，我们的工作仍在继续，我们的使命永恒。” 这一事件不仅改变了Crowdstrike，也对整个安全生态系统产生了积极影响。许多组织现在都在实施分阶段的更新部署、保留手动覆盖功能，并针对自身安全工具可能失败的情况提前做好准备。此外，供应商的关系被重新评估，强调在互连互通的基础设施中每个组件都至关重要。正如Sentonas所言，“韧性不是一个里程碑，而是一项需要不断付出和进化的纪律。”78分钟的重大故障及随后一年的改进，使Crowdstrike及其客户乃至整个行业意识到，保护系统不受威胁同样意味着确保保护工具本身不会成为单点故障。在经历了最严峻的挑战后，Crowdstrike和安全生态系统对韧性和透明度的理解达到了新的高度。这次事件不仅揭示了潜在的风险，也推动了整个行业向更高等级的韧性转型。这可能是最宝贵的遗产。业内专家认为，这次事件为Crowdstrike及其客户提供了重要的教训，促使他们更加注重技术更新和部署过程中的风险管理。Crowdstrike是一家全球领先的端点安全解决方案提供商，致力于通过云服务为企业和政府机构提供高度有效的网络安全防护。

CrowdStrike 网络中断一周年：企业应如何提升安全韧性

Related Links