アップ타임, 2025년 데이터센터 장애 분석 보고서 발표
업타임 인스티튜트, 2025년도 연간 장애 분석 보고서 발표 뉴욕--(비즈니스 와이어) -- 글로벌 디지털 인프라 기관인 업타임 인스티튜트는 '2025년도 연간 장애 분석 보고서'를 제7회로 발행했다고 발표했습니다. 이 보고서는 데이터 센터의 장애 예방이 여전히 데이터 센터 소유자와 운영자들에게 가장 중요한 전략적 우선 사항임을 강조합니다. 비록 인프라 장비의 성능은 향상되었지만, 현대 아키텍처의 복잡성과 외부 위협의 진화로 인해 새로운 위험이 발생하고 있어, 운영자들은 이러한 위험에 적극적으로 대응해야 합니다. 업타임 인텔리전스 리서치의 조사 결과에 따르면, 전체적인 장애 발생 빈도와 보고된 중증도는 4년 연속 감소 추세를 보이고 있습니다. 그러나 사이버 보안과 관련된 사건은 증가하고 있으며, 그 영향은 종종 심각하고 장기적입니다. 업타임 인텔리전스의 창립 멤버이자 실행 책임자인 안디 로렌스는 "전반적으로 장애 발생은 줄어들고 있지만, 운영자들은 전력망 제약, 기후 변화, 네트워크 공급자의 장애, 서드파티 소프트웨어의 문제 등 자신들이 통제할 수 없는 외부 위험의 증가에 직면해 있다"고 말했습니다. 그는 또한 "불안정한 위험 환경 속에서도 개선이 진행되고 있다"고 덧붙였습니다. 업타임의 연간 장애 분석 보고서는 업계에서 독보적인 것으로, 여러 조사 결과뿐만 아니라 업타임 인스티튜트 회원 및 파트너가 제공한 정보, 공개된 장애 데이터베이스를 바탕으로 작성되었습니다. 주요 조사 결과는 다음과 같습니다: 장애 발생 빈도 및 중증도 감소: 디지털 인프라의 급속한 성장에도 불구하고, 장애 발생 빈도와 중증도는 수년간 지속적으로 감소하고 있다. 이는 업계에서의 위험 관리와 신뢰성 향상의 진전을 나타낸다. 전력 관련 장애가 주요 원인: 여전히 중대한 장애의 주요 원인은 전력 문제이다. IT 및 네트워크 문제는 2024년에 증가하여 전체의 23%를 차지했으며, 이는 코로케이션 공급자, 클라우드, 기타 서드파티 서비스로의 장기적인 전환을 반영한다. 아웃소싱으로 일부 기업에서는 위험이 감소할 수 있지만, 중대한 장애는 여전히 발생하며 심각한 영향을 미치기도 한다. IT 및 네트워크의 복잡성이 증가함에 따라 변경 관리나 설정 오류 등의 문제가 발생하는 것이 주요 원인으로 보인다. 소프트웨어 기반 및 분산형 회복성 도구의 확장: 이러한 시스템은 가동 시간을 향상시키는 데 기여하지만, 새로운 위험과 복잡성을 동반할 가능성이 있다. 소프트웨어 기반의 회복성 전략과 물리적인 실패 시 대체 시스템 및 중복화를 병용하면 전체적인 가용성을 향상시키는데 확실한 도움이 된다. 그러나 이러한 복잡성의 증가는 장애 발생 시 책임 소재가 불명확해지고, 근본 원인 분석이나 장애 분류를 복잡하게 만드는 경향이 있다. 산업 변화의 가속화: AI 수요의 급증은 특히 전력과 냉각에 중점을 둔 기존 인프라 설계에 큰 부담을 주고 있으며, 전력망의 제약과 세계적인 무역 갈등은 공급망과 확장 계획에 새로운 불확실성을 가져오고 있다. 이러한 압력이 겹쳐져 현재의 신뢰성 개선 추세에 영향을 미칠 수도 있다. 인위적 실수 증가: 2025년에는 절차를 준수하지 않은 것에 의한 인위적 실수가 원인이 된 장애 비율이 2024년보다 10포인트 증가했다. 직원이 절차를 지키지 않은 것에 의한 장애가 전년보다 더 큰 원인으로 작용했으며, 이는 훈련 강화와 프로세스 재검토를 통해 사건을 감소시킬 수 있는 여지를 보여준다. 인위적 실수로 인한 장애의 대부분은 절차의 무시나 미비로 인한 것이다. 지난 3년 동안 약 40%의 조직이 인위적 실수로 인한 중대한 장애를 경험했으며, 이 중 85%는 직원이 절차를 지키지 않았거나, 절차나 프로세스 자체에 결함이 있었기 때문인 것으로 분석된다. 이 증가의 명확한 이유는 알려져 있지 않지만, 산업의 급속한 성장과 이에 따른 여러 지역의 인력 부족이 한몫할 가능성이 있다. 문서나 프로세스 개선이 여전히 중요하지만, 직원 교육과 실시간 운영 지원에 더 많은 중점을 두면 위험을 더욱 효과적으로 줄일 수 있을 것으로 보인다. 서드파티 서비스 제공자의 영향: 업타임이 과거 9년 동안 공개된 장애를 추적한 결과, 서드파티 IT 공급자 및 데이터 센터 서비스 공급자(클라우드, 인터넷 대기업, 통신사, 코로케이션 기업 등)가 보고된 장애의 약 3분의 2를 차지했다. 2024년에는 디지털 서비스 공급자에 의해 발생한 장애가 증가한 반면, 클라우드와 인터넷 대기업에 의한 장애는 감소했다. 이는 각 하이퍼스케일러 기업들이 분산형 회복성 강화와 지역별 실패 시 대체 시스템에 투자를 늘린 결과로 보인다. 금융 산업의 경우 2020년 이후 장애 발생 빈도가 3년 연속 감소했다. 이는 2021년 이전에 발생한 여러 대규모 장애로 인해 규제 강화와 모니터링 체제 개선이 이루어졌기 때문인 것으로 해석된다. 업타임 인스티튜트는 30년 이상 데이터 센터의 성능, 회복성, 지속 가능성, 효율성 분야에서 업계를 선도해 왔습니다. 118개국 이상에서 3,500건 이상의 인증을 수행하고, 현재 80개국 이상에서 1,100건 이상의 프로젝트를 진행 중인 업타임은, 다양한 운영 환경에서도 각 기업의 비즈니스 요구에 맞는 수준으로 디지털 인프라가 확실하게 작동하도록 지원하고 있습니다. 업타임의 Tier 평가 기준은 데이터 센터의 설계, 구축, 운영에 관한 IT 업계에서 가장 신뢰받고 광범위하게 채택되는 글로벌 표준입니다. 업타임의 서비스는 Tier 인증, SCIRA-FSI 금융 부문 위험 평가, 지속 가능성 평가, 다양한 추가적인 위험 관리, 성능, 가용성, 관련 서비스를 포함한 관리 및 운영 검토와 평가를 제공합니다. 업타임 에듀케이션의 훈련 프로그램은 9만 명 이상의 데이터 센터 전문가가 우수한 성적으로 졸업했으며, ATD(Accredited Tier Designer) 및 AOS(Accredited Operations Specialist)와 같은 고평가를 받은 자격증도 포함하고 있습니다. 2023년 CNet Training, Ltd.의 인수로 업타임 에듀케이션의 커리큘럼은 더욱 확장되었습니다. 업타임 인스티튜트는 뉴욕에 본사를 두고 있으며, 런던, 상파울루, 두바이, 리야드, 싱가포르, 타이페이에 지사를 두고 있으며, 34개국 이상에서 상주하는 전문가들을 보유하고 있습니다. 자세한 정보는 uptimeinstitute.com에서 확인할 수 있습니다. 업계 전문가들은 이번 보고서가 위험 관리와 신뢰성 향상에 있어 중요한 지표가 될 것이라 평가하고 있습니다. 업타임 인스티튜트는 디지털 인프라의 안정성과 효율성을 높이는 데 지속적으로 기여하고 있으며, 이번 보고서는 이러한 노력의 일환이라고 할 수 있습니다.