데이터 센터에서는 열을 발산하는 것이 어렵나요? Google과 DeepMind가 AI를 사용하여 문제를 해결하는 방법을 확인하세요.

Super Neuro에서
시나리오 설명:Google과 DeepMind는 머신 러닝 방법을 사용하여 데이터 센터의 에너지 소비를 최적화하고 데이터 센터의 자동화 관리를 효과적으로 달성하기 위해 협력했습니다.
키워드:머신 러닝 데이터 센터 열 제어
인터넷 기술이 발전함에 따라 사람들의 컴퓨팅 성능에 대한 수요가 증가하였고, 대형 데이터 센터도 점점 더 많아졌습니다. 하지만 이러한 개발은 환경과 에너지에 위협을 가하기도 합니다.
데이터 센터는 대규모 상업 및 산업 시스템에서 많은 양의 에너지를 소비합니다. 환경적 관점에서 보면, 2017년 데이터에 따르면 데이터 센터는 전 세계 에너지 사용량의 3%를 사용하고 전 세계 온실 가스의 2%를 배출하는 것으로 나타났습니다.
또 다른 보고서에 따르면, 데이터 센터는 연간 약 200테라와트시(TWh)의 전기를 사용하는데, 이는 이란의 국가 전체 에너지 소비량과 거의 맞먹는 양입니다.

구글 데이터 센터
데이터 센터의 에너지 사용을 최적화할 수 있다면, 조금만 개선해도 온실가스 배출을 크게 줄이고 에너지 및 환경 문제를 효과적으로 완화할 수 있습니다.
구글은 이를 위해 AI 기술을 사용해 왔습니다.
식지 않으면 돈이 타버릴 거야
데이터 센터에서 발생하는 추가 에너지 소비의 상당 부분은 냉각에서 발생하는데, 이는 노트북을 작동할 때 필요한 열과 마찬가지입니다.
Google 데이터 센터는 Google 검색, Gmail, YouTube와 같은 인기 있는 애플리케이션을 위한 서버를 제공하는데, 이러한 애플리케이션은 운영 중에 엄청난 양의 열을 발생시키므로 정상적인 작동을 보장하기 위해 효과적으로 열을 발산해야 합니다.

데이터 센터 냉각 시스템
그러나 펌프, 냉각기, 냉각탑과 같은 기존의 냉각 방법은 데이터 센터와 같은 동적 환경에서 사용하기 어렵습니다. 주요 장애물은 다음과 같은 측면에서 발생합니다.
1. 엔지니어가 장비를 작동하는 방식과 환경이 장비에 미치는 복잡하고 비선형적인 영향. 전통적인 접근 방식과 인간의 직관은 데이터 센터의 복잡한 환경에서 이러한 상호작용을 포착하지 못하는 경우가 많습니다.
2. 시스템이 내부 또는 외부 변화(예: 날씨)에 신속하게 적응할 수 없습니다. 엔지니어가 모든 운영 시나리오에 대한 규칙과 경험적 지식을 개발할 수 없기 때문입니다.
3. 각 데이터 센터는 고유한 아키텍처와 환경을 가지고 있습니다. 한 시스템에 맞게 맞춤 조정된 모델이 다른 시스템에는 적합하지 않을 수 있습니다. 따라서 데이터 센터 상호작용을 이해하려면 일반적인 지능형 프레임워크가 필요합니다.
수백 줄의 코드로 수억 달러를 절약할 수 있습니다.
위의 문제를 해결하기 위해 Google과 DeepMind는 머신 러닝(ML) 방법을 사용하여 Google 데이터 센터의 에너지 효율성을 개선하려고 노력하고 있습니다.
2016년에 Google과 DeepMind는 데이터 센터 내의 다양한 운영 시나리오와 매개변수를 사용하여 신경망 시스템을 학습시키는 ML 기반 추천 시스템을 출시하여 효율적이고 적응형 프레임워크를 만들었습니다.
그들이 훈련시킨 데이터는 온도, 전력, 펌프 속도, 설정점 및 기타 데이터를 포함하여 데이터 센터의 수천 개 센서에서 수집한 과거 기록이었습니다.
PUE(전력 사용 효율)는 건물의 총 에너지 소비량을 IT 에너지 소비량으로 나눈 비율로 정의됩니다. 비율이 1에 가까울수록 에너지 사용 효율성이 높아집니다.
목표는 데이터 센터의 에너지 효율성을 개선하는 것이므로, 신경망은 평균 PUE(전력 사용 효율성)를 매개변수로 사용하여 훈련됩니다.

Google 데이터 센터 PU 측정 범위
그들은 각각 두 개의 딥 신경망 앙상블을 훈련하여 한 시간 후의 데이터 센터의 온도와 압력을 예측했습니다. 이러한 예측의 목적은 PUE 모델에서 권장하는 작업을 시뮬레이션하여 운영 제약 조건을 초과하지 않는지 확인하는 것입니다.
데이터 센터에 실시간으로 모델을 배포하여 테스트하세요. 아래 이미지는 이러한 테스트 중 하나를 보여줍니다. 여기에는 머신 러닝이 켜지는 시점과 꺼지는 시점에 대한 예측이 포함되어 있습니다.

ML 방식을 사용하여 시스템은 냉각에 사용되는 에너지를 지속적으로 40%까지 줄일 수 있었고, 전기 손실과 기타 냉각 이외의 비효율성을 제거한 후 전체 PUE 오버헤드가 15% 감소했습니다. 이는 당시 수억 달러의 자본 지출을 절약한 것과 같습니다. 또한 역대 가장 낮은 PUE를 기록했습니다.

Google의 모든 대규모 데이터 센터에 대한 PUE 데이터
클라우드 기반 AI가 인간 노동을 대체할 예정이다
2018년에는 이 시스템을 한 단계 더 발전시켜 AI에 더 많은 자율성을 부여하고 데이터 센터의 냉각을 직접 제어하게 했지만, 여전히 데이터 센터 운영자의 전문적인 감독을 받게 되었습니다. 업그레이드된 새로운 시스템은 이미 여러 Google 데이터 센터에 에너지 절약 서비스를 제공하고 있습니다.
이 기술은 클라우드 기반 서비스로 분석과 정책을 제공합니다.
5분마다 클라우드 기반 AI가 수천 개의 센서에서 데이터 센터의 냉각 시스템 스냅샷을 촬영하여 딥러닝 신경망에 공급하여 잠재적인 조치의 다양한 조합이 향후 에너지 소비에 어떤 영향을 미칠지 예측합니다.
그러면 AI 시스템은 안전을 보장하는 제약 조건을 충족하는 동시에 에너지 소비를 최소화하는 작업이 무엇인지 파악합니다. 그런 다음 이러한 작업은 데이터 센터로 다시 전송되어 검증을 거친 후 로컬 제어 시스템에서 구현됩니다.




특정 작업의 4단계
이 아이디어는 AI 추천 시스템을 사용하는 데이터 센터 운영자들의 피드백에서 나왔습니다. 운영자들은 이 시스템을 통해 운영자의 도움과 감독을 받아 냉각 부하를 더 많은 장비로 분산하는 등 몇 가지 새로운 모범 사례를 배웠다고 말합니다. 하지만 수동으로 구현하지 않고도 비슷한 수준의 에너지 절감을 달성할 수 있을지 궁금합니다.
그러다가 AI가 모든 것을 장악하게 되었습니다. 운영자 지원이 사실상 없어졌습니다.
새로운 시스템에서는 AI 에이전트와 기반 인프라를 재설계하는 동시에 보안과 안정성에 중점을 두었으며, 다양한 메커니즘을 사용하여 시스템이 항상 예상대로 실행되도록 보장했습니다.

기타 보안 제어 모드
게다가 최종적인 통제권은 AI가 아니라 운영자에게 있습니다. 직원은 언제든지 AI 제어 모드를 종료하고 시스템 최적화 경계를 제한하여 AI 사용을 안전하고 신뢰할 수 있는 범위 내에서 유지할 수 있습니다.
구글 관계자는 "인력을 줄이면서도 에너지 절감 효과를 기대한다"며, "자동화 시스템은 오류를 방지하면서 더 세밀한 작업을 더 높은 빈도로 수행할 수 있다"고 말했다.
AI는 말한다: 가장 강한 것은 없고 더 강한 것만 있다
그들은 새로운 시스템을 시험한 지 몇 달 만에 평균 30%의 지속적인 에너지 절감 효과를 달성했으며, 지금도 개선을 계속하고 있습니다. 그리고 이러한 시스템은 아래 그림에서 볼 수 있듯이 시간이 지날수록, 그리고 더 많은 데이터가 축적될수록 더욱 개선됩니다.

이 그래프는 AI가 시간에 따라 어떻게 변화했는지 보여줍니다. 파란색은 데이터 양을 나타내고 녹색은 성능의 변화를 나타냅니다.
수개월에 걸쳐 AI 제어 시스템 성능은 자율 제어를 처음 출시했을 때 12% 개선에서 약 30% 개선으로 증가했습니다.
기술이 발전함에 따라 시스템의 최적화 범위도 확장되어 에너지 소비를 더욱 많이 줄일 수 있게 될 것입니다.
구글 관계자는 데이터 센터는 단지 시작일 뿐이라고 말했습니다. 장기적으로 이 기술은 다른 산업 분야에도 적용될 수 있는 잠재력이 있으며, 더 큰 규모로 환경 문제를 개선하는 데 도움이 될 것입니다.