データセンター内の熱を放散するのは難しいですか? Google と DeepMind が AI を使用してそれを実現する方法をご覧ください

6 年前

おすすめリスト

情報

Dao Wei

特色图像

超神経質で

シーンの説明:Google と DeepMind は協力して機械学習手法を使用してデータセンターのエネルギー消費を最適化し、データセンターの自動化と管理の改善を効果的に実現しました。

キーワード:機械学習データセンター冷却制御

インターネット技術の発展に伴い、人々のコンピューティング能力に対する需要が高まり、大規模なデータセンターがますます増えています。しかし、そのような発展は環境とエネルギーへの脅威ももたらします。 

大規模な商業および産業システムでは、データセンターが大きなエネルギーを消費します。環境の観点から見ると、 2017 年のデータによると、データセンターは世界のエネルギー使用量の 3% を使用し、世界の温室効果ガスの 2% を排出しています。

別の報告書によると、データセンターは年間推定 200 テラワット時 (TWh) の電力を使用しており、これはイランの総エネルギー消費量とほぼ同等です。

Googleのデータセンター

データセンターのエネルギー使用を最適化できれば、わずかな改善でも温室効果ガスの排出を大幅に削減し、エネルギーと環境の問題を効果的に軽減できます。

そしてGoogleはAI技術を利用してそうしたことを行っている。 

熱を放散しないとお金が無駄になってしまいます。

ラップトップが動作中に熱を放散する必要があるのと同じように、データセンターの追加エネルギー消費の大部分は冷却によって発生します。

Google データセンターは、Google 検索、Gmail、YouTube などの一般的なアプリケーションにサーバーを提供します。また、動作中に大量の熱を発生するため、正常な動作を確保するには効果的に放熱する必要があります。 

データセンター冷却システム

ただし、ポンプ、チラー、冷却塔などの従来の冷却方法は、データセンターのような動的環境では使用が困難であり、主な障害は次の側面にあります。 

1. エンジニアが機器を操作する方法と、環境が機器に及ぼす複雑かつ非線形的な影響。従来のアプローチや人間の直感では、データセンターの複雑な環境におけるこうした相互作用を捉えることができないことがよくあります。 

2. システムは内部または外部の変化 (天候など) にすぐに適応できません。これは、エンジニアがすべての運用シナリオに対応するルールやヒューリスティックを開発できるわけではないためです。 

3. 各データセンターには独自のアーキテクチャと環境があります。あるシステムのカスタム チューニング モデルは、別のシステムでは機能しない可能性があります。したがって、データセンターの相互作用を理解するには、一般的なインテリジェンス フレームワークが必要です。 

数百行のコードで数億ドルを節約

上記の問題を解決するために、Google と DeepMind は機械学習 (ML) 手法を使用して Google データセンターのエネルギー効率を向上させようとしています。 

2016 年、Google と DeepMind は、データセンター内のさまざまな操作シナリオとパラメーターを使用してニューラル ネットワーク システムをトレーニングし、効率的で適応性のあるフレームワークを作成する ML ベースのレコメンデーション システムを開始しました。 

トレーニングに使用されるデータは、温度、電力、ポンプ速度、設定値、その他のデータを含む、データセンター内の何千ものセンサーによって収集された履歴記録です。 

PUE (電力使用効率) は、IT エネルギー消費量に対する建物の総エネルギー消費量の比率として定義されます。この比率が 1 に近いほど、エネルギーの使用効率が高いことを意味します。 

目標はデータセンターのエネルギー効率を向上させることであるため、ニューラル ネットワークは平均 PUE (電力使用効率) をパラメータとしてトレーニングされます。 

Google データセンターの PU 測定範囲

さらに、彼らはディープ ニューラル ネットワークの 2 つのアンサンブルをトレーニングして、今後 1 時間のデータセンター内の将来の温度と圧力を予測しました。これらの予測の目的は、PUE モデルで推奨されるアクションをシミュレートし、運用上の制約を超えないようにすることです。 

データセンター上のライブ展開でモデルをテストします。以下の画像は、機械学習をいつオンにするか、いつオフにするかを予測するなどのテストの 1 つを示しています。 

ML 手法の使用により、システムは冷却に使用されるエネルギーを一貫して 40% 削減でき、電気損失やその他の非冷却効率を除くと、全体的な PUE オーバーヘッドが 15% 削減されます。これは、当時の設備投資で数億ドルを節約したことに相当します。また、これまでで最も低い PUE を生成しました。 

Google のすべての大規模データセンターの PUE データ

クラウドベースの AI が人間の労働を置き換えようとしています

2018 年に、彼らはこのシステムを次のレベルに引き上げ、AI はデータセンターの冷却を直接制御するようになりましたが、引き続きデータの管理下にあります。センターオペレーター下。アップグレードされた新しいシステムは、すでに複数の Google データセンターに省エネ サービスを提供しています。 

このテクノロジーは、クラウド サービスに基づいた分析と戦略を提供します。 

クラウドベースの AI は 5 分ごとに、数千のセンサーからデータセンターの冷却システムのスナップショットを取得し、それをディープ ニューラル ネットワークに入力して、潜在的なアクションのさまざまな組み合わせが将来のエネルギー消費にどのような影響を与えるかを予測します。 

AI システムは、安全性を確保する制約を満たしながら、エネルギー消費を最小限に抑える操作を特定します。これらの操作はデータセンターに送り返され、そこで操作が検証され、ローカル制御システムによって実装されます。 

具体的な操作手順は 4 つあります

このアイデアは、AI レコメンデーション システムを使用しているデータセンター オペレーターからのフィードバックから生まれました。オペレーターらは、このシステムはオペレーターの支援と監視を通じて冷却負荷をより多くの機器に分散するなど、いくつかの新しいベストプラクティスを教えてくれたと述べている。しかし、手動で実装しなくても同様のエネルギー節約が達成できるかどうかは興味深いところです。 

その後、AI が完全に引き継ぎます。 オペレーターの支援はほとんど必要なくなりました。

新しいシステムでは、セキュリティと信頼性にも重点を置きながら、AI エージェントと基盤となるインフラストラクチャを再設計し、システムが常に期待どおりに動作するようにさまざまなメカニズムを使用しました。

その他のセキュリティ制御モード

さらに、最高の制御はAIではなくオペレーターに属します。スタッフはいつでもAI制御モードを終了することを選択でき、システムの最適化境界を制限することで、安全で信頼できる範囲内でAIの使用を制御できます。

グーグルの担当者は「人的負担を減らして省エネを実現したい。自動化システムはミスを避けながら、より細かい操作をより高い頻度で実行できる」と話す。 

AIは言った:「最強は存在しない、ただ強いだけだ」

新しいシステムを試してきた数か月間で、平均 30% の持続的なエネルギー節約を達成し、現在も改良を続けています。そして、これらのシステムは、次の図に示すように、時間が経つにつれて、より多くのデータが蓄積されるにつれて改善されます。

このグラフは AI の時間の経過に伴う変化を表しており、青はデータ量、緑はパフォーマンスの変化を表しています。

数か月の間に、AI 制御システムのパフォーマンスは 12% の向上 (自動制御の初期起動) から約 30% の向上に向上しました。

テクノロジーが成熟するにつれて、システムの最適化範囲が拡大し、より大きなエネルギー削減が可能になります。 

Googleの関係者は、データセンターはまだ始まりに過ぎないと言う。長期的には、この技術は他の産業分野に適用され、より大規模な環境問題の改善に役立つ可能性があります。

クリックすると原文が読めます