HyperAI

Ist Es Schwierig, Wärme in Rechenzentren Abzuleiten? Sehen Sie, Wie Google Und DeepMind KI Zur Lösung Nutzen

vor 6 Jahren
Empfohlene Liste
Information
Dao Wei
特色图像

Von Super Neuro

Szenariobeschreibung:Google und DeepMind haben zusammengearbeitet, um mithilfe von Methoden des maschinellen Lernens den Energieverbrauch von Rechenzentren zu optimieren und eine effektive automatisierte Verwaltung von Rechenzentren zu erreichen.

Schlüsselwörter:Maschinelles Lernen zur thermischen Steuerung von Rechenzentren

Mit der Entwicklung der Internettechnologie ist der Bedarf der Menschen an Rechenleistung gestiegen und es gibt immer mehr große Rechenzentren. Allerdings birgt eine solche Entwicklung auch Gefahren für die Umwelt und die Energie. 

Rechenzentren verbrauchen einen großen Anteil der Energie in großen kommerziellen und industriellen Systemen. Aus ökologischer Sicht Daten aus dem Jahr 2017 zeigen, dass Rechenzentren 3 % des weltweiten Energieverbrauchs verbrauchen und 2 % der weltweiten Treibhausgase ausstoßen.

Einem anderen Bericht zufolge verbrauchen Rechenzentren schätzungsweise 200 Terawattstunden (TWh) Strom pro Jahr, was in etwa dem gesamten nationalen Energieverbrauch des Iran entspricht.

Ein Google-Rechenzentrum

Wenn es gelingt, den Energieverbrauch von Rechenzentren zu optimieren, können bereits geringfügige Verbesserungen die Treibhausgasemissionen erheblich reduzieren und Energie- und Umweltprobleme wirksam lindern.

Google setzt hierfür KI-Technologie ein. 

Wer sich nicht abkühlt, verbrennt Geld

Ein großer Teil des zusätzlichen Energieverbrauchs in Rechenzentren entsteht durch die Kühlung, genau wie die Wärme, die beim Betrieb eines Laptops benötigt wird.

In den Rechenzentren von Google werden Server für beliebte Anwendungen wie Google Search, Gmail und YouTube bereitgestellt, die während des Betriebs ebenfalls enorme Mengen Wärme erzeugen und für ihren normalen Betrieb effektiv abgeführt werden müssen. 

Kühlsystem für Rechenzentren

Allerdings sind herkömmliche Kühlmethoden wie Pumpen, Kühler und Kühltürme in dynamischen Umgebungen wie Rechenzentren nur schwer einsetzbar. Die Haupthindernisse ergeben sich aus folgenden Aspekten: 

1. Wie Ingenieure Geräte bedienen und welche komplexen und nichtlinearen Auswirkungen die Umgebung auf die Geräte hat. Traditionelle Ansätze und menschliche Intuition können diese Interaktionen in der komplexen Umgebung eines Rechenzentrums oft nicht erfassen. 

2. Das System kann sich nicht schnell an interne oder externe Veränderungen (wie beispielsweise das Wetter) anpassen. Dies liegt daran, dass Ingenieure nicht für alle Betriebsszenarien Regeln und Heuristiken entwickeln können. 

3. Jedes Rechenzentrum verfügt über eine einzigartige Architektur und Umgebung. Ein individuell abgestimmtes Modell für ein System ist möglicherweise nicht für ein anderes geeignet. Daher ist ein allgemeines intelligentes Framework erforderlich, um die Interaktionen im Rechenzentrum zu verstehen. 

Hunderte von Codezeilen sparen Hunderte Millionen Dollar

Um die oben genannten Probleme zu lösen, versuchen Google und DeepMind, Methoden des maschinellen Lernens (ML) zu verwenden, um die Energieeffizienz der Google-Rechenzentren zu verbessern. 

Im Jahr 2016 führten Google und DeepMind ein ML-basiertes Empfehlungssystem ein, das verschiedene Betriebsszenarien und Parameter innerhalb des Rechenzentrums nutzte, um das neuronale Netzwerksystem zu trainieren und so ein effizientes und anpassungsfähiges Framework zu erstellen. 

Bei den Daten, mit denen sie trainierten, handelte es sich um historische Aufzeichnungen, die von Tausenden von Sensoren im Rechenzentrum erfasst wurden und unter anderem Daten zu Temperatur, Leistung, Pumpendrehzahl, Sollwerten und anderen Daten umfassten. 

PUE (Power Usage Effectiveness) ist definiert als das Verhältnis des gesamten Gebäudeenergieverbrauchs zum IT-Energieverbrauch. Je näher das Verhältnis bei 1 liegt, desto effizienter ist die Energienutzung. 

Da das Ziel darin besteht, die Energieeffizienz von Rechenzentren zu verbessern, wird das neuronale Netzwerk mit dem durchschnittlichen PUE (Power Usage Effectiveness) als Parameter trainiert. 

Google Data Center PU-Messbereich

Unabhängig davon trainierten sie zwei Ensembles tiefer neuronaler Netzwerke, um die zukünftige Temperatur und den Druck im Rechenzentrum eine Stunde im Voraus vorherzusagen. Der Zweck dieser Vorhersagen besteht darin, die empfohlenen Vorgänge im PUE-Modell zu simulieren, um sicherzustellen, dass keine Betriebsbeschränkungen überschritten werden. 

Testen Sie Ihre Modelle, indem Sie sie live in einem Rechenzentrum bereitstellen. Das Bild unten zeigt einen dieser Tests, einschließlich Vorhersagen darüber, wann maschinelles Lernen aktiviert und wann es deaktiviert werden sollte. 

Durch den Einsatz des ML-Ansatzes konnte das System den Energieverbrauch für die Kühlung kontinuierlich um 40 % senken. Nach der Beseitigung elektrischer Verluste und anderer Ineffizienzen, die nichts mit der Kühlung zu tun haben, konnte der gesamte PUE-Overhead um 15 % gesenkt werden. Dies entsprach damals einer Einsparung von Hunderten Millionen Dollar an Investitionsausgaben. Außerdem wurde der niedrigste PUE-Wert aller Zeiten erzielt. 

PUE-Daten für alle großen Rechenzentren von Google

Cloudbasierte KI wird menschliche Arbeit ersetzen

Im Jahr 2018 haben sie dieses System auf die nächste Stufe gebracht, bei der die KI mehr Autonomie erhält und nun die Kühlung des Rechenzentrums direkt steuert, aber auch weiterhin unter der professionellen Aufsicht des Rechenzentrumsbetreibers steht. Das verbesserte neue System stellt bereits Energiespardienste für mehrere Google-Rechenzentren bereit. 

Diese Technologie bietet Analysen und Richtlinien als Cloud-basierten Dienst. 

Alle fünf Minuten erstellt eine Cloud-basierte KI anhand von Tausenden von Sensoren eine Momentaufnahme des Kühlsystems des Rechenzentrums und speist diese in ein tiefes neuronales Netzwerk ein, um vorherzusagen, wie sich verschiedene Kombinationen potenzieller Aktionen auf den zukünftigen Energieverbrauch auswirken werden. 

Das KI-System ermittelt dann, welche Vorgänge den geringsten Energieverbrauch aufweisen und gleichzeitig die Sicherheitsbeschränkungen einhalten. Diese Aktionen werden dann an das Rechenzentrum zurückgesendet, wo sie überprüft und anschließend vom lokalen Steuerungssystem implementiert werden. 

Vier Schritte einer spezifischen Operation

Die Idee entstand durch das Feedback von Rechenzentrumsbetreibern, die KI-Empfehlungssysteme nutzten. Die Betreiber sagen, dass das System einige neue Best Practices vermittelt hat, wie etwa die Verteilung der Kühllast auf mehr Geräte mit Hilfe und Aufsicht der Betreiber. Aber ich bin gespannt, ob ähnliche Energieeinsparungen ohne manuelle Umsetzung erreicht werden können. 

Dann übernahm die KI vollständig die Kontrolle. Die Unterstützung durch den Bediener wird praktisch eliminiert.

Im neuen System haben sie den KI-Agenten und die zugrunde liegende Infrastruktur neu gestaltet und gleichzeitig auf Sicherheit und Zuverlässigkeit geachtet. Mithilfe einer Vielzahl von Mechanismen wird sichergestellt, dass das System immer wie erwartet läuft.

Andere Sicherheitskontrollmodi

Darüber hinaus liegt die endgültige Kontrolle beim Bediener und nicht bei der KI. Das Personal kann den KI-Steuerungsmodus jederzeit beenden und die Optimierungsgrenzen des Systems begrenzen, um die KI-Nutzung in einem sicheren und zuverlässigen Bereich zu halten.

Vertreter von Google erklärten: „Wir hoffen, mit weniger Personal Energie zu sparen. Automatisierte Systeme können detailliertere Vorgänge häufiger ausführen und gleichzeitig Fehler vermeiden.“ 

KI sagt: Es gibt keinen Stärksten, nur den Stärkeren

In den Monaten der Erprobung des neuen Systems konnten sie durchschnittlich 30 % nachhaltige Energieeinsparungen erzielen und arbeiten weiterhin an Verbesserungen. Und diese Systeme werden mit der Zeit und mit zunehmender Datenansammlung besser, wie in der folgenden Abbildung gezeigt.

Dieses Diagramm zeigt, wie sich KI im Laufe der Zeit verändert hat. Blau steht für die Datenmenge und Grün für Leistungsänderungen.

Über einen Zeitraum von mehreren Monaten konnte die Leistung des KI-Steuerungssystems von einer Verbesserung um 12 % (beim ersten Start der autonomen Steuerung) auf eine Verbesserung um etwa 30 % gesteigert werden.

Mit fortschreitender technologischer Entwicklung wird auch der Optimierungsspielraum des Systems erweitert und so eine größere Reduzierung des Energieverbrauchs erreicht. 

Vertreter von Google sagen, dass Rechenzentren nur der Anfang seien. Langfristig besteht das Potenzial, die Technologie auch in anderen Industriezweigen einzusetzen und in größerem Maßstab zur Verbesserung der Umweltsituation beizutragen.

Klicken Sie hier, um den Originalartikel zu lesen