Mit Forschung und Supercomputing gegen Krisen

strom

SuperMUC-NG und seine Kollegen am LRZ arbeiten mit erneuerbaren Energien. Foto: Karsten Würth/Unsplash

Moderne Wissenschaft braucht Rechenleistung – und damit Strom. Viel Strom, auch in Zeiten von Energiekrisen. Dafür liefert Forschung umgekehrt Lösungen zur Bewältigung von Krisen – und auch die Strategien für einen effizienten Umgang mit Energie.

• Forschung findet Lösungen gegen Energiekrisen. In Zusammenarbeit mit Herstellerunternehmen entstehen außerdem innovative Tools und Strategien für mehr Energie-Effizienz in der IT.

• Reduzierte Taktfrequenzen und Energie-Management, Virtualisierung von Infrastruktur sowie (Warm)Wasserkühlungen senken in Rechenzentren den Strombedarf und machen die Abwärme nutzbar.

• Supercomputing ist Vorreiter: Hier werden die Werkzeuge für die optimale Auslastung der Hardware und für die Programmierung energie-effizienterer Software vorbereitet.

Läuft SuperMUC-NG, der Supercomputer des Leibniz-Rechenzentrums (LRZ) auf Hochtouren, braucht er 3,4 Mega- oder 3400 Kilowatt Strom. Das ist eine Menge, rund 75 Prozent des LRZ-Gesamtbedarfs. Doch damit produziert der Supercomputer Modelle und Berechnungen, anhand derer wir beispielsweise Umweltphänomene besser verstehen und Schutzmaßnahmen gegen Extremwetter planen können. Mit High Performance Computern (HPC) entwickeln Forschende Medikamente, Therapien oder Materialien, zudem Lösungen und Methoden für andere Forschungsdisziplinen, für Technik und IT.

Auf Forschung und Supercomputing zu verzichten, um Strom zu sparen, ist kein Ausweg aus der Energiekrise, zumal sich Hochleistungsrechner nicht ohne Weiteres abschalten und wieder hochfahren lassen. Politik und Gesellschaft sollten beides als Teil der Lösung begreifen: An den Hochleistungsrechnern von Forschungseinrichtungen sowie an den drei nationalen Supercomputing-Zentren des Gauss Centre for Supercomputing arbeiten Wissenschaftler:innen seit Jahren mit Erfolg daran, die Stromaufnahme von Computern zu drosseln und gleichzeitig deren Leistung zu erhöhen. In enger Zusammenarbeit mit Technologieanbietern entwickeln sie Werkzeuge und optimieren Technik, die den technischen Fortschritt in der IT weitertreiben.

Sollten wie vielerorts befürchtet in diesem Winter Engpässe in der Strom- und Energieversorgung auftreten, liegt das am russischen Angriff auf die Ukraine. Eine Herausforderung, mit der wir uns auf größere Aufgaben vorbereiten können: Die Stromversorgung ist generell von fossilen Brennstoffen auf erneuerbare Energien umzustellen, um Erderwärmung und Klimawandel aufzuhalten. Lücken in der Energieversorgung sind nicht ausschließen, aber mit Hilfe von Forschung, von Tests und Optimieren innovativer Technik kann diese Umstellung gelingen.

Automatisch abschalten, was nicht genutzt wird

Am Leibniz-Rechenzentrum (LRZ) in Garching konnten wir vorsorgen: SuperMUC-NG und alle anderen HPC-Ressourcen, Datenspeicher und Netze laufen seit mehr als zehn Jahren zu 100 Prozent mit Strom aus erneuerbaren Quellen wie Sonne, Wasser und Wind. Etwaige wetterbedingte Schwankungen gleicht der Lieferant aus. Bis Ende 2024 sind 95 Prozent des Strombedarfs vertraglich fixiert, von steigenden Preisen sind wir betroffen, wenn wir kleinere Mengen Strom am Spotmarkt zukaufen müssen. Für mögliche größere Versorgungslücken wurden mehrere Szenarien durchgerechnet und Notfallpläne ausgearbeitet.

Doch nicht erst seit Strom knapp und teuer wurde, steht der Energiebedarf in der Informatik und in Rechenzentren im Fokus. Vor allem aus wirtschaftlichen Gründen – beim Strom eingespartes Geld kann für Hardware und damit für mehr Rechenkapazität eingesetzt werden – wurden gerade in den energie-intensiven Supercomputing-Zentren viele praktikable Werkzeuge zur Senkung des Energiebedarfs entwickelt und im engen Austausch weiter verbessert. Ein Wettlauf ums Optimum, von dem Wirtschaft und Gesellschaft profitierten, weil auch die Personalcomputer und mobilen Geräten bei sinkender Stromaufnahme immer mehr Leistung brachten.

Die Hochleistungsrechner am LRZ nehmen nicht tagtäglich die höchsten Energiemengen auf, sondern nur dann, wenn Prozessoren und Rechenknoten auf Hochtouren laufen. SuperMUC-NG arbeitet meistens mit reduzierter Taktfrequenz, statt mit den üblichen 2,7 nur mit 2,3 Gigahertz. Viele Anwendungen profitieren ohnehin nicht von einer höheren Taktfrequenz, ohne diese Maßnahme würden die Computer im Jahresmittel bis zu 30 Prozent mehr Strom verbrauchen. Eine weitere Reduzierung der Taktfrequenz würde in der aktuellen Situation wenig bringen, denn dann würden Anwendungen länger rechnen und so mehr Strom verbrauchen.

Computer werden manchmal als „Heizgeräte mit integrierter Logik“ bezeichnet, bis zu 60 Prozent der aufgenommenen Energie fließen nicht ins Rechnen. Das ist ineffizient, und so kommt heute in beinahe allen Supercomputing-Zentren der internationalen Top-500-Liste – sie klassifiziert die Leistung dieser Höchstleistungsrechner – eine Wasserkühlung zum Einsatz. Diese macht Ventilatoren und Kältemaschinen, die zusätzlich Strom brauchen, weitgehend überflüssig und die Abwärme nutzbar.

Als Maß für Energieeffizienz im Rechenzentrum hat sich der Power Usage Efficiency-Faktor (PUE) bewährt. Er gibt an, welcher Anteil des Stroms nicht ins Computing fließt. Optimal wäre ein PUE von 1, 100 Prozent fließen ins Rechnen. Laut Prüfinstitut Uptime Institute erreichten Rechenzentren 2021 im Schnitt weltweit knapp 1,6. Der Supercomputer des LRZ schafft einen PUE von 1,06 – pro Kilowatt fließen 0,06 Kilowatt in Infrastruktur wie die Kühlung. Diese höhere Effizienz wurde in enger Kooperation mit Technologieanbieter Lenovo, durch Testläufe und eine schrittweise Erhöhung der Wassertemperatur erreicht. Heute fließt durch die Racks von SuperMUC-NG bis zu 50 Grad heißes Wasser, das sich durch die Abwärme weiter erhitzt. Derart gespeichert lässt sich diese nutzen: zum Heizen von Büros in der Nachbarschaft etwa, von Treibhäusern oder anderem Bedarf. Aus diesem Grund sind in Schweden bereits 30 Rechenzentren in Fernwärmenetze integriert. Auch das LRZ könnte Wärme abgeben. Doch um diese aufzunehmen, müssten Gebäude in der Umgebung umgerüstet werden. Wir beobachten, dass solche Lösungen jetzt endlich häufiger diskutiert werden. Weitere Chancen, den Energiehunger der Kühlung einzudämmen und Abwärme besser zu nutzen, liegen im engen Zusammenspiel von IT-Abteilungen und Gebäudemanagement

Was im Supercomputing entwickelt, optimiert, angepasst wurde, etabliert sich in herkömmlichen Rechenzentren. Neben Wasserkühlung und Verringerung von Taktfrequenzen setzen diese außerdem auf die Virtualisierung von Hard- und Software. Sie hilft Platz und Energie zu sparen, damit steigt die Verfügbarkeit von IT-Dienstleistungen und sinkt der Strombedarf. Kommen dann noch Werkzeuge fürs Energie-Management zum Einsatz, sinkt der Bedarf nochmals um bis zu 30 Prozent: Das Distributed Power Management fährt Hardware automatisiert herunter und schaltet sie ab, wenn sie nicht gebraucht wird. Aus demselben Grund werden in Rechen- und Supercomputingzentren wie dem LRZ zu Testzwecken eingerichtete IT-Systeme nur aktiviert, wenn es dafür auch Aufgaben gibt.

Teamwork zwischen Forschung und Industrie

Auch durch eine bessere Arbeitsplanung sinkt der Energiebedarf im Rechenzentrum und beim Supercomputing: Forschung und Technologieanbieter setzten auf das Energy Aware Scheduling und entwickeln dafür immer mehr Werkzeuge – neuerdings immer öfter mit Methoden der Künstlichen Intelligenz. Rechenaufträge werden dafür so kombiniert, dass Speicher und Prozessoren möglichst gleichmäßig beschäftigt sind. Auch das lässt den Stromverbrauch sinken. Zurzeit steht der Datentransfer innerhalb eines Systems im Fokus, hier gibt es noch viele Chancen, die Energieaufnahme zu drosseln und mehr Leistung herauszuholen.

Für mehr Effizienz muss das Computing intensiv beobachtet werden. Mit Betriebsdaten, so die Hoffnung, können Computer smart gesteuert und Prozesse weiter automatisiert werden. Auch dabei werden Supercomputer die Taktgeber für IT-Innovationen sein: In den mehr als 6480 Rechenknoten von SuperMUC-NG sammeln rund 15 Millionen Sensoren Daten zu Leistung, Temperatur, Belastung der Komponenten, zu seinem Umgang mit Software und Applikationen. Zur Auswertung dieser Informationen haben LRZ-Spezialist:innen die Open-Source-Software Data Centre Data Base (DCDB) sowie eine erste Systematik entwickelt. Beides ist öffentlich zugänglich, wird mit anderen Supercomputing-Zentren geteilt, diskutiert, ergänzt, verbessert, weiterentwickelt. Und könnte bald schon die Grundlage einer smarten Steuerung von Computern bilden, die in Rechenzentren wie auch bei Computerherstellern hoch willkommen sein wird. Mit Betriebsdaten ließe sich übrigens auch Software immer besser an die Anforderungen eines Rechners anpassen: die Programmierung bietet weitere Chancen, den Energiebedarf zu drosseln, auch wenn die Effekte nur schwer einzuschätzen sind.

Die aktuelle Energiekrise hält uns alle an, effizienter mit Ressourcen umzugehen. Als weiterer neuer Forschungsbereich, der den Strombedarf drosselt, erweist sich sogar das gezielte Datenmanagement und die Vernetzung von Wissenschaft: Sind Daten recherchierbar, allgemein verfügbar und wiederverwertbar, kann aus Big Data noch viel mehr Wissen gezogen werden. Ein Modell, das sich auch in der Wirtschaft bewähren könnte. Forschende sehen Krisen vor allem als Herausforderung. Strom und seine Knappheit elektrisieren sie und lassen Geistesblitze entstehen für neue, notwendigen Lösungen. Diese Haltung kann uns allen Beispiel geben: Neugier und Forschungsgeist lenken den Blick auf die Chancen in der Krise und lassen uns optimistischer in die Zukunft sehen. (Prof. Dr. Dieter Kranzlmüller)