Supercomputer sind überaus hungrig nach Energie: Wie das RIKEN Zentrum für Computational Science (R-CCS) setzt auch das Leibniz-Rechenzentrum (LRZ) auf die direkte Kühlung mit Wasser für seine leistungsstarken Systeme. Im Vergleich zur Kühlung mit Luft ist diese deutlich sparsamer, außerdem kann die Abwärme der Systeme nutzbar gemacht werden, etwa zum Heizen von Büros oder Gebäuden in der unmittelbaren Nachbarschaft. Jetzt bündeln beide Rechenzentren ihre Expertise zum energie- und ressourcen-effizienten Betrieb von Supercomputern der nächsten Generation. Während der SC Asia in Osaka unterzeichneten Prof. Satoshi Matsuoka, Director RIKEN Center for Computational Science, und Prof. Dieter Kranzlmüller, Leiter des LRZ, dazu ein Memorandum of Understanding (MoU).
Ziel der Zusammenarbeit ist es, Erfahrungen mit der direkten Warmwasserkühlung, mit deren thermischen Optimierung, außerdem mit der Wärmerückgewinnung und energie-bewusstem Scheduling von Rechenaufträgen auszutauschen. Dazu wollen die beiden wissenschaftlichen Rechenzentren Computertechnologie vergleichend analysieren und gemeinsam Tools fürs Monitoring oder für das Management von Aufträgen weiterentwickeln.
Beide Zentren planen gerade die Nachfolger ihrer Supercomputer SuperMUC-NG sowie Fugaku. Zwar unterscheiden sich die Konzepte für den bayerischen Blue Lion und den japanischen FugakuNext, doch in beide Systeme werden Beschleuniger integriert, unter anderem von NVIDIA, die Methoden der Künstlichen Intelligenz (KI) ermöglichen, allerdings den Strombedarf beträchtlich erhöhen. RIKEN setzt beim Kühlwasser aktuell auf eine Temperatur um 15 Grad. Das LRZ arbeitet indes mit einer Temperatur von bis zu 40 Grad und konnte die Energieeffizienz seiner Hochleistungs-Ressourcen zusätzlich durch gezieltes Monitoring steigern: Hardware und Rechenaufträge lassen sich so energiebewusst steuern, wissenschaftliche Codes für die reibungslose Ausführung optimieren. Anpassungen bei der Gebäudetechnik unterstützen die Wasserkühlung und einen sparsamen Betrieb von HPC-Systemen.
Mit ihrem MoU regeln beide Institute:
den Austausch von Daten sowie Erkenntnissen und Metriken über den Einsatz und Betrieb von direkt warmwassergekühlten Systemen, insbesondere bei hoher Auslastung;
die Zusammenarbeit bei der Bewertung von Risiken sowie die Entwicklung von Benchmarks für die optimale Systemtemperatur;
die Erforschung des thermischen Verhaltens von verschiedenen Hardwarekomponenten, etwa temperaturempfindlichen Bauteilen für Speicher mit hohen Bandbreiten;
Untersuchungen zum so genannten thermischen „Sweet Spot“, also der optimalen Temperatur für eine hohe Energieeffizienz, Rechenleistung und Verfügbarkeit von Rechenkraft;
die Evaluierung von Implementierungsstrategien zur energiebewussten Planung von Rechen- und Simulationsaufträgen sowie Entwicklung entsprechender Steuerungstools;
Machbarkeitsstudien zur Wärmerückgewinnung und zum Aufbau von Fernwärmesystemen in der Umgebung von Rechenzentren;
die Evaluierung von Anwendungsfällen und den Aufbau von Szenarien zur Integration energiebewusster Nutzungsregeln.
Die Zusammenarbeit ist zunächst bis 2030 angelegt. Vorgesehen ist dabei, technische Ressourcen zu teilen und Support- sowie HPC-Mitarbeiter in Workshops oder durch Austauschbesuche zusammenzubringen. Es gibt Überlegungen, die Zusammenarbeit weiter auszubauen und die Partnerschaft zwischen den beiden Zentren zu intensivieren.