Zur Hauptnavigation springen Zur Hauptnavigation springen Zum Inhalt springen Zum Fußbereich springen

Warmlaufen für Blue Lion

Technologie:Supercomputing Forschungsbereich:Future Computing

Das Leibniz-Rechenzentrum installierte mit Technologie-Anbieter HPE eine Test- und Optimierungsplattform, um Nutzer und Mitarbeitende auf den nächsten Supercomputer Blue Lion mit seiner neuen Architektur vorzubereiten.

Der Blaue Löwe schickt die Jungen vor: Für Test- und Trainingszwecke hat Hewlett Packard Enterprise (HPE) gerade Blue Cubs am Leibniz-Rechenzentrum (LRZ) installiert. Das Testsystem verfügt über acht Grace Hopper-Superchips in zwei Knoten mit jeweils vier GPU und soll Mitarbeitende und Anwenderinnen auf den Start von Blue Lion, den LRZ-Supercomputer der nächsten Generation, vorbereiten. Sie ermöglicht Experimente, erste Code-Portierungen und die Einrichtung neuer Workloads. Aufgrund der zunehmenden Komplexität von Supercomputern sowie der rasant steigenden Kosten sind Testsystem und Trainingsphase ausdrücklich Teil der Beschaffung. Die Anfangsinvestition und der Betrieb von Blue Lion belaufen sich auf 250 Millionen Euro und werden vom Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) sowie dem Bayerischen Staatsministerium für Wissenschaft und Kunst (StMWK) finanziert.

Seit April 2025 treffen sich die Spezialisten des LRZ regelmäßig mit dem HPE-Team: „Bei der Vorbereitung stehen drei Themen im Mittelpunkt: Code Porting, Energieeffizienz und Workloads für KI“, erklärt Gerald Mathias, promovierter Biophysiker und Leiter des Computational Support Teams (CXS). „Das Testsystem ermöglicht es uns, uns mit der Funktionsweise vertraut zu machen und administrative Prozesse einzurichten.“ Mit Hilfe der Blue Cubs werde das geplante System an seine Nutzung angepasst und Vorbereitungen für den Betrieb getroffen.

Die Testinstallation Blue Cubs

Blue Cubs – auf deutsch: junge Löwen – nennen die HPC-Spezialistinnen des LRZ die Testinstallation: Sie enthält acht Grace Hopper-Superchips (im Bild) von NVIDIA in zwei Knoten und mit jeweils vier Graphics Processing Units (GPU). So kommt Blue Cubs der Architektur des nächsten Supercomputers Blue Lion sehr nahe: Dieser wird mit der Cray Supercomputing GX5000-Plattform von HPE sowie Vera Rubin-Prozessoren ausgerüstet. 

Grace Hopper-Superchip. Foto: NVIDIA

Während der ISC25 hatte NVIDIA angekündigt, dass Blue Lion neben Supercomputing-Technologie der nächsten Generation von HPE auch Vera Rubin-Technologie enthalten wird. Diese NVIDIA-Chips der nächsten Generation sind auf HPC- und KI-Anwendungen spezialisiert, werden aber erst 2026 verfügbar sein. Aus diesem Grund sind die Blue Cubs mit ähnlichen, bereits verfügbaren Grace Hopper-Chips ausgestattet. „Die Testinstallation ist das bisher beste Äquivalent zu Blue Lion und gibt zumindest einen Eindruck davon, was der nächste Supercomputer bringen wird“, sagt Utz-Uwe Haus, Leiter der HPE Research Labs, wo Systeme für High-Performance Computing (HPC) in Europa, den Nahen Osten und Afrika (EMEA) geplant werden. „Es soll Administratoren und Support-Mitarbeiter damit vertraut machen, was technisch möglich ist."

Dominierte die X86-Architektur von Intel und AMD bislang die Prozessoren, bieten die Chips von ARM und NVIDIA mehr Möglichkeiten: GPU werden besser auf die zentralen Recheneinheiten (CPU) abgestimmt oder sogar in sie integriert. So ermöglicht Blue Lion die Kombination physikalisch-mathematischer und statistischer Modelle für Simulationen. Technik und Nutzung verändern Programmierumgebungen und Workloads. So sollten Teile eines Codes nun dezidiert an CPU, GPU oder Speicher gerichtet werden. Folglich müssen Forschende Teile ihrer Algorithmen und Applikationen um- oder neu schreiben. Um Implementierungsschritte und Funktionsweisen kennenzulernen oder um Optimierungsbedarf zu klären, experimentieren das HPE- und das CXS-Team mit Wissenschaftsprogrammen auf dem Testsystem. „Es dauert eine Weile, bis portierter Code effizient auf einem HPC-System läuft, und oft sind Eingriffe erforderlich“, sagt Haus. „Außerdem sind GPU hungrig nach Energie. Nutzen Forschende diese Prozessoren nicht effizient, verbrennen sie mit Strom auch viel Geld.“

Statt Laufzeit rückt damit im HPC nun die Effizienz in den Fokus und damit die gezielte Steuerung der Hardware. An den Blue Cubs können Systemadministratorinnen nachvollziehen, wie und wann sie später bei Blue Lion etwa die Taktrate eines Prozessors senken, um die Energieaufnahme oder den Kühlungsbedarf zu drosseln. Orientierung bietet dabei das Monitoringsystem DCDB, mit dem das LRZ die Arbeit von Computern und deren Umgebung kontrolliert. „Mit diesen Daten können wir Blue Lion besser einstellen und beobachten, welche Jobs mehr Kühlung benötigen“, sagt Haus. „Das ist neu für unser Team, Jobs und System einmal ohne Code zu analysieren.“ 

Mit diesen Erfahrungen lässt sich auch besser bestimmen, wie viele Knoten von Blue Lion für das Management reserviert werden. Mit Hilfe der Blue Cubs entwickeln die Teams schon Verfahren für die Sicherheit des Systems, zur Einteilung von Aufträgen oder zur Identifizierung von Nutzerinnen: „Wir müssen ausschließen können, dass Blue Lion missbraucht wird, etwa zum Mining für Kryptowährungen“, so Haus.

Nicht zuletzt fließen die Erkenntnisse der Testphase in das künftige Trainings-Programm: „Wir können beobachten, welchen Aufwand die Code-Portierung macht oder wo es Unterstützungsbedarf geben wird“, erklärt Mathias. „CXS-Team und Systemadministratorinnen kennen verschiedene HPC-Systeme, aber wir brauchen ein paar Wochen, bis wir mit einem neuen System umgehen können.“ Danach werden die LRZ- und HPE-Spezialistinnen mit Forschungsgruppen die Blue Cubs weiter ausreizen. Aber das ist eine neue Geschichte. (vs | LRZ)