Neuer Supercomputer für mehr Methoden

SNG2

SuperMUC-NGs Phase 2 ist im Leibniz-Rechenzentrum installiert, wird vor dem Betriebsstart im Frühjahr auf Herz und Nieren getestet und dabei auch mit ersten Anwendungen sowie dem LRZ HPC Software Stack ausgestattet.

 

Nach dem Installieren beginnt nun die Arbeit für Forschende und HPC-Spezialist:innen: In einer Early User Phase implementieren sie die ersten wissenschaftlichen Codes auf SuperMUC-NG Phase 2 (SNG-2), der Ausbaustufe des  Supercomputers am Leibniz-Rechenzentrums (LRZ). Und prüfen außerdem Datenverbindungen oder wie Prozessoren mit Beschleunigern und Speicherkomponenten zusammenarbeiten. „Phase 2 verlangt neue Programmierparadigmen, um Teile der Codes und Workloads auf den GPUs auszuführen. Daher müssen die Programme angepasst und Routinen umprogrammiert werden“, berichtet Dr. Gerald Mathias, Leiter des Computational X Support-Teams (CXS). „Und natürlich wollen wir wissen, was das System kann, wie wir im laufenden Betrieb In- und Output von Daten verbessern können und wie SNG-2 auf Maßnahmen zum Energiesparen reagiert.“

KI ins HPC integrieren

SNG-2 wurde entwickelt, um Berechnungen zu beschleunigen und um in etablierte HPC-Abläufe KI-Methoden zu integrieren, die Forschende immer öfter einsetzen. Seine 240 Rechenknoten, die auf Lenovos ThinkSystem SD650-I V3 Neptune DWC Servern basieren und mit 45 Grad heißem Wasser gekühlt werden, enthalten jeweils zwei Central Processing Units (CPUs – Intel Xeon Platinum 8480+) sowie 4 Graphics Processing Units (Intel Data Centre GPU Ponte Vecchio). Letztere verarbeiten Daten schneller, etwa für klassischen Simulationsaufgaben, sie eignen sich aber auch für hoch skalierbare, rechen- und datenintensive Workloads zum Beispiel für das maschinelle Lernen. Diese Aufgaben unterstützt überdies ein verteiltes, asynchrones Objektspeichersystem (DAOS), das auf Intel Optane  Speichern basiert und den Zugriff auf große Datenmengen beschleunigt. Laut aktueller IOP500-Liste vom November 2023 erreicht SNG-2 eine Leistung von 17,19 PetaFLOP pro Sekunde, was rund 17 Billiarden Fließkommaoperationen entspricht, und liegt damit auf Platz 2 der Produktionssysteme. Seine Leistungen können über das Gauss Centre for Supercomputing (GCS) beantragt werden.

Vor dem offiziellen Betriebsstart im Frühjahr wird das System umfassend getestet und in dieser Early User- oder Pilotphase bereits mit nützlichen Programmierwerkzeugen sowie Anwendungen ausgerüstet: So wurden neben dem allgemeinen HPC-Software-Stack und den Intel One API-Tools in Zusammenarbeit mit dem CXS-Team und Intel-Spezialist:innen bereits die beiden, auf GPU optimierten Astrophysik-Programme OpenGadget und DPEcho sowie Gromacs und Amber, zwei Anwendungen der Molekuklardynamik, zudem die Codes SeisSol (Seismologie) und CP2K (Quantenchemie) implementiert, außerdem praktische Werkzeuge wie das Kokkos-Framework für das Coden von C++-Anwendungen. Im Fokus der Beobachtungen und Analysen stehen die Ansprache der parallelen Prozessoren durch wissenschaftliche Codes, aber auch wie Nutzer schnell auf Daten zugreifen und Rechenergebnisse verwalten können – Funktionalitäten, die im wissenschaftlichen Alltag reibungslos zu erledigen sein sollen.

Neue, andere Prozesse kennenlernen

„Um das Potential der GPUs zu nutzen, spielen die Programmiermodelle OpenMP sowie SYCL, eine Erweiterung von C++, eine große Rolle. OpenMP ist weit verbreitet in akademischen Anwendungen, aber die meisten Anwendungen müssen noch auf SYCL angepasst werden“, berichtet Mathias. Im Forschungsprojekt SeisSol haben sie für diese Aufgabe sogar schon einen Code-Generator entwickelt, der sich nun auf SNG-2 bewähren und vielleicht sogar bei der Anpassung weiterer Forschungscodes helfen kann. Auch der DAOS-Speicher steht in dieser Testphase unter besonderer Beobachtung: Mit Forschenden prüft das LRZ-Team, ob der Zugriff aus verschiedenen Applikationen und Programmen problemlos funktioniert und alle Container-Typen angesprochen werden können. Neben diesen Aufgaben experimentieren sie am LRZ außerdem mit neuen Workflows für Methoden der Künstlichen Intelligenz (KI). Zusätzlich zum HPC-Tool-Set werden schrittweise auch KI Frameworks installiert, mit denen sich dann KI-Modelle mit großen Datenmengen trainieren oder Muster in Simulationsdaten erkennen lassen. Schon im Vorfeld hat sich das CXS-Team mit Datenspezialist:innen verstärkt.

Traditionell werden die Hochleistungsrechner des LRZ von Anwender:innen aus unterschiedlichsten Wissenschaftsdisziplinen genutzt, jetzt erwartet das CXS-Team zudem noch Daten-Expert:innen der Fachdisziplinen. Um Forschenden die Möglichkeiten von SNG-2 sowie die Abläufe für die Kombination von klassischen Berechnungen mit KI-Methoden näher zu bringen, sind darüberhinaus Workshops und Seminare in Planung. Schon in den letzten Jahren ist das Kursprogramm des LRZ um Themen rund um KI, Machine und Deep Learning gewachsen, jetzt stellen Mathias und seine Kolleg:innen mit Intel einen Hackathon zur Optimierung von HPC-Codes zusammen, außerdem weitere Workshops zu KI-Verfahren am SNG-2 sowie die Optimierung von Codes auf die neue Systemarchitektur. „Diese Pilotphase mit Forschenden ist dieses Mal besonders intensiv und spannend“, sagt Mathias. „Vieles ist neu und anders – wir lernen gerade alle enorm dazu.“ Von diesen Erfahrungen werden alle Forschende nach dem Betriebsstart profitieren, denn das CXS-Team begleitet deren Projekte und berät sie bei allen möglichen Aufgaben rund um die Implementierung von Codes. (vs)