Ein flexibles Framework zur Energie- und Performanceanalyse hochparalleler Applikationen im Rechenzentrum (FEPA)

Fepa Logo

Das Ziel von FEPA ist die Realisierung einer Monitoringssoftware zur systematischen Effizienzanalyse von Applikationen in Abhängigkeit von den Charakteristiken großer HPC-Systemen. Neben der gezielten Optimierung bezüglich Performance und Energieverbrauch von Applikationen sollen im Projekt Erkenntnisse gewonnen werden, die eine Senkung des Energieverbrauchs durch angepasste Ausführungs-Modalitäten (Frequenzanpassung, Nutzung weniger Kerne/Sockel, etc.) bei vertretbaren Laufzeit-Zugeständnissen ermöglichen. Die Voraussetzungen dazu bilden unter anderem die entwickelten Monitoring-Systeme aus den Vorgängerprojekten ISAR und TIMaCS und entwicklen ein integriertes Monitoring Tool. Ein weiteres Ziel des FEPA-Projekts ist die Umsetzung eines PerformanceEngineering-Prozesses. Im Rahmen dieses Projektes soll u.a. das am LRZ eingesetzte Monitoring-Tool „PerSyst“ weiterentwickelt werden..

Der Energieverbrauch eines HPC-Systems hängt von der Kühlungsinfrastruktur, sowie von den Eigenschaften der genutzten Applikationen (z. B. Art und Intensität der Nutzung von Instruktionen, Caches und Hauptspeicher) ab. Für eine kombinierte Performance- und Energieverbrauch -Optimierung der Applikationen müssen deren Entwickler Hintergrundwissen über die verwendeten Architekturen und Möglichkeiten der Energieoptimierung erwerben und anwenden. Um die Anwender bei diesen Optimierung zu unterstützen und allgemein die Energie- und Performance-Effizienz des HPC-Systems zu verbessern, benötigen Rechenzentren (wie das LRZ) geeignete Monitoring-Systeme, die den Administratoren, Benutzern und den Mitarbeitern der Applikationsunterstützung jeweils die nötigen Informationen liefern.

Das im LRZ eingesetzte Monitoring-Tool PerSyst realisiert eine systemweite Performance-Überwachung und korreliert deren Ergebnisse mit den auf dem HPC-System laufenden Applikationen. Die gewonnenen PerSyst-Daten sind durch eine Weboberfläche, die am LRZ entwickelt wurde, zugänglich.

Highlights

Roll-Out der GUI für die Visualisierung der Performance Daten.
Konzeption und Implementierung sogenannter Strategy-Maps für die automatische Analyse

Konferenzen & Veranstaltungen

Energy Days Workshop, “Energy Aware Scheduling” Januar 2014, Garching bei München, Deutschland.

Supercomputing 2014, “The PerSyst Tool”, LRZ Messestand-Vortrag. November 2014, New Orleans, USA.

Energie-Seminar 2014, “Wissenschaft pro Joule” im Rechenzentrum, LRZ

4. HPC-Status-Konferenz der Gauß-Allianz, 2014, Aachen

Publikationen

Knowledge-based Performance Monitoring for Large Scale HPC Architectures; Dissertation C. Guillen Carias; 2015; http://mediatum.ub.tum.de?id=1237547

A flexible Framework for Energy and Performance Analysis of highly parallel Applications in a Supercomputing Centre, inSiDE Magazin, Vol. 11 No. 2, Autumn 2013

C. Guillen Carias, W. Hesse, M. Brehm: The PerSyst Monitoring Tool. A transport system for performance data using quantiles; Euro-Par 2014: Parallel Processing Workshops, Vol. 8806 of the series Lecture Notes in Computer Science pp 363-374, DOI: 10.1007/978-3-319-14313-2_31

Steckbrief

Projektlaufzeit

1.7.2013 – 30.6.2016

Kontaktperson

Dr. Matthias Brehm

Förderorganisation

BMBF (Call: HPC-Software für skalierbare Parallelrechner)

Partnerinstitutionen

  • Friedrich-Alexander-Universität 
  • Leibniz-Rechenzentrum 
  • NEC Deutschland GmbH