Das Display zeigt bunte Wellen, die sich von links nach rechts bewegen: ein Hinweis darauf, dass hinter der farbigen Dekoration allerneueste Technik rechnet. Die photonisch-analogen Beschleuniger von Q.ANT – das Startup nennt sie Native Processing Units (NPU) – verwenden Laserlicht, das Fotodetektoren wiederum in digitale, elektrische Impulse umwandeln, wenn Ergebnisse von anderen Komponenten eines Computersystems weiterverarbeitet werden sollen. „Wir haben die ersten beiden Generationen dieser Q.ANT-Chips evaluiert und ihre Leistung sowie die Einsatzmöglichkeiten in Rechenzentren, für Methoden der Künstlichen Intelligenz und des High-Performance Computings verglichen“, sagt Josef Weidendorfer, promovierter Informatiker und Leiter des Forschungsteams „Future Computing“ am Leibniz-Rechenzentrum (LRZ). „Prinzipiell sind sie eine vielversprechende Technologie, mit der die Energieeffizienz in Rechenzentren insbesondere beim Training und bei der Interferenz von KI-Anwendungen erheblich gesteigert werden kann.“
Photonische Acceleratoren versprechen einerseits Lösungen für den rasant steigenden Energiehunger von KI-Clustern sowie einen Leistungszuwachs bei Berechnungen wie etwa Matrix-Vektor-Multiplikationen oder nicht-linearen Gleichungen, die im High-Performance Computing (HPC) weit verbreitet sind. Q.ANT stieß auf der Suche nach neuen Computertechnologien auf die Rechenkraft des Lichts. 2018 gegründet verfügt das Stuttgarter Startup heute über Fertigungskapazitäten für Kleinserien seiner innovativen Co-Prozessoren – eine Voraussetzung, sie von potenziellen Anwenderinnen testen zu lassen. Dazu finanzierte das Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) einen Forschungskauf, damit das LRZ auch das Potenzial des photonischen Computings für Wissenschaft und Unternehmen ausloten konnte.
Q.ANT liefert seine analog-photonischen Chips als Steck-Karten (PCI) für das Mainboard von Computern und zurzeit in eigenen Servern aus. „Die Co-Prozessoren können nicht alle Rechenoperationen mit Licht ausführen“, erläutert der LRZ-Forscher und promovierte Informatiker Ehab Saleh, „folglich ist ein kontinuierlicher Datenaustausch zwischen photonischen und klassischen Recheneinheiten nötig. Deshalb integrieren die Karten auch sogenannte komplementäre Metall-Oxid-Halbleiter-Technologie oder CMOS.“ Im Paket enthalten sind außerdem eine Funktions- und Softwarebibliothek: „Man muss dabei nicht wissen, wie der Beschleuniger genau funktioniert“, so Saleh weiter. „Anwenderinnen können Bibliotheksfunktionen in ihre C-, C++-, Python- oder Rust-Anwendungen einfügen. Diese abstrahieren dann die Details der Low-Level-Kommunikation zwischen beiden Technologien, etwa die Initialisierung und Freigabe der Beschleuniger, den Datentransfer oder den Zugriff auf unterstützende Dienste.“
Während aktuelle Graphics Processing Units (GPU) bis zu 1000 Watt Strom aufnehmen, benötigen die Q.ANT-Systeme aus Server und Karte 350 bis 420 Watt, die Karten selbst nur 25 und 100 Watt. Für die Tests am LRZ wurden jeweils drei Server mit Karten der ersten beiden Generationen angeschafft, um neben der Leistung auch die Parallelisierung photonischer Knoten zu evaluieren. Steckte in den Geräten der ersten Generation jeweils eine PCI-Karte, waren die Nachfolger schon mit jeweils drei bestückt – eine erste Maßnahme zur Leistungssteigerung. Neben verschiedenen Berechnungen wurden die Prozessoren mit typischen KI-Aufgaben wie Muster- und Bilderkennung sowie dem Training und der Interferenz von kleineren, neuronalen Netzen (MNIST, ReSet) konfrontiert und dabei Metriken wie Arbeitslast, Ausführungszeit, Leistung, Energieverbrauch, Fehlerquoten. Prognosesicherheit oder Trainingsverluste gemessen.
Die Ergebnisse stimmen zuversichtlich: Führte das optische Element der ersten Generation rund 100 Millionen Operationen pro Sekunde (MOp/s) aus, schafften die Einheiten des Nachfolgers 500 Millionen MOp/s pro Kanal: Q.ANT hatte auf den neueren Karten gleich acht optische Kanäle und Laser untergebracht. Insgesamt ergibt sich daraus pro Karte eine Rechenleistung von vier Billionen Operationen pro Sekunde oder vier GOp/s. „Im besten Fall rechneten die Chips der zweiten Generation um den Faktor 50 schneller“, beschreibt Weidendorfer Folgen. Ein so genanntes Convolutional Neural Network beschleunigte durch diese Optimierung die Bilderkennung um den Faktor 25.
Die LRZ-Forscher vermuten, dass sich zukünftige Entwicklungsstufen der photonischen Elemente wahrscheinlich auf das Frequenz‑ und Lastmanagement konzentrieren. Noch arbeitet der Prozessor der zweiten Generation mit einer Frequenz von zwei Gigahertz, aber diese könnte auf bis zu 100 Gigahertz und mehr steigen, sofern die Elektronik der aufnehmenden Computersysteme diese Erhöhung unterstützen. Außerdem könnten auf den Karten durchaus Tausende oder gar Zehntausende optische Einheiten Platz finden: „Allein daran sieht man, wie hoch die Skalierungsmöglichkeiten im photonischen Computing sind.“ Zumal auch die Nutzung von verschiedenen Wellenlängen des Lichts die Rechenleistung weiterwachsen könnte und Anwenderinnen zusätzlich die Zahl der PCI-Karten erhöhen könnten.
Dabei geht der Leistungszuwachs nicht zulasten der Energieeffizienz. Bei typischen HPC-Workloads sank – je nach Komplexität der Rechenläufe – der Strombedarf von Generation 1 zu 2 um rund 50 bis 84 Prozent. „Die Energieeffizienz ist dann am höchsten, wenn möglichst lang auf der optischen Einheit gerechnet wird“, stellt Weidendorfer fest. „Andernfalls sollten die verschiedenen Komponenten auf dem Chip möglichst nahe beieinander platziert sein, damit für den Datentransfer möglichst wenig Energie gebraucht wird.“
Ähnlich wie GPU rechnen die analog-photonischen Co-Prozessoren nicht mit genauester Präzision: Sie wandeln digitale und analoge Daten mit einer Genauigkeit von 16 Bit um, allerdings muss dabei Rauschen berücksichtigt werden, das die Fotodetektoren verursachen. „KI-Anwendungen funktionieren mit einer niedrigeren Auflösung, deshalb eignet sich das analog-photonische Computing besonders gut dafür“, stellt Saleh fest. Am LRZ gehen sie davon aus, dass die Q.ANT-Chips bereits nach ein, zwei weiteren Entwicklungsstufen einsatzbereit für ihren Dienst in den KI-Clustern von Rechenzentren sind und dort Energieeffizienz wie Performance beträchtlich steigern können. „Mit dem Prozessor kann auch höhere Genauigkeit nachgebildet und Supercomputing beschleunigt werden“, sind sich Weidendorfer und Saleh einig. Für präzisere Ergebnisse müssten komplexere Aufgaben wie beim Kopfrechnen in mehrere Berechnungen aber unterteilt werden – das fordert weitere und komplexere Erweiterungen der mitgelieferten Softwaretools. Zielführend für die Weiterentwicklung des photonischen Computings wäre es, wenn sich um diese Technologie eine vielfältigere Programmierumgebung mit umfangreichen Bibliotheken, Sprachen und mehr Software entwickelt: „Für die Evaluierung nächster Generationen wäre es interessant", ergänzen die Forschernden, "mit echten Anwendungsprogrammen zu arbeiten und diese für die photonischen Prozessoren zu optimieren. So könnte man feststellen, wo die Funktionsbibliothek angepasst und ergänzt werden muss.“ (vs | LRZ)