Zuverlässiges LRZ-Netz

Damit die Zuverlässigkeit seiner Internet- und Maildienste garantiert ist, unterzog  das LRZ die Ausfallsicherheit seiner Router einem Test – und zog dafür den Stecker.

Redundanz1

Doppelte Komponenten: Aus Sicherheitsgründen sind die beiden Hausrouter des LRZ in
verschiedenen Racks und unterschiedlichen Räumen untergebracht. Foto: A. Podo/LRZ

Der Fernzugriff auf Computer, Programme und Datenspeicher laufen darüber, sowieso die Kommunikation zwischen Forschenden und Instituten oder zwischen Studierenden und Dozent:innen, außerdem Recherchen oder gut 1500 gehostete Websites: „Das Netz muss immer funktionieren, das Internet für unsere Nutzer:innen ständig zur Verfügung stehen, auch wenn es in einzelnen Rechnerräumen brennt oder der Strom ausfällt“, sagt Helmut Reiser. Der Informatik-Professor ist stellvertretender Leiter des Leibniz-Rechenzentrums (LRZ) und in dieser Funktion verantwortlich für die Zuverlässigkeit der Technik und Dienste. Am 19. September 2023, um 8.10 Uhr morgens zog Reiser daher die Stecker bei einem der beiden Hausrouter, mit denen sich das LRZ mit dem Internet, dem Münchner Wissenschaftsnetz (MWN) und dem Rest der Welt verbindet.

Redundanztest der Router

Aus Sicherheitsgründen sind diese beiden Geräte nicht nur in unterschiedlichen Racks installiert, sondern auch in verschiedenen Teilen des Rechnerwürfels platziert: „Sie sind außerdem so konzipiert, dass bei Ausfällen der eine den anderen sekundenschnell ersetzt“, erklärt Reiser. „Dazu sind sie außerdem in unterschiedlichen Gebäude- und Brandabschnitten untergebracht.“ Schwelen Kabel in einem Stockwerk, fängt Computertechnik Feuer oder fällt in Teilen des Rechenzentrums der Strom aus, übernimmt der sichere Router sofort die Arbeit des anderen. Ob dieses Redundanz-Konzept funktioniert und damit die LRZ-Online-Dienste zuverlässig erreichbar bleiben, sollte mit dem Ziehen der Stecker endlich bewiesen werden. „Gewöhnlich baut man als IT-Spezialist im Rechenzentrum komplexe Technik für Dienste zusammen und testet diese Konzepte und Konstrukte im Produktivbetrieb aber selten bis nie“, begründet Reiser die Aktion. „Es herrscht das Prinzip Hoffnung – am LRZ wie generell in Rechenzentren. Man glaubt an die Ausfallsicherheit, ohne sie wirklich überprüft zu haben.“ Solche Kontrollen gehören daher zum Maßnahmenpaket für die Service-Zertifizierungen des LRZ.

Die Folgen dieses ersten Redundanztests der Router haben die wenigsten Nutzer:innen bemerkt. Für knapp 10 Sekunden kam es zu kurzen Verzögerungen. Online-Verbindungen lahmten, Mail-Server mussten einige Verbindungen neu aufbauen. Aber die meisten Online- und Webdienste liefen ohne Probleme, die Verlagerung auf nur einen Router war kaum zu spüren: „Nirgends sind die Internetverbindung oder Mails abgesoffen – der Test war erfolgreich“, meint Reiser, und neben Zufriedenheit schwingt auch Erleichterung im Bericht mit. Die Bedenken gegenüber dem Test waren im LRZ hoch, auch weil Technik-Prüfungen Restrisiken für Funktionsstörungen beinhalten. Seit anderthalb Jahren wurde die Kontrolle immer wieder verschoben: „Einige Kolleg:innen befürchteten, dass die älteren Router, die wir bald austauschen werden, nach dem Test nicht mehr richtig oder nur teilweise hochfahren“, ergänzt Reiser. „Aber das dürfen natürlich keine Gründe sein, gar keine Tests zu fahren.“

Fehler im System erkannt

Zumal die Kontrollen erfahrungsgemäß mehr Wissen zutage fördern als geplant: In diesem Fall stießen die LRZ-Spezialist:innen  in zwei von den vier Sicherheitssystemen, mit denen die Router zusammenarbeiten und die – ebenfalls redundant geschaltet – den Internet-Verkehr analysieren, auf zwei nicht einwandfrei funktionierende Rechenknoten. Bei ihnen wurden Fehler behoben und die Internetverbindung manuell hergestellt: „Wir werden in Zukunft weitere Zuverlässigkeitstests oder Planspiele fahren“, plant Reiser unternehmungslustig. Virtuelle Server, die LRZ Cloud oder Dienste wie BayernShare und BayernConfluence sollen ebenfalls zuverlässig sein undd damit getestet. (vs)

Redundanz2

Prof. Dr. Helmut Reiser, stellvertretender Leiter des LRZ, zieht Stecker