Den Ernstfall testen

reboot

„Schwankungen im Stromnetz haben die Energieversorgung in ganz Pakistan lahmgelegt“, vermeldete die Tagesschau am 23. Januar diesen Jahres. Just an diesem Tag saßen am Leibniz-Rechenzentrum (LRZ) 24 IT-Spezialist:innen aus allen Abteilungen zusammen, um diesen Ernstfall einmal durchzuspielen: Blackout in weiten Teilen Europas, nichts geht mehr in Deutschland und bei seinen Nachbarn. Kein Strom mehr, folglich liegen die Computer- und technischen Ressourcen am LRZ, Hochleistungs- wie Speichersysteme, Netze, Kühltechnik und Kommunikationsverbindungen still. Wie aber kommen sie in den Betrieb zurück, wenn die Energie wieder fließt? „Wahrscheinlich würde es im besten Fall zwei, drei Tage dauern, bis erste Basisservices wieder funktionieren“, schätzt Stephan Peinkofer, Leiter der Gruppe Data Science Storage Infrastructures (DSI) am LRZ und Organisator des Planspiels „Disaster Recovery and Business Continuity“. „Bis zur vollen Funktionstüchtigkeit bräuchten wir sicher Wochen, wenn nicht sogar Monate, denn sicher werden wir auch Ersatzteile besorgen, Komponenten und Festplatten austauschen, Backups wiederherstellen müssen. Bei einem Stromausfall geht ja Einiges kaputt.“

Nachdenken, diskutieren, Prozesse entwickeln

Solche Planspiele stehen im Pflichtenheft von Unternehmen und Organisationen, die sich wie das LRZ in Sachen Informationssicherheit und Servicequalität zertifizieren lassen. Sie bringen wichtige Erkenntnisse über Abläufe, außerdem die Sicherheit, dass im Team selbst größte Notfälle zu bewältigen sind. Und sie machen durchaus Spaß: „Wir haben lebhaft über spannende Inhalte diskutiert, oft auch gelacht, die Motivation und Konzentration aller Teilnehmenden war sehr hoch“, erzählt Peinkofer. „Es gab viele überraschende Details zu bedenken, ich hatte mir zum Beispiel nicht vorgestellt, wie viel beim Hochfahren vom Gebäudemanagement abhängt und wie stark alle Abteilungen in so einem Fall in einander greifen müssen. Spannend.“

Einen Tag lang diskutierten die Expert:innen die Maßnahmen, die im Ernstfall zu treffen sind. Oft genug stehen dann Fragen im Raum, die sich vorher niemand gestellt hat: Wie ist eigentlich der Zugang ins Rechnergebäude möglich, das elektronisch gesichert ist? Beim Planspiel hätte die Feuerwehr gerufen werden müssen, um Türen zu öffnen. „Viel wichtiger ist allerdings, dass wir Computertechnik und Infrastruktur nach einem Stromausfall kontrolliert wieder hochfahren. Das schont die Technik. Dazu müssten wir aber die Hauptschalter ausschalten können, bevor der Strom wieder kommt“, wirft Peinkofer ein weiteres Problem auf. Schwer zu planen, das müsste erledigt werden, bevor das LRZ geschlossen ist. Werden nach einem großflächigen Blackout zudem die Stromlieferungen zunächst begrenzt, müsste entschieden werden, ob die Batterien, mit denen das LRZ normalerweise die unterbrechungsfreie Stromversorgung und die Zuverlässigkeit der IT-Services gewährleistet, abgekoppelt werden. Sie würden sich ja sofort aufladen, viel Strom ziehen und damit möglicherweise den Start wichtiger Infrastruktur verzögern. Andererseits wäre das LRZ im Falle weiterer Stromschwankungen ungeschützt; ist es auch noch kalt, müssten die Rechnerräume vor dem Einschalten der Computer mit Heizlüftern auf Temperatur gebracht werden.

Die Reihenfolge ist wichtig

Maßnahme, Nachdenken, Diskutieren, Lösungen finden: Schritt für Schritt erarbeiteten die LRZ-Expert:innen an einem Arbeitstag die Reihenfolge, wann welcher Dienst wieder angefahren wird. Netze, Geräte fürs Management von Strom, dann die Computer für die Basis-IT-Dienste, zu denen vor allem Kommunikationstools, Internet und der LRZ Cloud-Speicher gehören. „Um die richtige Reihenfolge aufzubauen, ist es wichtig, dass beim Planspiel die Leute vom Gebäudemanagement und von unterschiedlichen Abteilungen und Arbeitsgruppen mitmachen. Sie stellen die richtigen Fragen“, erklärt Organisator Peinkofer. „Ich hatte anfangs Bedenken, dass es durcheinander geht, aber als wir dann zusammensaßen, lief es sehr konstruktiv, strukturiert und konzentriert ab.“ Nebenbei entstand eine Liste von rund 20 Aufgaben oder offenen Fragen wie etwa der Zugang zum Rechnergebäude, die nach unterschiedlichen Dringlichkeitsstufen nun neu bedacht und geregelt werden können.

Planspiele sind gar nicht aufwändig, ist noch eine Erfahrung der Arbeitsgruppe: Papier und Stifte helfen, vor allem aber Moderation und Protokoll. Mit Hilfe des Protokolls führt die Spielleitung die Teilnehmenden zum eigentlichen Thema zurück, wenn die Diskussion abschweift oder sich in Detailfragen verliert. „Wir alle waren in Zeitfragen zu optimistisch, aber Hauptsache ist doch, wir haben das einmal durchgespielt“, meint Peinkofer. „Das Planspiel hat gut funktioniert, wir müssen mit dem Risiko eines Blackouts leben, aber wir sind gerüstet, kennen die Prozesse und die wichtigen Treiber der Wiederherstellung unserer Dienste.“ Schöner Nebeneffekt: Der Wiedereinschaltplan, der für die Zertifizierungen des LRZ entwickelt wurde, hat sich spielerisch bestätigt. Nur die Reihenfolge mancher Maßnahmen hat sich verändert. (vs)