Die Resilience des Mainframe ist einer der grossen Stärken dieser IBM Plattform. Eine Eigenschaft, die immer wichtiger wird, wenn man in der digitalen Welt bestehen will. Ausfälle sind teuer und können Einfluss haben auf Aktienkurse, den Ruf und das Vertrauen gegenüber einer Firma.
Die IBM hat das früh erkannt und achtet deshalb bereits beim Design von Hardware, Firmware und Software darauf, dass sogenannte „single point of failures“ ausgeschlossen werden – sei das durch Redundanzen, Fehlertoleranzen, präventive Kontrollen oder automatisierte Restart-Möglichkeiten. Die hohe Verfügbarkeit (the 7 nines, 99.99999%) basiert aber nicht alleine auf einzelnen Komponenten, sondern auf der Widerstandsfähigkeit der gesamten Plattform, welche sich aus zusätzlichen Bausteinen zusammensetzt wie zum Beispiel:
- Flexibilität, um den Workload-Anforderungen unabhängig von ihren Kapazitätsanforderungen gerecht zu werden.
- Sicherheit, um sicherzustellen, dass Benutzer nur die Berechtigungen haben, die ihrer Rolle/Funktion entsprechen.
- Automatisierung, sowohl innerhalb als auch ausserhalb des Betriebsystems durch aktives Monitoring von Ereignissen und das Auslösen von Failover Prozeduren ohne menschliche Intervention.
- Integration, um IBM Storagefunktionalität möglichst gut zu nutzen.
Eine detailiertere Sicht aller Resilience relevanter Aspekte der IBM Z können Sie dem IBM Redbook Getting Started with IBM Z Resiliency entnehmen.
Während die obengenannte klassische Widerstandsfähigkeit vor allem auf Ereignisse in der Infrastruktur abzielt, werden zunehmend „menschlich“ bedingte Ereignisse als Risiken wahrgenommen. Das können zum Beispiel Cyberattacken, Datenlecks, korrupte Daten durch fehlerhafte Programme, aber auch versehentliches oder absichtliches Löschen von wichtigen Daten sein. Das Thema Cyber Resiliency ist aufgrund der Vorfälle in den letzten Jahren in vielen Firmen bereits auf der Agenda.
Die Regulationsbehörden der Finanzinstitute in der Europäischen Union und der Schweiz haben aus diesem Grund neue Regulationen veröffentlicht, welche spätestens 2025 in Kraft treten werden. In der EU gilt dann DORA (Digital Operation Resilience Act). Für die Schweiz gelten die Regeln des FINMA Rundschreiben 2023/1: Operationelle Risiken und Resilienz – Banken.
Beide Regulatorien haben die operationelle Resilience im Mittelpunkt. Dabei geht es im Wesentlichen um das Management der operationellen Risiken der ICT (Informations- und Komunikations-Technologie). Das beinhaltet kontinuierliche Identifikation der Risiken, aufsetzen von präventiven Massnahmen sowie das Ausarbeiten von Wiederanlaufverfahren, um die Kontinuität der geschäftskritischen Prozesse zu gewährleisten. Es besteht eine Meldepflicht für wichtige Ereignisse und der Regulator erwartet, dass die Fähigkeiten der operationellen Resilience periodisch überprüft werden auf Lücken und Schwachstellen. Die entsprechenden Resultate müssen ebenso den Behörden gemeldet werden.
Der heutige Mainframe Workload umfasst meist die geschäftskritischen Applikationen und Prozesse. Aus meiner Sicht ist die operationelle Resilience jedoch nicht nur für Banken relevant. In anderen Branchen ist es genau so wichtig die Risiken zu kennen, aber auch vorbereitet zu sein auf solche Ereignisse.
Viele Mainframe Kunden haben das Business Continuity Management (BCM) seit Jahrzehnten institutionalisiert und pflegen und testen ihre Business Continuity Pläne regelmässig. Die neu geforderte operational Resiliency führt zu zuätzlichen Anforderungen an das BCM mit Auswirkungen auf neue Wiederanlaufverfahren. Mit den aktuellen, neuen Risiken werden auch neue Lösungen (wie Safe Guarded Copy oder IBM Cyber Vault) nötig sein, um auf solche Ereignisse reagieren zu können.
Aus aktuellem Grund wird die IBM deshalb die erste zSystems Resiliency Conference vom 20. - 23. Juni in München durchführen. Dieser Event ist eine gute Gelegenheit, sich über die Möglichkeiten bezüglich Resiliency zu informieren und zu diskutieren. Sie soll aber auch eine Plattform sein, um sich mit anderen Kunden auszutauschen.