Was ist Site Reliability Engineering (SRE)?

Training » Classroom Trainings » Site Reliability Engineering » Was ist SRE?

Was ist Site Reliability Engineering (SRE)?

Training » Classroom Trainings » Site Reliability Engineering » Was ist SRE?

Was ist Site Reliability Engineering?

Die Komplexität und das zunehmende Tempo notwendiger Changes in modernen, groß angelegten Systemen (technisch sowie organisatorisch) zwingen IT Organisationen, neue Best Practices, Methoden, Technologien, Tools und Organisationsstrukturen einzuführen. Ältere Betriebsmodelle sind zwar bewährt, aber in Ihrer Leistungsfähigkeit unzureichend.

Moderne Ansätze wie ITIL 4 betonen die Bedeutung einer schnellen Wertschöpfung und eines schnellen Flusses (Flows), liefern aber kein vollständiges Betriebsmodell, vor allem nicht in der ganzheitlichen Betrachtung der Entwicklungs- und Betriebsaufgaben. Spätestens jetzt wird DevOps als Lösung ins Spiel gebracht. DevOps ist die Bildung multidisziplinärer Teams aus Dev- und Ops-Fachleuten, um die in Silos angesiedelte Entwicklungs- und Betriebsarbeit durch gemeinsame, effiziente Praktiken und Werkzeuge zu ersetzen. Doch mit der praktischen Umsetzung von DevOps tuen sich viele Organisationen sehr schwer. Die Gründe dafür sind nicht etwa technischen Schwierigkeiten bei der Einführung, sondern Management-Probleme. Eine erfolgreiche DevOps-Einführung ist vor allem eine Management- und Mitarbeiter-Aufgabe, die auf Veränderungen der Organisationsstrukturen, der Prozessen, den Gewohnheiten und den Motivationen ausgerichtet sein muss.

Ein vielversprechender Ansatz für die praktische Umsetzung stellt das Site Reliability Engineering (SRE) dar. Der Ursprung des SRE liegt in dem Weltkonzern Google. Zwar wurde und wird die klassische Trennung von Entwicklung und Service-Management (Betrieb) auch bei Google aufrechterhalten, aber man stellte sich zum Thema Service-Management folgende Frage: Wie eng sollten Softwareentwicklung und Betrieb verzahnt werden und welche Regelungsprozesse werden benötigt? Aus dieser Fragestellung und der Umsetzung der Antworten entstand das Site-Reliability-Engineering als ein neues Service Management Operation Modell.

„SRE ist das, was passiert, wenn sie einen Software Ingenieur bitten ein Betriebsteam zu entwerfen“ Zitat Google

Grundsätzlich definiert das Site Reliability Engineering Teamwork für den Betrieb von IT-Systemen. Darüber hinaus gelten im operativen Tagesgeschäft zwei gleichwertige Hauptaufgaben:

  1. Sicherstellung des täglichen Betriebs
  2. Auftretende Störungen gezielt reflektieren und daraus lernen

Was zunächst simpel klingt, setzt sich im Detail aus einem differenzierten Regelwerk mit Vorgaben und Rahmenbedingungen zusammen. In vielen Fällen empfiehlt sich für Unternehmen eine differenziertere Übertragung und die Anpassung auf die eigenen Rahmenbedingungen. Im Vordergrund eines solchen Regelwerks sollten in jedem Fall folgende Aspekte stehen:

  • Umgang mit Risiken
  • Kenngrößen für Qualität im Betriebsalltag
  • Daily Business und Optimierung von Aufgaben (inklusive Automatisierung)
  • Systemüberwachung und relevante Störungen
  • Release-Management

Es gibt wenige Unternehmen, die in IT-Dimensionen wie Google agieren und entsprechenden Anforderungen gerecht werden müssen. Auch sind viele Aspekte des Site Reliability Engineering (zum Beispiel Automatisierung, Werkzeuge, Monitoring) in vielen Unternehmen bereits etabliert. Interessant bleibt der Ansatz klarer Definitionen von Aufgaben und Kapazitäten in Kombination mit einer konkreten Teamorientierung. Das Site-Reliability-Engineering kombiniert geschickt Kompetenzen der Softwareentwicklung und des Betriebs in Teams, die klar der Wertschöpfungsorientierung unterliegen. Oberstes Ziel der Teams ist die Servicequalität aus Sicht des Endkunden. Durch die kontinuierliche Optimierung der Regelabläufe und Automatisierung soll der Fehlerfaktor Mensch minimal klein gehalten werden. Unverzichtbar sind die automatischen Regelprozesse zur Beibehaltung von Qualitätsstandards.

Mit der Einführung von ITIL 4 sowie der steigenden Popularität von DevOps und des Site Reliability Engineering (SRE) stellt sich nun die Frage, wie unterschiedlich und wie ähnlich diese Best Practices sind. Ergänzen sie sich oder stehen sie in direkter Konkurrenz. Die Entwicklung und Verwaltung von Produkten und Services erfordert agile Techniken und Methoden mit dem Schwerpunkt auf der gemeinsamen Wertschöpfung in einer Weise, die Verschwendung (Waste) reduziert. ITIL 4, DevOps und SRE bieten verschiedene Ansätze, die sich gegenseitig ergänzen und nicht ausschließen.

Wirklich spannend ist der individuelle Prozess zur Adaption von Site Reliability Engineering auf die jeweilige Situation im Unternehmen. Den auch hier gilt „Buchtreue ist kein Qualitätskriterium“. Die hier beschriebenen Prinzipien skalieren von Startup bis Tech-Welt-Konzern und sind ergänzend zu den etablierten Best Practices wie ITIL und DevOps. Für den Anfang empfehlen sich kleine Schritte und die Einführung einzelner Artefakte (zum Beispiel der Regelprozess-Fehler-Budgets). Site Reliability Engineering hat auf jeden Fall das Potenzial, dabei zu helfen IT-Organisationen eng an die Wertschöpfung zu knüpfen und damit klar aufzuwerten.

Zu den SRE-Trainings