Da ist Adrenalin im Call - T-Systems

Die Seite wird erstellt Silas Bischoff
 
WEITER LESEN
Da ist Adrenalin im Call - T-Systems
Da ist Adrenalin
                      im Call.
                      IM FALL EINES IT-INCIDENT ZÄHLT FÜR DEN KUNDEN
                      JEDE MINUTE. FÜR DIE SCHNELLSTMÖGLICHE BEHEBUNG
                      VON STÖRUNGEN UND DIE ZUVERLÄSSIGE IDENTIFI -
                      KATION DER URSACHEN STELLT T-SYSTEMS IHR GANZ-
                      HEITLICHES QUALITÄTSMANAGEMENT REGELMÄSSIG
                      AUF DEN PRÜFSTAND. IN MEHR ALS 500 „FIRE DRILLS“
                      (ERNSTFALL-SIMULATIONEN) JÄHRLICH TESTET DIE
                      TELEKOM-TOCHTER DAZU DAS ZUSAMMENSPIEL IHRER
                      MITARBEITER, PARTNER, PROZESSE UND PLATTFORMEN
                      SOWIE DIE DAHINTERLIEGENDE LOGIK. SICHTBAR MACHT
                      DAS ERGEBNIS STÄNDIGER ÜBUNG EIN BLICK AUF DAS
                      INCIDENT MANAGEMENT. DOCH OB REAL ODER WIRKLICH-
                      KEITSNAH, IST DABEI KAUM MEHR ZU UNTERSCHEIDEN.
                       Klaus Rathje
Foto: Thorsten Futh
Da ist Adrenalin im Call - T-Systems
SCHWERPUNKT               Digitalisierung
— 25                        Quality Management

  QUALITÄT MANAGEN – ERFOLGE SICHERN.
  Das ganzheitliche Qualitätsprogramm Zero Outage gewährleistet Kunden maximale Zuverlässigkeit in IT-Betrieb und Transitions-/
  Transformationsprojekten: kontinuierliche Überprüfung und Feinjustierung sämtlicher Leistungen und Systeme; permanente Weiterent-
  wicklung von Prozessschritten. Ein definiertes 3-P-Konzept (Processes – People – Platforms) treibt Qualitätsmaßnahmen in alle Unter-
  nehmensebenen. Einheitlicher und einziger Maßstab: bestes Ergebnis für den Kunden.

                                INCIDENT
                               MANAGEMENT
                                                                            PEOPLE

                                                         PROCESSES                        PLATFORM

       DAS EINHALTEN KLAR DEFINIERTER                      DER MENSCH IM FOKUS – ZERO-OUTAGE-                 DIE TECHNISCH EINWANDFREIE UMSET-
       PROZESSE BESCHLEUNIGT DIE TRANSPA-                  KULTUR DURCH (WEITER-)BILDUNG,                     ZUNG IST EIN WESENTLICHER ERFOLGS-
       RENZ DER ERGEBNISSE UND ERMÖGLICHT                  VERHALTEN UND VERANTWORTUNG.                       FAKTOR.
       JEDERZEIT EINE SCHNELLE (RE-)AKTION.
                                                           QUALITY ACADEMY                                    HOCHVERFÜGBARE IT
       DISZIPLIN                                           Die interne Trainings- und Portfolioplattform      Stabile, redundant-ausfallsichere IT-Infrastruk-
       Regelmäßige Incident-Übungen trainieren Re-         „Quality Academy“ zertifiziert befristet mehr      turen sorgen für hochverfügbare Systemland-
       aktionsgeschwindigkeit und Notfallabläufe,          als 21 000 Mitarbeiter, verankert die Zero-        schaften – Stichwort: TwinCore-Rechenzen-
       überprüfen Disziplin und Prozesstreue interner      Outage-Kultur und Process Compliance bei           tren. Umfassendes Monitoring und regelmäßige
       Einheiten und Partner. Wöchentliche Ergebnis-       jedem Einzelnen jährlich neu.                      Präventivtests aller Komponenten decken Über-
       berichte münden in konkrete Verbesserungs-                                                             lastungen oder Defekte auf.
       maßnahmen.                                          TOPMANAGEMENT-ATTENTION
                                                           Wöchentliche Reviews involvieren die Füh-          SUPPLIER-ZERTIFIZIERUNG
       VIER-AUGEN-PRINZIP                                  rungsspitze in sämtliche Prozesse, kritische       Ausweitung der Zero-Outage-Zertifizierung
       Striktes Vier-Augen-Prinzip bei kritischen The-     Projekte oder Betriebsstörungen und sichern        auf Lieferanten sichert bei Incident-, Problem-
       men gewährleistet Fehlerausschluss und Quali-       so wettbewerbsdifferenzierende Topmanage-          und Change-Management maximale IT-Ver-
                                                           ment-Attention für a) schnelle Entscheidungs-      fügbarkeit Ende-zu-Ende.
       tätskontrolle.
                                                           fähigkeit durch konzernweite Einbindung des
                                                           Topmanagements inklusive Geschäftsführer
                                                           bei Major Incidents, b) die Einhaltung aller we-
                                                           sentlichen Qualitätskennzahlen (KPI) und c)
                                                           die Umsetzung konkreter Verbesserungsmaß-
                                                           nahmen.

                                                           AKTIVE KUNDENKOMMUNIKATION
                                                           Serviceschnittstelle bündelt die Kundenrück-
                                                           meldung zur Ablaufoptimierung und hohen
                                                           Prozesskorrespondenz mit den Geschäfts-
                                                           erfordernissen der Unternehmen.
Da ist Adrenalin im Call - T-Systems
Das sieht nicht gut    WER BEREITSCHAFT HAT, MUSS JEDERZEIT EINSATZBEREIT                     SINGAPUR, 16:57 UHR:
aus – die Erstbeur-    SEIN. So musste auch Steffen Germersdorf an einem der Feiertage        STILLSTAND FÜR 60 000 USER
teilung des GLIM       im Mai „immer damit rechnen“, dass das „rote Telefon“ bei ihm klin-    „Major incident – outage of WAN network in APAC“. Genau
entscheidet, welche    gelt. Der 31-Jährige ist eine der Stimmen des Global MoD Service,      20 Minuten „nach Alarm“ bleiben Germersdorf, um den „1st
Spezialisten Steffen   des internationalen Serviceteams von T-Systems, das sich um kriti-     combined technician management call“ mit allen beteiligten
Germersdorf beim       sche IT-Ausfälle der Kunden kümmert. Dann koordinieren die Global      Fraktionen aufzusetzen. Dem Service, der Delivery, der Technik
Incident Manage-       Lead Incident Manager (GLIM) einen weltweiten Pool von 1000 Kol-       zum Beispiel. Fortan steuert er sämtliche Deeskalationsmaßnah-
ment hinzuholt.        legen in verschiedenen „Rollen“, die T-Systems mit ihrer Expertise     men, hat die Einsatzverantwortung auf den Schultern und den
                       24 Stunden am Tag vorhalten kann, und pro Woche einen Kern             Zeitdruck im Nacken. Von der ersten Sekunde an. Dafür stellt
                       von 140 Mitarbeitern, die als Manager-on-Duty (MoD) weltweit im        ihm jede potenziell betroffene Abteilung sofort einen MoD
                       Einsatz sind.                                                          zur Incident-Behebung an die Seite.
                                                                                                   Die Schadensbeschreibung des Global Incident Control
                       BERLIN, 10:57 UHR:                                                     Center, das den Notruf des Kunden angenommen hat, macht
                       JOBWECHSEL IM HOMEOFFICE                                               schnell klar: Hier geht’s um etwas Großes. „Und vom ersten Mo-
                       Im Grunde sei sein Job so ähnlich wie bei der Feuerwehr. „Manch-       ment an ist Adrenalin im Call“, versichert Germersdorf: „WAN
                       mal passiert tatsächlich nichts während einer Schicht, aber sobald     connection provided in Asia Pacific area is fully disrupted. Pro-
                       ein Brand ausbricht, müssen alle sofort hellwach und präsent           duction of customer in the region of APAC is disturbed, affecting
                       sein.“ Nur dass Germersdorfs zu löschende Feuer, um im Bild zu         approximately 60 000 users.“ Stillstand für 60 000 Mitarbeiter ist
                       bleiben, in seiner Sprache „Incidents“ heißen, Vorfälle. „Als global   aus Kundensicht ein Desaster. Und „Kundensicht ist immer unse-
                       agierender ICT-Dienstleister mit Kunden sind wir auf zwei oder drei    re Sicht!“ Nicht nur bei der fachlichen Beurteilung eines Incident,
                       kritische Situationen pro Schicht eingerichtet.“ Dann ist es seine     aber in Hinblick auf den „pressure“, den der Vorfall für ein Unter-
                       Aufgabe als Koordinator, schnellstmöglich den richtigen Lösch-         nehmen auslöst. Kein Wunder: Von einem halben Dutzend sofort
                       spezialisten zu aktivieren. In diesem Augenblick, an einem Feier-      eröffneter Tickets informiert Nr. 8760047 über den „real impact“:
                       tag im Mai zum Beispiel. Der Notruf erreicht den Berliner zu Hause     „E-mail communication, web-traffic, financial processes, supply
                       – mit Pizza in der Hand auf dem Weg zum Backofen. Doch noch            chain, operational processes, HR and production processes are
                       bevor der Global Lead Incident Manager sein Arbeitszimmer er-          all affected.“
                       reicht, ist er per Telefon bereits informiert, „wo’s brennt“ – sechs
                       Zeitzonen vor Deutschland.
Da ist Adrenalin im Call - T-Systems
SCHWERPUNKT          Digitalisierung
                       — 27                   Quality Management

                                     INCIDENT MANAGEMENT
                         General Topics:PROCESS        Changes before Inci-
                         dent: under clarification Lead of tech-
                            Jeder einzelne
                         nician      telco:  Schritt  im Incident
                                                  Busch,          Management
                                                               Rocco             folgt
                                                                             Customer
                            festgelegten, vom TÜVEstablished
                         Communication:                 Rheinland zertifizierten
                                                                            -     Pro-
                                                                                  Große
                            zessabläufen und
                         Scharmann,            wird vonEngineering
                                          Regina         den weltweiten Teams   bis zu
                                                                           involved:
                         No 500-mal
                              Triggerim Jahrof
                                             trainiert.
                                                  events [CET] 2015-03-05
                         13:03 Start of the incident (detected
                         by monitoring: no) 2015-03-05 14:57
                         etts ticket Incidentopened based   occurs on monitoring          BERLIN, 11:22 UHR:                                                     Fortlaufend
                         alert 2015-03-05 15:17 CBI: High - in                            TEAM-BUILDING IN REKORDGESCHWINDIGKEIT                                 erhält der Lead
                         the ticket 2015-03-05 15:21 Customer                             Bei „größeren Lagen“, also potenziell kritischen oder vom Kun-         Incident Manager
                         called and informed - whole APAC region                          den als kritisch eingestuften Incidents, kommen so schnell mal         Statusmeldungen
                         has an outage 2015-03-05 15:24 PO su-                            mehr als 20 Fachleute in diese Expertentelefonkonferenz, die ab        der eingesetzten
                         pervisor contacted 2015-03-05 16:56 MoD                          jetzt die durchgehende Kommunikationsader zwischen allen               Techniker.
                         service involved 2015-03-05 16:57 L0                             Parteien darstellt. Die sind mitunter auf der ganzen Welt verteilt,
                         level of escalation to supplier PCCW                             und ihren Einsatz koordiniert der Global Lead Incident Manager
                         2015-03-05 17:20 Combined Management /                           im virtuellen War Room. Das betrifft nicht nur T-Systems‘ interne
                         Technical Open  callincident           ticket
                                                   opened 2015-03-05              17:23   Kollegen, auch Managementvertreter von potenziell beteiligten
                         L1 level of escalation to supplier PCCW                          Herstellern wie Cisco, Microsoft, VMware, SAP, F5 oder Juniper.
                         2015-03-05 17:30 Customer call 2015-03-                          Bei besonders kniffligen Situationen wird zusätzlich sofort ein
                         05 17:39 management escalation to sup-                           Mitglied der T-Systems-Geschäftsführung hinzugezogen, denn
                         plier PCCW initiated 2015-03-05 17:55                            kritische Ausfälle sind bei der Telekom-Tochter automatisch
                         supplier PCCW joined the call 2015-03-                           „Chefsache“. Dass Germersdorf und das Team direkten Zugriff
                         05 18:57 eCrIDS C3644 opened 2015-03-05                          auf die Daten der Technologiepartner haben und dort sofort An-
                         19:00 Customer call                  2015-03-05 19:00            sprechpartner bereitstehen, spart wertvolle Zeit. In der Incident-
                         Customer services  Verify are   customer
                                                              up and running -            Sprache: meantime to repair. Die fixiert für jeden möglichen Inci-
                         technical end     business         impact 2015-03-05
                                                   of incident                            dent die laut SLA verabredete maximale Reparaturdauer.
                         20:34 Customer confirmation given 2015-                                Sein „Call“ ist dabei das zentrale Instrument für die weltwei-
                         03-05 22:30 Management call 2015-03-06                           te Zusammenarbeit. Er bleibt fortan permanent bestehen, alle
                         09:30 1st safeguarding call 2015-03-06                           30 Minuten gibt es ein Status-Update. Bis irgendwann später
                         15:00 2nd safeguarding call 2015-03-06                           endlich die Nachricht kommt, deren Eintreffen jeder einzelne Be-
                         16:50 final safeguarding call Previous                           teiligte mit seinem individuellen „know-how and talent“ betreibt:
                         status as of: 2015-03-06 00:51 [CET]                             Customer services are up and running (technical end of the inci-
                         Customer services are up and running,                            dent). Bis dahin, wiederholt Germersdorf, „bleibt der Call, denn ein
                         customer confirmation is given. Safegu-                          Verantwortungs-Pingpong untereinander ist das Letzte, was wir in
                         arding was defined (monitoring, alarming                         so einer Situation brauchen“.
                         chain defined). Rootcause analysis with                                Die Abläufe folgen einem festgelegten (und auch vom TÜV
                         supplier is ongoing Situation most pro-                          Rheinland zertifizierten) Prozess und sind von jedem MoD ein-
                                    Start Incident
                         bably caused          by loops procedure
                                                               in rooting confi-          studiert und vielfach erprobt. „Training schärft die Sinne“, sagt
                         guration For further analysis involve-                           Germersdorf. Unter der Bezeichnung „Fire Drills“ laufen bei
                         ment of network architect necessary                              T-Systems jährlich mehr als 500 Incident-Übungen ab – über die
                         PCCW committed to support for whole du-                          komplette Organisation. Von der Telefonannahme bis zum Exe-
                         ration of safeguarding Previous status                           cutive. Und auch hier gilt: „Ob sich einer zu Hause gerade ein
                         as of: 2015-03-05 21:19 [CET] Customer                           Brötchen schmiert oder mit der Familie unterm Weihnachtsbaum
                         services are up and running, customer                            sitzt – wer Bereitschaft hat, lässt alles stehen und liegen, um so-
                         confirmation is given. Safeguarding has                          fort zu reagieren.“ Das heißt zunächst einmal, sprechfähig zu
                         been defined (monitoring, alarming chain                         sein, gegenüber dem Kunden, seinem Accounter und den Tech-
                         defined). Rootcause analysis with sup-                           nikern, die es zu steuern gilt. „Sprechfähig“ ist laut Germersdorf
Fotos: Thorsten Futh

                         plier is ongoing Previous status as of:                          „der erste Schritte zur Deeskalation“. Schnell, strukturiert nach
                         2015-03-05 19:22 [CET] Production of                             definierten Prozessketten und klaren KPIs, mit denen sich der
                         +++++ in the region of APAC is distur-                           Erfolg – oder Misserfolg – jeder eingeleiteten Maßnahme sofort
                         bed, +++++ngency is nearly in the end                            kontrollieren lässt.
                         (60 000 employees are affected). WAN
                         connection in the area of APAC is fully
13:03 Start of the incident (detected
                                                                          by monitoring: no) 2015-03-05 14:57
                                                                          etts ticket opened based on monitoring
                                                                          alert 2015-03-05 15:17 CBI: High - in
                                                                          the ticket 2015-03-05 15:21 Customer
MAGDEBURG, 11:39 UHR:                                                     called and informed - whole APAC region
SOFORT-CHECK AUF BEKANNTE MUSTER                                          has an outage 2015-03-05 15:24 PO su-
Eines der roten Telefone – quasi die Schaltzentralen von T-Systems        pervisorConduct   management
                                                                                    contacted             calls/
                                                                                                 2015-03-05   16:56 MoD
für kritische Incidents – steht in Magdeburg. Und hier gilt jeder ers-                  run technician
                                                                          service involved      2015-03-05 16:57 L0
te Blick sofort der Incident-Historie. Ist Vergleichbares schon ein-                   conference to
                                                                          level of escalation        calls
                                                                                                         supplier PCCW
mal passiert? Wo sind die Muster? Könnte eine bewährte Lösung             2015-03-05 17:20 Combined Management /
greifen? Ist dies nicht der Fall, starten die standardisierten Abläufe.   Technical call opened 2015-03-05 17:23
„Wir überprüfen sofort, welche Standorte betroffen sind und was           L1 level of escalation to supplier PCCW
über die erste Schadensbeschreibung hinaus im schlimmstmög-               2015-03-05 17:30 Customer call 2015-03-
lichen Fall passiert sein kann. Diese Analysen laufen über die Tech-      05 17:39 management escalation to sup-
nikverantwortlichen.“                                                     plier PCCW initiated 2015-03-05 17:55
                                                                          supplier PCCW joined the call 2015-03-
SINGAPUR, 18:01 UHR:                                                      05 18:57 eCrIDS C3644 opened 2015-03-05
PARALLEL-CHECK MIT DEN TECHNIKERN                                                     Send status
                                                                          19:00 Customer     call updates
                                                                                                     2015-03-05 19:00
Parallel zum Management-Call führen Techniker verschiedenste                     regularly
                                                                          Customer   servicesto are
                                                                                                 top up
                                                                                                     management
                                                                                                         and running -
Analysen für den betroffenen Kunden durch. Denn die Erstmel-              technical end of incident 2015-03-05
dung, „WAN des Kunden in großem Stil ausgefallen“, heißt nicht:           20:34 Customer confirmation given 2015-
Damit ist der Suchradius für die Ursache des Fehlers abgesteckt.          03-05 22:30 Management call 2015-03-06
Im Gegenteil: Server, Betriebssysteme und Applikationen, der Da-          09:30 1st safeguarding call 2015-03-06
tenbankbetrieb, das Netzwerk, selbst die Strom-Klima-Lage der             15:00 2nd safeguarding call 2015-03-06
Rechenzentren im Schadensgebiet – „parallel zum Call werden               16:50 final safeguarding call Previous
alle möglichen IT-Komponenten überprüft“, stellt Germersdorf              status as of: 2015-03-06 00:51 [CET]
klar. Aber noch besteht kein Grund zum Aufatmen. Sein Laptop                          Define safeguarding
                                                                          Customer services     are up and running,
wird geflutet von kurzen technischen Statusmeldungen: --- cn-                             measuresis
                                                                          customer confirmation      andgiven. Safegu-
cti-shang-cx-09 ping statistics --- 5 packets transmitted, 0 received,    arding wasfollowup     activities alarming
                                                                                       defined (monitoring,
100% packet loss, time 4022ms.                                            chain defined).
                                                                                        CMO
                                                                                             Rootcause analysis with
     Und auch dass diese Nachricht als Statusmeldung an den               supplier is ongoing Situation most pro-
Kunden geht, ist Teil der Routine: „We would like to inform you that      bably caused by loops in FMO   rooting confi-
escalation of this case at a high level to our local partner is on        guration For further analysis involve-
track. The investigation of the incident is still ongoing, unfor-         ment of network architect necessary
tunately, with no details regarding the time of the restoration           PCCW committed to support for whole du-
available at the moment. As soon as we will have any news, we will        ration of safeguarding Previous status
inform you accordingly. Best regards.“ Höchste Priorität ist dabei        as of: 2015-03-05 21:19 [CET] Customer
immer, den Kunden während des gesamten Störungsmanage-                    services are up and running, customer
ments nicht nur stets informiert zu halten, sondern ihn auch aktiv in     confirmation is given. Safeguarding has
die Risikoabwägung aller Lösungsoptionen einzubinden. „Bei                been defined (monitoring, alarming chain
kompletten Systemneustarts zum Beispiel entscheidet der Kunde,            defined). Rootcause analysis with sup-
wann der geeignetste Zeitpunkt dafür ist.“                                plier is ongoing Previous status as of:
     Eines steht mittlerweile fest: Die Fehleranalyse wird mit der        2015-03-05 19:22 [CET] Production of
jüngsten Information schwieriger als gedacht. Doch mit jedem              +++++ in the region of APAC is distur-
Check lichtet sich die IT-Nebelwand zusehends: Diesmal liegt              bed, +++++ngency is nearly in the end
die Ursache des Ausfalls tatsächlich „nur“ in einer defekten              (60 000 employees are affected). WAN
WAN-Anbindung. „Nur“, sagt Germersdorf gequält, „für 60 000               connection in the area of APAC is fully
Mitarbeiter.“ Er weiß, was das bedeutet. Bis 2008 als Operator im         disturbed – WAN connection provided by
Magdeburger Global Incident Control Team gehört der ausgebil-             PCCW.Escalation to supplier PCCW is
dete Fachinformatiker seit sieben Jahren zum Global MoD Ser-              done on each level. First check of TSI
vice. Fieberhaft sucht sein „virtuelles“ Team irgendwo im Bermu-          environment currently without findings.
dadreieck zwischen China, Malaysia und Australien nach dem                Customer communication is ensured (next
Verursacher. Und mit jeder Minute wird die Fehlerursache weiter           customer alignment call 19:00 CET).
eingegrenzt. „Closed!“, „Closed!“, „Closed!“ – per Mail melden
die eingesetzten Spezialisten immer weitere „potential risks“, die
sich als Incident-Quelle ausschließen lassen. Dann der erste
Durchbruch: Die Netzwerkexperten lokalisieren verschiedene
ausgefallene Netzknoten. Als Ursache identifiziert das Team eine
Dreiviertelstunde später zwei Router, von denen mindestens ei-
ner offenbar nicht mehr ordnungsgemäß arbeitet. „Jeder Netz-
werkknoten für sich genommen war als ,medium‘, also mittelkri-
tisch, im System verzeichnet, so wie es der jeweiligen
Niederlassung in der APAC-Region für den Kunden entsprach“,
erklärt Germersdorf in seiner ersten Atempause seit Stunden.
                                                                                                                          Fotos: Thorsten Futh

„Aber wenn viele dieser als nur mittelkritisch eingestuften Kom-
ponenten gleichzeitig ausfallen, wird es natürlich zu einem ext-
rem kritischen Incident. Da entwickeln sich fünf, sechs Strohfeu-
er schnell zu einem Flächenbrand.“
SCHWERPUNKT            Digitalisierung
— 29                     Quality Management

  CANBERRA, 21:50 UHR:
  DIAGNOSEMELDUNG AN SERVICEPARTNER
  Das Incident Management über acht Zeitzonen hinweg ist abge-
  schlossen. Es war der Router eines Kundenstandorts im austra-
  lischen Canberra. Der instruierte Servicepartner vor Ort hat den     MAJOR INCIDENT =
  Schaden innerhalb einer Stunde behoben. Die Fachleute verkün-        HIGH MANAGEMENT ATTENTION
  den im Call die technische Diagnose: „It was discovered that
  there was an incorrect, or risky configuration command entered       „Bei uns gilt: Major Incident = High Management
  on the router that was causing a flapping of the connection with     Attention. Das ist der Unterschied zu unserem Wett-
  other autonomous systems. A Network Protocol was flapping on         bewerb. Die gesamte Executive-Ebene und sämtliche
  the local internet access line consequently lead to the flapping     Senior Vice Presidents sind 24/7 über jedes Status-
  routes on the NNI (Network to Network Interface).“ Auf Deutsch:      Update informiert. Das prägt jeden Einzelnen im gan-
  Infolge eines unkontrollierten Umschaltens in der Aktiv-/Passiv-     zen Konzern, ist Teil unserer DNA und lenkt den Fo-
  Konfiguration der zwei redundanten Router war der Netzknoten         kus automatisch viel stärker auf unsere Kunden. Jeder
  für 60 000 Mitarbeiter nicht mehr erreichbar, und so war die Kon-    Senior Vice President ist Manager-on-Duty, alle Board
  zernkommunikation des Kunden in der gesamten APAC-Region             Member sind informiert, und bei ganz kritischen
  gestört. Schon ein winziges Steinchen auf dem Modul der Licht-       Situationen haben unsere Kunden direkten und so-
  leiterverbindung zwischen den Routern kann solch einen unan-         fortigen Zugriff auf die T-Systems-Geschäftsführung.
  gekündigten Hardwarefehler auslösen.                                 Auch am Wochenende. Das ist gelebte Kundennähe –
       Die exakte Fehleranalyse durch den Hersteller wird später als   Zero Distance. In meinen 28 Jahren in der IT-Industrie
  Teil der Incident-Nachbearbeitung den entsprechenden Patch lie-      kenne ich das von keinem anderen Provider.“
  fern. Doch um die Folgen so einer Funktionsstörung in Zukunft zu
  minimieren, hat der Lead Problem Manager, an den Germersdorf         Carsten Gram,
  die Nachbearbeitung des Incident übergeben wird, auch eine           Senior Vice President Big Deal Management, T-Systems
  Konzeptänderung auf Lager, zu der das Serviceteam dem Kunden
  für die Zukunft raten wird: Um auch unvorhersehbare Lücken aus-
  zuschließen zwischen dem SLA, das Kunden zum Initial Design
  ihrer Architektur anfordern, und dem Servicelevel, das aus
  T-Systems-Sicht prozesstechnisch erforderlich wäre, so Germers-
  dorf, „werden wir dem Kunden empfehlen, den als ‚medium‘ ein-
  gestuften Netzknoten auf ‚critical‘ upzugraden“.

                                                                                                                          Automatisch werden
                                                                                                                          alle vom Kunden
                                                                                                                          eingesetzten
                                                                                                                          Configuration Items
                                                                                                                          (Betriebsmittel)
                                                                                                                          weltweit gemonitort.
Entspanntes Lächeln – erst mit der
                                                 Statusmeldung „Customer services are
                                                 up and running“ lässt der mitunter
                                                 stundenlange Hochdruck im Team nach.

                                                 BERLIN, 16:51 UHR:
                                                 PLAN B IN DER SCHUBLADE
                                                 Geübt oder nicht – mitunter heiße es auch bei noch so oft trai-
                                                 nierten Abläufen „einfach improvisieren“, so Germersdorf. Denn
General Topics: Changes before Inci-             die Bandbreite externer „Funktionsstörer“ kann vom kleinen
dent: under clarification Lead of tech-          Stein, wie heute in Australien, bis zum 2000 Meter hohen Bro-
nician telco: Busch, Rocco            Customer   cken reichen. Wenn etwa am anderen Ende der Welt Esja, Katla
Communication:       Established     -   Große   oder Eyjafjallajökull allen Alarmplänen einen Strich durch die
Scharmann, Regina Engineering involved:          Rechnung machen.
No Trigger of events [CET] 2015-03-05                 Erst im vergangenen Jahr war es Bardarbunga, einer von
13:03 Start of the incident (detected            31 isländischen Vulkanen, der große Teile des europäischen Flug-
by monitoring: no) 2015-03-05 14:57              verkehrs lahmlegte. Wie der Incident eines schwedischen Kunden
etts ticket opened based on monitoring           zu beheben sein würde, hatte der Global MoD Service am selben
alert 2015-03-05 15:17 CBI: High - in            Tag rasch ermittelt. Das nötige Serverersatzteil von einem Sub-Pro-
the ticket 2015-03-05 15:21 Customer             vider des Unternehmens war in den Niederlanden schnell be-
called and informed - whole APAC region          schafft. Doch dann saß der Techniker am Flughafen Amsterdam
has an outage 2015-03-05 15:24 PO su-            fest. „Quasi mit dem Ersatzteil auf dem Schoß“, erinnert sich Ger-
pervisor   contacted
        Close   incident2015-03-05  16:56 MoD
                            procedure            mersdorf, „und es war klar, in halb Europa würde tagelang kein
service involved 2015-03-05 16:57 L0             Flugzeug starten. Hier wurden ruck, zuck die Zollpapiere organi-
level of escalation to supplier PCCW             siert, das Ersatzteil per Kurier mit Lkw und Fähre nach Stockholm
2015-03-05 17:20 Combined Management /           gebracht.“ In einem anderen Fall war die Lage so brenzlig, dass ein
Technical call opened 2015-03-05 17:23           Softwareexperte per Helikopter eingeflogen werden musste. Auch
L1 level of escalation to supplier PCCW          dieser Aufwand hat sich am Ende für den Kunden gerechnet.
2015-03-05 17:30 Customer call 2015-03-
                                                      „Wir versuchen, aus jedem Vorfall Lehren zu ziehen“, so Ste-
            Daily handover
05 17:39 management            from
                          escalation   to sup-
                                                 phan Kasulke, Senior Vice President Quality bei T-Systems, „um
         incident
plier PCCW            management
               initiated           to
                            2015-03-05   17:55
                                                 die Ausfallsicherheit bei unseren Kunden ständig zu steigern“ (sie-
supplier PCCWproblem   management
                  joined   the call 2015-03-
                                                 he Interview Seite 31). So führen die Erkenntnisse aus echten In-
05 18:57 eCrIDS C3644 opened 2015-03-05
                                                 cidents und „Fire Drills“ nicht nur zu einer immer weiteren Verfeine-
19:00 Customer call         2015-03-05 19:00
                                                 rung der Krisenmanagementprozesse, sondern auch zu einer
Customer services are up and running -
                                                 deutlich besseren Vorhersage drohender IT-Ausfälle. Beispiel Con-
technical end of incident 2015-03-05
                                                 figuration Items: „Alle sogenannten CIs, die vom Kunden einge-
20:34 Customer confirmation given 2015-
                                                 setzten IT-Betriebsmittel wie Server, Software oder Netzwerke, sind
03-05 22:30 Management call 2015-03-06
                                                 bei uns im Monitoring“, erklärt Germersdorf. „Im Idealfall sehen wir
09:30 1st safeguarding call 2015-03-06
          Quarterly analysis and                 so frühzeitig, wo welche Kundenapplikationen unsauber laufen,
15:00 2nd safeguarding call 2015-03-06
          start of quality                       ob ein Server betroffen ist, der für 50 Kunden arbeitet, oder fünf
16:50 final safeguarding call Previous
          initiatives                            Server, die ausschließlich für ein Unternehmen Dienst tun.“
status as of: 2015-03-06 00:51 [CET]
Customer services are up and running,
          Supplier involvement                   BERLIN, 17:10 UHR:
customer confirmation is given. Safegu-
          fi redrills and review                 END OF INCIDENT
arding was defined (monitoring, alarming
                                                 Die Betreffzeile der finalen E-Mail entfaltet die Stirn des Lead Inci-
chain defined). Rootcause analysis with
                                                 dent Managers sichtlich. „End of Incident“ heißt für Germersdorf:
supplier Weekly     briefi
           is ongoing      ng calls most pro-
                         Situation
                                                 „meantime to repair“ eingehalten – und für den Kunden: Alle
                                                                                                                          Fotos: Thorsten Futh, Deutsche Telekom AG/T-Systems

bably caused by loops in rooting confi-
                                                 60 000 User können wieder vernünftig arbeiten. Für Steffen Ger-
guration For further analysis involve-
                                                 mersdorf bedeutet die Mail: Fall abgeschlossen und „erst mal auf-
ment of Weekly
             network    architect necessary
                    lessons-learned              stehen“ – vom Schreibtisch im heimischen Arbeitszimmer. In der
PCCW committed
          sessions to  support  for whole du-
                                                 Küche eines IT-Experten sind lebenswichtige Komponenten zum
ration of safeguarding Previous status
                                                 Glück auch redundant ausgelegt. So findet Germersdorf im Kühl-
as of: 2015-03-05 21:19 [CET] Customer
                                                 fach heute Abend noch eine „Backup-Pizza“, die er sich – im
services KPI
           are tracking
                 up and running,
                            daily,    customer
                                                 wahrsten Sinne des Wortes – „redlich“ verdient hat.
confirmation   is  given.    Safeguarding
          weekly, monthly, quarterly       has
been defined (monitoring, alarming chain
                                                  stephan.kasulke@t-systems.com
defined). Rootcause analysis with sup-
                                                       t-systems.de/zero-outage
plier is ongoing Previous status as of:
2015-03-05 19:22 [CET] Production of
Sie können auch lesen