Da ist Adrenalin im Call - T-Systems
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Da ist Adrenalin im Call. IM FALL EINES IT-INCIDENT ZÄHLT FÜR DEN KUNDEN JEDE MINUTE. FÜR DIE SCHNELLSTMÖGLICHE BEHEBUNG VON STÖRUNGEN UND DIE ZUVERLÄSSIGE IDENTIFI - KATION DER URSACHEN STELLT T-SYSTEMS IHR GANZ- HEITLICHES QUALITÄTSMANAGEMENT REGELMÄSSIG AUF DEN PRÜFSTAND. IN MEHR ALS 500 „FIRE DRILLS“ (ERNSTFALL-SIMULATIONEN) JÄHRLICH TESTET DIE TELEKOM-TOCHTER DAZU DAS ZUSAMMENSPIEL IHRER MITARBEITER, PARTNER, PROZESSE UND PLATTFORMEN SOWIE DIE DAHINTERLIEGENDE LOGIK. SICHTBAR MACHT DAS ERGEBNIS STÄNDIGER ÜBUNG EIN BLICK AUF DAS INCIDENT MANAGEMENT. DOCH OB REAL ODER WIRKLICH- KEITSNAH, IST DABEI KAUM MEHR ZU UNTERSCHEIDEN. Klaus Rathje Foto: Thorsten Futh
SCHWERPUNKT Digitalisierung — 25 Quality Management QUALITÄT MANAGEN – ERFOLGE SICHERN. Das ganzheitliche Qualitätsprogramm Zero Outage gewährleistet Kunden maximale Zuverlässigkeit in IT-Betrieb und Transitions-/ Transformationsprojekten: kontinuierliche Überprüfung und Feinjustierung sämtlicher Leistungen und Systeme; permanente Weiterent- wicklung von Prozessschritten. Ein definiertes 3-P-Konzept (Processes – People – Platforms) treibt Qualitätsmaßnahmen in alle Unter- nehmensebenen. Einheitlicher und einziger Maßstab: bestes Ergebnis für den Kunden. INCIDENT MANAGEMENT PEOPLE PROCESSES PLATFORM DAS EINHALTEN KLAR DEFINIERTER DER MENSCH IM FOKUS – ZERO-OUTAGE- DIE TECHNISCH EINWANDFREIE UMSET- PROZESSE BESCHLEUNIGT DIE TRANSPA- KULTUR DURCH (WEITER-)BILDUNG, ZUNG IST EIN WESENTLICHER ERFOLGS- RENZ DER ERGEBNISSE UND ERMÖGLICHT VERHALTEN UND VERANTWORTUNG. FAKTOR. JEDERZEIT EINE SCHNELLE (RE-)AKTION. QUALITY ACADEMY HOCHVERFÜGBARE IT DISZIPLIN Die interne Trainings- und Portfolioplattform Stabile, redundant-ausfallsichere IT-Infrastruk- Regelmäßige Incident-Übungen trainieren Re- „Quality Academy“ zertifiziert befristet mehr turen sorgen für hochverfügbare Systemland- aktionsgeschwindigkeit und Notfallabläufe, als 21 000 Mitarbeiter, verankert die Zero- schaften – Stichwort: TwinCore-Rechenzen- überprüfen Disziplin und Prozesstreue interner Outage-Kultur und Process Compliance bei tren. Umfassendes Monitoring und regelmäßige Einheiten und Partner. Wöchentliche Ergebnis- jedem Einzelnen jährlich neu. Präventivtests aller Komponenten decken Über- berichte münden in konkrete Verbesserungs- lastungen oder Defekte auf. maßnahmen. TOPMANAGEMENT-ATTENTION Wöchentliche Reviews involvieren die Füh- SUPPLIER-ZERTIFIZIERUNG VIER-AUGEN-PRINZIP rungsspitze in sämtliche Prozesse, kritische Ausweitung der Zero-Outage-Zertifizierung Striktes Vier-Augen-Prinzip bei kritischen The- Projekte oder Betriebsstörungen und sichern auf Lieferanten sichert bei Incident-, Problem- men gewährleistet Fehlerausschluss und Quali- so wettbewerbsdifferenzierende Topmanage- und Change-Management maximale IT-Ver- ment-Attention für a) schnelle Entscheidungs- fügbarkeit Ende-zu-Ende. tätskontrolle. fähigkeit durch konzernweite Einbindung des Topmanagements inklusive Geschäftsführer bei Major Incidents, b) die Einhaltung aller we- sentlichen Qualitätskennzahlen (KPI) und c) die Umsetzung konkreter Verbesserungsmaß- nahmen. AKTIVE KUNDENKOMMUNIKATION Serviceschnittstelle bündelt die Kundenrück- meldung zur Ablaufoptimierung und hohen Prozesskorrespondenz mit den Geschäfts- erfordernissen der Unternehmen.
Das sieht nicht gut WER BEREITSCHAFT HAT, MUSS JEDERZEIT EINSATZBEREIT SINGAPUR, 16:57 UHR: aus – die Erstbeur- SEIN. So musste auch Steffen Germersdorf an einem der Feiertage STILLSTAND FÜR 60 000 USER teilung des GLIM im Mai „immer damit rechnen“, dass das „rote Telefon“ bei ihm klin- „Major incident – outage of WAN network in APAC“. Genau entscheidet, welche gelt. Der 31-Jährige ist eine der Stimmen des Global MoD Service, 20 Minuten „nach Alarm“ bleiben Germersdorf, um den „1st Spezialisten Steffen des internationalen Serviceteams von T-Systems, das sich um kriti- combined technician management call“ mit allen beteiligten Germersdorf beim sche IT-Ausfälle der Kunden kümmert. Dann koordinieren die Global Fraktionen aufzusetzen. Dem Service, der Delivery, der Technik Incident Manage- Lead Incident Manager (GLIM) einen weltweiten Pool von 1000 Kol- zum Beispiel. Fortan steuert er sämtliche Deeskalationsmaßnah- ment hinzuholt. legen in verschiedenen „Rollen“, die T-Systems mit ihrer Expertise men, hat die Einsatzverantwortung auf den Schultern und den 24 Stunden am Tag vorhalten kann, und pro Woche einen Kern Zeitdruck im Nacken. Von der ersten Sekunde an. Dafür stellt von 140 Mitarbeitern, die als Manager-on-Duty (MoD) weltweit im ihm jede potenziell betroffene Abteilung sofort einen MoD Einsatz sind. zur Incident-Behebung an die Seite. Die Schadensbeschreibung des Global Incident Control BERLIN, 10:57 UHR: Center, das den Notruf des Kunden angenommen hat, macht JOBWECHSEL IM HOMEOFFICE schnell klar: Hier geht’s um etwas Großes. „Und vom ersten Mo- Im Grunde sei sein Job so ähnlich wie bei der Feuerwehr. „Manch- ment an ist Adrenalin im Call“, versichert Germersdorf: „WAN mal passiert tatsächlich nichts während einer Schicht, aber sobald connection provided in Asia Pacific area is fully disrupted. Pro- ein Brand ausbricht, müssen alle sofort hellwach und präsent duction of customer in the region of APAC is disturbed, affecting sein.“ Nur dass Germersdorfs zu löschende Feuer, um im Bild zu approximately 60 000 users.“ Stillstand für 60 000 Mitarbeiter ist bleiben, in seiner Sprache „Incidents“ heißen, Vorfälle. „Als global aus Kundensicht ein Desaster. Und „Kundensicht ist immer unse- agierender ICT-Dienstleister mit Kunden sind wir auf zwei oder drei re Sicht!“ Nicht nur bei der fachlichen Beurteilung eines Incident, kritische Situationen pro Schicht eingerichtet.“ Dann ist es seine aber in Hinblick auf den „pressure“, den der Vorfall für ein Unter- Aufgabe als Koordinator, schnellstmöglich den richtigen Lösch- nehmen auslöst. Kein Wunder: Von einem halben Dutzend sofort spezialisten zu aktivieren. In diesem Augenblick, an einem Feier- eröffneter Tickets informiert Nr. 8760047 über den „real impact“: tag im Mai zum Beispiel. Der Notruf erreicht den Berliner zu Hause „E-mail communication, web-traffic, financial processes, supply – mit Pizza in der Hand auf dem Weg zum Backofen. Doch noch chain, operational processes, HR and production processes are bevor der Global Lead Incident Manager sein Arbeitszimmer er- all affected.“ reicht, ist er per Telefon bereits informiert, „wo’s brennt“ – sechs Zeitzonen vor Deutschland.
SCHWERPUNKT Digitalisierung — 27 Quality Management INCIDENT MANAGEMENT General Topics:PROCESS Changes before Inci- dent: under clarification Lead of tech- Jeder einzelne nician telco: Schritt im Incident Busch, Management Rocco folgt Customer festgelegten, vom TÜVEstablished Communication: Rheinland zertifizierten - Pro- Große zessabläufen und Scharmann, wird vonEngineering Regina den weltweiten Teams bis zu involved: No 500-mal Triggerim Jahrof trainiert. events [CET] 2015-03-05 13:03 Start of the incident (detected by monitoring: no) 2015-03-05 14:57 etts ticket Incidentopened based occurs on monitoring BERLIN, 11:22 UHR: Fortlaufend alert 2015-03-05 15:17 CBI: High - in TEAM-BUILDING IN REKORDGESCHWINDIGKEIT erhält der Lead the ticket 2015-03-05 15:21 Customer Bei „größeren Lagen“, also potenziell kritischen oder vom Kun- Incident Manager called and informed - whole APAC region den als kritisch eingestuften Incidents, kommen so schnell mal Statusmeldungen has an outage 2015-03-05 15:24 PO su- mehr als 20 Fachleute in diese Expertentelefonkonferenz, die ab der eingesetzten pervisor contacted 2015-03-05 16:56 MoD jetzt die durchgehende Kommunikationsader zwischen allen Techniker. service involved 2015-03-05 16:57 L0 Parteien darstellt. Die sind mitunter auf der ganzen Welt verteilt, level of escalation to supplier PCCW und ihren Einsatz koordiniert der Global Lead Incident Manager 2015-03-05 17:20 Combined Management / im virtuellen War Room. Das betrifft nicht nur T-Systems‘ interne Technical Open callincident ticket opened 2015-03-05 17:23 Kollegen, auch Managementvertreter von potenziell beteiligten L1 level of escalation to supplier PCCW Herstellern wie Cisco, Microsoft, VMware, SAP, F5 oder Juniper. 2015-03-05 17:30 Customer call 2015-03- Bei besonders kniffligen Situationen wird zusätzlich sofort ein 05 17:39 management escalation to sup- Mitglied der T-Systems-Geschäftsführung hinzugezogen, denn plier PCCW initiated 2015-03-05 17:55 kritische Ausfälle sind bei der Telekom-Tochter automatisch supplier PCCW joined the call 2015-03- „Chefsache“. Dass Germersdorf und das Team direkten Zugriff 05 18:57 eCrIDS C3644 opened 2015-03-05 auf die Daten der Technologiepartner haben und dort sofort An- 19:00 Customer call 2015-03-05 19:00 sprechpartner bereitstehen, spart wertvolle Zeit. In der Incident- Customer services Verify are customer up and running - Sprache: meantime to repair. Die fixiert für jeden möglichen Inci- technical end business impact 2015-03-05 of incident dent die laut SLA verabredete maximale Reparaturdauer. 20:34 Customer confirmation given 2015- Sein „Call“ ist dabei das zentrale Instrument für die weltwei- 03-05 22:30 Management call 2015-03-06 te Zusammenarbeit. Er bleibt fortan permanent bestehen, alle 09:30 1st safeguarding call 2015-03-06 30 Minuten gibt es ein Status-Update. Bis irgendwann später 15:00 2nd safeguarding call 2015-03-06 endlich die Nachricht kommt, deren Eintreffen jeder einzelne Be- 16:50 final safeguarding call Previous teiligte mit seinem individuellen „know-how and talent“ betreibt: status as of: 2015-03-06 00:51 [CET] Customer services are up and running (technical end of the inci- Customer services are up and running, dent). Bis dahin, wiederholt Germersdorf, „bleibt der Call, denn ein customer confirmation is given. Safegu- Verantwortungs-Pingpong untereinander ist das Letzte, was wir in arding was defined (monitoring, alarming so einer Situation brauchen“. chain defined). Rootcause analysis with Die Abläufe folgen einem festgelegten (und auch vom TÜV supplier is ongoing Situation most pro- Rheinland zertifizierten) Prozess und sind von jedem MoD ein- Start Incident bably caused by loops procedure in rooting confi- studiert und vielfach erprobt. „Training schärft die Sinne“, sagt guration For further analysis involve- Germersdorf. Unter der Bezeichnung „Fire Drills“ laufen bei ment of network architect necessary T-Systems jährlich mehr als 500 Incident-Übungen ab – über die PCCW committed to support for whole du- komplette Organisation. Von der Telefonannahme bis zum Exe- ration of safeguarding Previous status cutive. Und auch hier gilt: „Ob sich einer zu Hause gerade ein as of: 2015-03-05 21:19 [CET] Customer Brötchen schmiert oder mit der Familie unterm Weihnachtsbaum services are up and running, customer sitzt – wer Bereitschaft hat, lässt alles stehen und liegen, um so- confirmation is given. Safeguarding has fort zu reagieren.“ Das heißt zunächst einmal, sprechfähig zu been defined (monitoring, alarming chain sein, gegenüber dem Kunden, seinem Accounter und den Tech- defined). Rootcause analysis with sup- nikern, die es zu steuern gilt. „Sprechfähig“ ist laut Germersdorf Fotos: Thorsten Futh plier is ongoing Previous status as of: „der erste Schritte zur Deeskalation“. Schnell, strukturiert nach 2015-03-05 19:22 [CET] Production of definierten Prozessketten und klaren KPIs, mit denen sich der +++++ in the region of APAC is distur- Erfolg – oder Misserfolg – jeder eingeleiteten Maßnahme sofort bed, +++++ngency is nearly in the end kontrollieren lässt. (60 000 employees are affected). WAN connection in the area of APAC is fully
13:03 Start of the incident (detected by monitoring: no) 2015-03-05 14:57 etts ticket opened based on monitoring alert 2015-03-05 15:17 CBI: High - in the ticket 2015-03-05 15:21 Customer MAGDEBURG, 11:39 UHR: called and informed - whole APAC region SOFORT-CHECK AUF BEKANNTE MUSTER has an outage 2015-03-05 15:24 PO su- Eines der roten Telefone – quasi die Schaltzentralen von T-Systems pervisorConduct management contacted calls/ 2015-03-05 16:56 MoD für kritische Incidents – steht in Magdeburg. Und hier gilt jeder ers- run technician service involved 2015-03-05 16:57 L0 te Blick sofort der Incident-Historie. Ist Vergleichbares schon ein- conference to level of escalation calls supplier PCCW mal passiert? Wo sind die Muster? Könnte eine bewährte Lösung 2015-03-05 17:20 Combined Management / greifen? Ist dies nicht der Fall, starten die standardisierten Abläufe. Technical call opened 2015-03-05 17:23 „Wir überprüfen sofort, welche Standorte betroffen sind und was L1 level of escalation to supplier PCCW über die erste Schadensbeschreibung hinaus im schlimmstmög- 2015-03-05 17:30 Customer call 2015-03- lichen Fall passiert sein kann. Diese Analysen laufen über die Tech- 05 17:39 management escalation to sup- nikverantwortlichen.“ plier PCCW initiated 2015-03-05 17:55 supplier PCCW joined the call 2015-03- SINGAPUR, 18:01 UHR: 05 18:57 eCrIDS C3644 opened 2015-03-05 PARALLEL-CHECK MIT DEN TECHNIKERN Send status 19:00 Customer call updates 2015-03-05 19:00 Parallel zum Management-Call führen Techniker verschiedenste regularly Customer servicesto are top up management and running - Analysen für den betroffenen Kunden durch. Denn die Erstmel- technical end of incident 2015-03-05 dung, „WAN des Kunden in großem Stil ausgefallen“, heißt nicht: 20:34 Customer confirmation given 2015- Damit ist der Suchradius für die Ursache des Fehlers abgesteckt. 03-05 22:30 Management call 2015-03-06 Im Gegenteil: Server, Betriebssysteme und Applikationen, der Da- 09:30 1st safeguarding call 2015-03-06 tenbankbetrieb, das Netzwerk, selbst die Strom-Klima-Lage der 15:00 2nd safeguarding call 2015-03-06 Rechenzentren im Schadensgebiet – „parallel zum Call werden 16:50 final safeguarding call Previous alle möglichen IT-Komponenten überprüft“, stellt Germersdorf status as of: 2015-03-06 00:51 [CET] klar. Aber noch besteht kein Grund zum Aufatmen. Sein Laptop Define safeguarding Customer services are up and running, wird geflutet von kurzen technischen Statusmeldungen: --- cn- measuresis customer confirmation andgiven. Safegu- cti-shang-cx-09 ping statistics --- 5 packets transmitted, 0 received, arding wasfollowup activities alarming defined (monitoring, 100% packet loss, time 4022ms. chain defined). CMO Rootcause analysis with Und auch dass diese Nachricht als Statusmeldung an den supplier is ongoing Situation most pro- Kunden geht, ist Teil der Routine: „We would like to inform you that bably caused by loops in FMO rooting confi- escalation of this case at a high level to our local partner is on guration For further analysis involve- track. The investigation of the incident is still ongoing, unfor- ment of network architect necessary tunately, with no details regarding the time of the restoration PCCW committed to support for whole du- available at the moment. As soon as we will have any news, we will ration of safeguarding Previous status inform you accordingly. Best regards.“ Höchste Priorität ist dabei as of: 2015-03-05 21:19 [CET] Customer immer, den Kunden während des gesamten Störungsmanage- services are up and running, customer ments nicht nur stets informiert zu halten, sondern ihn auch aktiv in confirmation is given. Safeguarding has die Risikoabwägung aller Lösungsoptionen einzubinden. „Bei been defined (monitoring, alarming chain kompletten Systemneustarts zum Beispiel entscheidet der Kunde, defined). Rootcause analysis with sup- wann der geeignetste Zeitpunkt dafür ist.“ plier is ongoing Previous status as of: Eines steht mittlerweile fest: Die Fehleranalyse wird mit der 2015-03-05 19:22 [CET] Production of jüngsten Information schwieriger als gedacht. Doch mit jedem +++++ in the region of APAC is distur- Check lichtet sich die IT-Nebelwand zusehends: Diesmal liegt bed, +++++ngency is nearly in the end die Ursache des Ausfalls tatsächlich „nur“ in einer defekten (60 000 employees are affected). WAN WAN-Anbindung. „Nur“, sagt Germersdorf gequält, „für 60 000 connection in the area of APAC is fully Mitarbeiter.“ Er weiß, was das bedeutet. Bis 2008 als Operator im disturbed – WAN connection provided by Magdeburger Global Incident Control Team gehört der ausgebil- PCCW.Escalation to supplier PCCW is dete Fachinformatiker seit sieben Jahren zum Global MoD Ser- done on each level. First check of TSI vice. Fieberhaft sucht sein „virtuelles“ Team irgendwo im Bermu- environment currently without findings. dadreieck zwischen China, Malaysia und Australien nach dem Customer communication is ensured (next Verursacher. Und mit jeder Minute wird die Fehlerursache weiter customer alignment call 19:00 CET). eingegrenzt. „Closed!“, „Closed!“, „Closed!“ – per Mail melden die eingesetzten Spezialisten immer weitere „potential risks“, die sich als Incident-Quelle ausschließen lassen. Dann der erste Durchbruch: Die Netzwerkexperten lokalisieren verschiedene ausgefallene Netzknoten. Als Ursache identifiziert das Team eine Dreiviertelstunde später zwei Router, von denen mindestens ei- ner offenbar nicht mehr ordnungsgemäß arbeitet. „Jeder Netz- werkknoten für sich genommen war als ,medium‘, also mittelkri- tisch, im System verzeichnet, so wie es der jeweiligen Niederlassung in der APAC-Region für den Kunden entsprach“, erklärt Germersdorf in seiner ersten Atempause seit Stunden. Fotos: Thorsten Futh „Aber wenn viele dieser als nur mittelkritisch eingestuften Kom- ponenten gleichzeitig ausfallen, wird es natürlich zu einem ext- rem kritischen Incident. Da entwickeln sich fünf, sechs Strohfeu- er schnell zu einem Flächenbrand.“
SCHWERPUNKT Digitalisierung — 29 Quality Management CANBERRA, 21:50 UHR: DIAGNOSEMELDUNG AN SERVICEPARTNER Das Incident Management über acht Zeitzonen hinweg ist abge- schlossen. Es war der Router eines Kundenstandorts im austra- lischen Canberra. Der instruierte Servicepartner vor Ort hat den MAJOR INCIDENT = Schaden innerhalb einer Stunde behoben. Die Fachleute verkün- HIGH MANAGEMENT ATTENTION den im Call die technische Diagnose: „It was discovered that there was an incorrect, or risky configuration command entered „Bei uns gilt: Major Incident = High Management on the router that was causing a flapping of the connection with Attention. Das ist der Unterschied zu unserem Wett- other autonomous systems. A Network Protocol was flapping on bewerb. Die gesamte Executive-Ebene und sämtliche the local internet access line consequently lead to the flapping Senior Vice Presidents sind 24/7 über jedes Status- routes on the NNI (Network to Network Interface).“ Auf Deutsch: Update informiert. Das prägt jeden Einzelnen im gan- Infolge eines unkontrollierten Umschaltens in der Aktiv-/Passiv- zen Konzern, ist Teil unserer DNA und lenkt den Fo- Konfiguration der zwei redundanten Router war der Netzknoten kus automatisch viel stärker auf unsere Kunden. Jeder für 60 000 Mitarbeiter nicht mehr erreichbar, und so war die Kon- Senior Vice President ist Manager-on-Duty, alle Board zernkommunikation des Kunden in der gesamten APAC-Region Member sind informiert, und bei ganz kritischen gestört. Schon ein winziges Steinchen auf dem Modul der Licht- Situationen haben unsere Kunden direkten und so- leiterverbindung zwischen den Routern kann solch einen unan- fortigen Zugriff auf die T-Systems-Geschäftsführung. gekündigten Hardwarefehler auslösen. Auch am Wochenende. Das ist gelebte Kundennähe – Die exakte Fehleranalyse durch den Hersteller wird später als Zero Distance. In meinen 28 Jahren in der IT-Industrie Teil der Incident-Nachbearbeitung den entsprechenden Patch lie- kenne ich das von keinem anderen Provider.“ fern. Doch um die Folgen so einer Funktionsstörung in Zukunft zu minimieren, hat der Lead Problem Manager, an den Germersdorf Carsten Gram, die Nachbearbeitung des Incident übergeben wird, auch eine Senior Vice President Big Deal Management, T-Systems Konzeptänderung auf Lager, zu der das Serviceteam dem Kunden für die Zukunft raten wird: Um auch unvorhersehbare Lücken aus- zuschließen zwischen dem SLA, das Kunden zum Initial Design ihrer Architektur anfordern, und dem Servicelevel, das aus T-Systems-Sicht prozesstechnisch erforderlich wäre, so Germers- dorf, „werden wir dem Kunden empfehlen, den als ‚medium‘ ein- gestuften Netzknoten auf ‚critical‘ upzugraden“. Automatisch werden alle vom Kunden eingesetzten Configuration Items (Betriebsmittel) weltweit gemonitort.
Entspanntes Lächeln – erst mit der Statusmeldung „Customer services are up and running“ lässt der mitunter stundenlange Hochdruck im Team nach. BERLIN, 16:51 UHR: PLAN B IN DER SCHUBLADE Geübt oder nicht – mitunter heiße es auch bei noch so oft trai- nierten Abläufen „einfach improvisieren“, so Germersdorf. Denn General Topics: Changes before Inci- die Bandbreite externer „Funktionsstörer“ kann vom kleinen dent: under clarification Lead of tech- Stein, wie heute in Australien, bis zum 2000 Meter hohen Bro- nician telco: Busch, Rocco Customer cken reichen. Wenn etwa am anderen Ende der Welt Esja, Katla Communication: Established - Große oder Eyjafjallajökull allen Alarmplänen einen Strich durch die Scharmann, Regina Engineering involved: Rechnung machen. No Trigger of events [CET] 2015-03-05 Erst im vergangenen Jahr war es Bardarbunga, einer von 13:03 Start of the incident (detected 31 isländischen Vulkanen, der große Teile des europäischen Flug- by monitoring: no) 2015-03-05 14:57 verkehrs lahmlegte. Wie der Incident eines schwedischen Kunden etts ticket opened based on monitoring zu beheben sein würde, hatte der Global MoD Service am selben alert 2015-03-05 15:17 CBI: High - in Tag rasch ermittelt. Das nötige Serverersatzteil von einem Sub-Pro- the ticket 2015-03-05 15:21 Customer vider des Unternehmens war in den Niederlanden schnell be- called and informed - whole APAC region schafft. Doch dann saß der Techniker am Flughafen Amsterdam has an outage 2015-03-05 15:24 PO su- fest. „Quasi mit dem Ersatzteil auf dem Schoß“, erinnert sich Ger- pervisor contacted Close incident2015-03-05 16:56 MoD procedure mersdorf, „und es war klar, in halb Europa würde tagelang kein service involved 2015-03-05 16:57 L0 Flugzeug starten. Hier wurden ruck, zuck die Zollpapiere organi- level of escalation to supplier PCCW siert, das Ersatzteil per Kurier mit Lkw und Fähre nach Stockholm 2015-03-05 17:20 Combined Management / gebracht.“ In einem anderen Fall war die Lage so brenzlig, dass ein Technical call opened 2015-03-05 17:23 Softwareexperte per Helikopter eingeflogen werden musste. Auch L1 level of escalation to supplier PCCW dieser Aufwand hat sich am Ende für den Kunden gerechnet. 2015-03-05 17:30 Customer call 2015-03- „Wir versuchen, aus jedem Vorfall Lehren zu ziehen“, so Ste- Daily handover 05 17:39 management from escalation to sup- phan Kasulke, Senior Vice President Quality bei T-Systems, „um incident plier PCCW management initiated to 2015-03-05 17:55 die Ausfallsicherheit bei unseren Kunden ständig zu steigern“ (sie- supplier PCCWproblem management joined the call 2015-03- he Interview Seite 31). So führen die Erkenntnisse aus echten In- 05 18:57 eCrIDS C3644 opened 2015-03-05 cidents und „Fire Drills“ nicht nur zu einer immer weiteren Verfeine- 19:00 Customer call 2015-03-05 19:00 rung der Krisenmanagementprozesse, sondern auch zu einer Customer services are up and running - deutlich besseren Vorhersage drohender IT-Ausfälle. Beispiel Con- technical end of incident 2015-03-05 figuration Items: „Alle sogenannten CIs, die vom Kunden einge- 20:34 Customer confirmation given 2015- setzten IT-Betriebsmittel wie Server, Software oder Netzwerke, sind 03-05 22:30 Management call 2015-03-06 bei uns im Monitoring“, erklärt Germersdorf. „Im Idealfall sehen wir 09:30 1st safeguarding call 2015-03-06 Quarterly analysis and so frühzeitig, wo welche Kundenapplikationen unsauber laufen, 15:00 2nd safeguarding call 2015-03-06 start of quality ob ein Server betroffen ist, der für 50 Kunden arbeitet, oder fünf 16:50 final safeguarding call Previous initiatives Server, die ausschließlich für ein Unternehmen Dienst tun.“ status as of: 2015-03-06 00:51 [CET] Customer services are up and running, Supplier involvement BERLIN, 17:10 UHR: customer confirmation is given. Safegu- fi redrills and review END OF INCIDENT arding was defined (monitoring, alarming Die Betreffzeile der finalen E-Mail entfaltet die Stirn des Lead Inci- chain defined). Rootcause analysis with dent Managers sichtlich. „End of Incident“ heißt für Germersdorf: supplier Weekly briefi is ongoing ng calls most pro- Situation „meantime to repair“ eingehalten – und für den Kunden: Alle Fotos: Thorsten Futh, Deutsche Telekom AG/T-Systems bably caused by loops in rooting confi- 60 000 User können wieder vernünftig arbeiten. Für Steffen Ger- guration For further analysis involve- mersdorf bedeutet die Mail: Fall abgeschlossen und „erst mal auf- ment of Weekly network architect necessary lessons-learned stehen“ – vom Schreibtisch im heimischen Arbeitszimmer. In der PCCW committed sessions to support for whole du- Küche eines IT-Experten sind lebenswichtige Komponenten zum ration of safeguarding Previous status Glück auch redundant ausgelegt. So findet Germersdorf im Kühl- as of: 2015-03-05 21:19 [CET] Customer fach heute Abend noch eine „Backup-Pizza“, die er sich – im services KPI are tracking up and running, daily, customer wahrsten Sinne des Wortes – „redlich“ verdient hat. confirmation is given. Safeguarding weekly, monthly, quarterly has been defined (monitoring, alarming chain stephan.kasulke@t-systems.com defined). Rootcause analysis with sup- t-systems.de/zero-outage plier is ongoing Previous status as of: 2015-03-05 19:22 [CET] Production of
Sie können auch lesen