Alerte! Les systèmes informatiques ne répondent plus, des messages d'erreur s'affichent! Que faire?

 
 Designed by Freepik https://www.freepik.com/free-vector/computer-problems-cartoon_763376.htm

Designed by Freepik https://www.freepik.com/free-vector/computer-problems-cartoon_763376.htm

 

Pas de panique, l'équipe TI est bien préparée!

Avoir un plan à jour qui répartit les tâches

Vous sortez le plan d’intervention pour le suivre étape par étape. Quelle bonne idée d’avoir maintenu ce plan à jour malgré les nombreuses évolutions des systèmes! L’état de la situation est communiqué à toutes les équipes concernées, qui s’activent au travail.

Pendant que certaines personnes s’occupent à avertir les clients touchés, mettre la notice sur le site Web et informer le soutien à la clientèle qui saura comment communiquer dans cette situation, une équipe investigue le problème et une autre active le site de relève.

Remettre en fonction et investiguer

L’équipe d’investigation fait des copies des systèmes de production et extrait un maximum de logs. Tout ceci est fait en prenant soin de ne pas altérer les preuves, un peu comme un enquêteur sur une scène de crime. Elle met en place un environnement isolé pour dupliquer le système de production et tenter de comprendre la source du problème en le reproduisant.

L’équipe d’opérations récupère les copies de sauvegarde pertinentes, et remet en fonction les services prioritaires sur un site de relève, pour amoindrir les répercussions sur les opérations de l’organisation. Ce nouvel environnement est sous haute surveillance. Si une anomalie se produit, ce système sera vite fermé pour éviter la corruption ou la fuite de données.

L’équipe d’investigation comprend rapidement qu’il ne s’agit pas d’une attaque. C’est un problème interne. On peut donc écarter les interventions prévues en cas d’attaque informatique.

Bonne nouvelle! Le problème a pu être reproduit avec succès dans un environnement isolé. La cause : une anomalie tordue introduite par une fonctionnalité récente avait échappé aux tests automatisés et à la revue de code, et s’était malencontreusement retrouvée en production...

Corriger et améliorer

Un correctif rapide, qui désactive temporairement la fonction en problème, est créé et testé avec succès. Le risque étant jugé mineur, le correctif temporaire est mis en place en production, validé une seconde fois, et le site de relève peut être fermé. 

Une fois le problème réglé, c’est le temps pour revenir sur l’incident, faire un partage d’expérience, et améliorer les procédures de revue de code et des tests automatisés, pour qu’une telle erreur ne puisse plus se produire. C'est aussi l'occasion d'apporter au besoin des améliorations au plan d'intervention.

Ainsi, lors de la prochaine alerte ou du prochain exercice du plan de relève, on verra si on saura réagir plus vite et mieux!