Un peu en retard sur ce poteau mais ça vaut le partage:
J’ai été personellement responsable d’environ 140k€ de pertes dues à un arrêt de production dans une usine Tefal en Allemagne.
J’étais un sysadmin junior, dans une équipe chargée de mettre a jour tous les serveurs de toutes les usines Tefal dans le monde. Le process était évidemment très carré, pas la place a l’erreur et le mec qui avait construit le process savait ce qu’il faisait. La veille, je fais mes checks et je m’aperçois qu’un composant d’un des serveurs de l’usine est défaillant, donc j’applique le process en vigueur et j’annule l’opération le temps qu’un technicien dell remplace la pièce sous garantie. Je préviens le responsable IT du site pour qu’il lui ouvre la porte et l’amène aux serveurs, mais l’assistante administrative me répond pour me dire qu’il est en arrêt. Pas de soucis, il faut juste lui montrer le serveur et il fait son job, pas besoin de quelqu’un de qualifié.
Le technicien arrive, je fais la bascule des services vers l’autre serveur pour qu’il n’y ait pas d’interruption et j’éteins le serveur. Il me dit qu’il commence l’opération donc je met une alarme dans 30 min et je vais chercher un café. 30 minutes plus tard l’alarme sonne, ce qui est étrange parce que en général ils sont plus rapides que ça mais ça arrive, peut être qu’il est nouveau. J’envoie un message à l’assistante administrative qui me dit “tout va bien il a presque terminé, par contre c’est normal qu’on peut plus imprimer depuis une demi heure?”
Comment ça mon reuf? L’impression c’est pas juste imprimer des fiche de paie, c’est l’impression des cartons qu’ils mettent dans les produits de l’usine, donc la production est stoppée depuis 30 minutes. Branle bas de combat, je regarde les services et… La VM qui porte le serveur d’impression est en écran bleu. quand j’ai fait la bascule des services, le le systeme de partage de données sous-jacent n’a pas correctement basculé et il est dans un etat complètement eclaté.
Le technicien finit son intervention a ce moment là (ouf) et rebranche le serveur, mais maintenant c’est deja trop tard, le système de fichiers est a la ramasse, donc il faut le faire reconstruire (heureusement il y a une fonction pour ça). Temps restant estimé: 14 heures. L’assistante administrative me demande quand est-ce que l’impression reviendra parce qu’ils perdent 10k€/heure avec les employés qui sont au chômage technique en 3*8 et le manque de production.
Oups.
Au post mortem, on verra que finalement ce n’était pas ma faute, j’ai appliqué la procédure a la lettre et c’est le système de fichiers qui est nul (mais ca on le savait deja).
Au meme boulot, j’ai aussi eu l’éclair de génie pour résoudre un problème: faire tourner un serveur depuis une clé USB. Ça a marché du tonnerre pendant 3 semaines jusqu’à réception de la pièce.
Un peu en retard sur ce poteau mais ça vaut le partage:
J’ai été personellement responsable d’environ 140k€ de pertes dues à un arrêt de production dans une usine Tefal en Allemagne.
J’étais un sysadmin junior, dans une équipe chargée de mettre a jour tous les serveurs de toutes les usines Tefal dans le monde. Le process était évidemment très carré, pas la place a l’erreur et le mec qui avait construit le process savait ce qu’il faisait. La veille, je fais mes checks et je m’aperçois qu’un composant d’un des serveurs de l’usine est défaillant, donc j’applique le process en vigueur et j’annule l’opération le temps qu’un technicien dell remplace la pièce sous garantie. Je préviens le responsable IT du site pour qu’il lui ouvre la porte et l’amène aux serveurs, mais l’assistante administrative me répond pour me dire qu’il est en arrêt. Pas de soucis, il faut juste lui montrer le serveur et il fait son job, pas besoin de quelqu’un de qualifié.
Le technicien arrive, je fais la bascule des services vers l’autre serveur pour qu’il n’y ait pas d’interruption et j’éteins le serveur. Il me dit qu’il commence l’opération donc je met une alarme dans 30 min et je vais chercher un café. 30 minutes plus tard l’alarme sonne, ce qui est étrange parce que en général ils sont plus rapides que ça mais ça arrive, peut être qu’il est nouveau. J’envoie un message à l’assistante administrative qui me dit “tout va bien il a presque terminé, par contre c’est normal qu’on peut plus imprimer depuis une demi heure?”
Comment ça mon reuf? L’impression c’est pas juste imprimer des fiche de paie, c’est l’impression des cartons qu’ils mettent dans les produits de l’usine, donc la production est stoppée depuis 30 minutes. Branle bas de combat, je regarde les services et… La VM qui porte le serveur d’impression est en écran bleu. quand j’ai fait la bascule des services, le le systeme de partage de données sous-jacent n’a pas correctement basculé et il est dans un etat complètement eclaté.
Le technicien finit son intervention a ce moment là (ouf) et rebranche le serveur, mais maintenant c’est deja trop tard, le système de fichiers est a la ramasse, donc il faut le faire reconstruire (heureusement il y a une fonction pour ça). Temps restant estimé: 14 heures. L’assistante administrative me demande quand est-ce que l’impression reviendra parce qu’ils perdent 10k€/heure avec les employés qui sont au chômage technique en 3*8 et le manque de production.
Oups.
Au post mortem, on verra que finalement ce n’était pas ma faute, j’ai appliqué la procédure a la lettre et c’est le système de fichiers qui est nul (mais ca on le savait deja).
Au meme boulot, j’ai aussi eu l’éclair de génie pour résoudre un problème: faire tourner un serveur depuis une clé USB. Ça a marché du tonnerre pendant 3 semaines jusqu’à réception de la pièce.