Annonce ToutSurTout

Bienvenue sur toutsurtout.biz

Radio TST

Si vous souhaitez participer vous aussi aux discussions sur le forum, il faut vous inscrire ou vous identifier.

Le Thème TST Printemps est maintenant en place.

Les inscriptions sont actuellement OUVERTES.

Message 1 Discussion postée le 10-04-2020 à 15:18:54

Loic
Avatar de Loic


Titre: Administrateur d'élite
Avancement: Niveau 5
Lieu: Avec Solenne
Date d'inscription: 26-09-2009
Messages: 104 845
Site web

Microsoft Azure : 5 heures de retard, le responsable dormait

https://www.world-lolo.com/images/uploads/image.num1586524671.of.world-lolo.com.jpg



Technologie : Microsoft promet de meilleures communications avec ses clients alors que Azure ploie sous la demande accrue de cloud computing en pleine pandémie de Coronavirus.

Microsoft a reconnu qu'il lui avait fallu cinq heures pour prendre en compte des perturbations affectant les clients européens à la fin du mois de mars. Pourquoi ? Parce que la tâche d'informer les clients reposait sur un gestionnaire d'incidents basé aux États-Unis, qui dormait à ce moment-là.

Les retards ont affecté les clients en Europe pendant trois jours à partir du 24 mars. Cependant, au début, alors que les clients se débattaient avec des services Azure extra-lents, Microsoft a largement manqué son objectif de 10 minutes pour reconnaître les problèmes sur sa plate-forme de cloud computing.

Dans un post de blog, Chad Kimes, directeur de l'ingénierie chez Azure, admet que la communication de Microsoft "pendant cet incident a également été problématique" et s'excuse pour la frustration et la confusion que cela a causées aux 6136 clients concernés.

Des contraintes de capacité des machines virtuelles.

Le problème technique lui-même a été causé par des contraintes de capacité des machines virtuelles dues à une forte demande de ressources de calcul sur Azure. Ce qui a entraîné des retards de 21 minutes affectant le service Pipelines DevOps de Microsoft pour la publication de nouvelles versions ciblant les agents Windows et Linux sur Azure. Le délai le plus long a été de neuf heures, selon M. Kimes.

"Le problème est que nos processus sur site ont une lacune pour ce type d'incidents", a déclaré M. Kimes.

"Lorsque les incidents impliquent des défaillances côté demande client ou des impacts sur les performances, nous disposons d'un outil automatisé qui lance un incident et communique avec un responsable dans ce que nous appelons un PIM (gestionnaire d'incident primaire)", ajoute-t-il.

Microsoft dit qu'il prévoit d'améliorer ses processus.

"Les retards de pipeline sont détectés par différents outils, et le PIM n'est actuellement pas fait pour ce type d'incidents. Par conséquent, alors que le responsable s'efforçait de comprendre les problèmes techniques et de chercher des solutions pour les atténuer, le PIM était encore en sommeil. Ce n'est que lorsque le PIM a été alerté que l'incident a finalement été reconnu".

Microsoft dit qu'il prévoit d'améliorer ses processus pour "s'assurer que la communication initiale des incidents de retard de pipeline se déroule selon le même calendrier que les autres types d'incidents".

L'entreprise procède également à des modifications architecturales afin d'atténuer les goulets d'étranglement.


http://www.toutsurtout.biz/img/UserBarTST.gif
http://www.toutsurtout.biz/img/Sign-Loic.gif
Loic DL un jour, Loic DL toujours ...