Toutes les collections
Rapports d'incidents
Rapport d'incident 11 mai 2022
Rapport d'incident 11 mai 2022

Rapport d'incident sur les ralentissements et crash du 11 mai 2022

Félix Vercouter avatar
Écrit par Félix Vercouter
Mis à jour il y a plus d’une semaine

Résumé

Pendant la nuit du mardi 10 mai au mercredi 11 mai 2022, nous avons déployé un nouvel outil de log sur l'infrastructure. Cet outil qui a passé nos validations en "staging" et "préproduction" s'est révélé être mal configuré par rapport au volume de la production. Les développeurs ont collecté un maximum de données sur la cause du problème et la configuration nécessaire pour le résoudre.


Cause

Mise en place d'un outil

Un nouvel outil de log nous permettant de suivre plus facilement les erreurs, les actions en échec, les problèmes inopinés sur la plateforme a été déployé. Cet outil analyse tout ce qui se passe sur le portail et digère un nombre extrêmement volumineux de données. Ce transit de données a été testé sur nos deux environnements de tests et a passé les validations. Dans la pratique, la production s'est finalement vue ralentir et jusqu'à certaines coupure de services intermittentes.


Résolution

Rollback

Nous avons fait un "rollback" (retour à une situation antiérieure) de la production pour annuler la mise en production de l'outil. Ceci a solutionné immédiatement le problème.

Actions correctives

Les développeurs corrigent la configuration de l'outil et son intégration sur l'infrastructure afin de ne plus empiéter sur le trafic de données.


Conclusion

L’équipe Dokeos s’excuse sincèrement pour la gêne occasionnée ce mercredi 11 mai 2022. Les actions correctives décrites ci-dessus sont déjà en cours de mise en place à l’heure où vous lisez ces lignes.

Avez-vous trouvé la réponse à votre question ?