Résumé
Pendant la nuit du mardi 10 mai au mercredi 11 mai 2022, nous avons déployé un nouvel outil de log sur l'infrastructure. Cet outil qui a passé nos validations en "staging" et "préproduction" s'est révélé être mal configuré par rapport au volume de la production. Les développeurs ont collecté un maximum de données sur la cause du problème et la configuration nécessaire pour le résoudre.
Cause
Mise en place d'un outil
Un nouvel outil de log nous permettant de suivre plus facilement les erreurs, les actions en échec, les problèmes inopinés sur la plateforme a été déployé. Cet outil analyse tout ce qui se passe sur le portail et digère un nombre extrêmement volumineux de données. Ce transit de données a été testé sur nos deux environnements de tests et a passé les validations. Dans la pratique, la production s'est finalement vue ralentir et jusqu'à certaines coupure de services intermittentes.
Résolution
Rollback
Nous avons fait un "rollback" (retour à une situation antiérieure) de la production pour annuler la mise en production de l'outil. Ceci a solutionné immédiatement le problème.
Actions correctives
Les développeurs corrigent la configuration de l'outil et son intégration sur l'infrastructure afin de ne plus empiéter sur le trafic de données.
Conclusion
L’équipe Dokeos s’excuse sincèrement pour la gêne occasionnée ce mercredi 11 mai 2022. Les actions correctives décrites ci-dessus sont déjà en cours de mise en place à l’heure où vous lisez ces lignes.