Toutes les collections
Rapports d'incidents
Rapport d'incident septembre 2023
Rapport d'incident septembre 2023

Rapport d'incident sur les ralentissements de septembre 2023

Félix Vercouter avatar
Écrit par Félix Vercouter
Mis à jour il y a plus d’une semaine


Résumé

Début septembre 2023, nos outils de surveillance ont détecté des pics de charge sur notre base de données. Dokeos dispose d’une seconde base de données appelée « Réplica » qui permet d’absorber une certaine quantité de charge et éventuellement prendre le relais de la base de données principale. A plusieurs reprises, la base de données principale est arrivée subitement à saturation de manière aléatoire. Nos équipes ont donc activé les mécanismes de « switch » entre la principale et la secondaire. Ce switch prend entre 5 et 10 minutes et provoque une coupure de quelques minutes du service complet. Nous avons mené des investigations sur les différentes sources de ces pics de charge et avons identifié plusieurs causes.

Pendant 5 jours, nous avons déployé des correctifs permettant d’optimiser des pages, exports, requêtes, qui étaient sources de lenteurs et surcharge. 2 semaines après les premiers correctifs, la fréquence des ralentissements a drastiquement diminué mais ceux-ci n’ont pas complètement disparu.

Une solution plus extrême a été mise en oeuvre : changer la puissance du serveur de la base de données. D’autres optimisations ont été apportées sur notre serveur asynchrone qui traite les demandes d’exports mais celles-ci n’ont toujours pas solutionné à 100% la saturation en mémoire de la base de données.

Nous avons finalement doublé la capacité du serveur de la base de données, ce qui permet maintenant d’absorber confortablement la charge totale de tous nos clients.


Causes

Rentrée scolaire

La rentrée scolaire a fait gonfler le trafic sur nos serveurs. En effet, la combinaison d’une augmentation des apprenants et des retours de congés des clients qui doivent rapidement traiter un gros volume de données ont provoqué une surcharge de la base de données en lecture et en écriture.

Optimisations des pages

Certaines de nos pages de statistiques n’avaient pas encore été soumises à une charge aussi grosse que celle de la rentrée 2023. Ces pages ou requêtes ont surchargé la base de données en faisant parfois ralentir fortement la production.


Résolution

Optimisation de pages

Nous avons méthodiquement analysé les rapports de nos outils de monitoring pour obtenir les différentes sources de pics de charge. Nous avons ensuite lancé une série de chantiers d’optimisation sur plusieurs pages :

  • Statistiques des parcours de formation ;

  • Statistiques des apprenants ;

  • Page des parcours de formation ;

  • Liste des formations dans les statistiques ;

  • Page des groupes ;

Changement d’infrastructure

Nous avons doublé la RAM et le CPU du serveur de la base de données.


Conséquences

Le changement de serveur a pris 3 jours et a provoqué une interruption de certains systèmes et mécanisme d’enregistrements asynchrones.

Attention, nous avons remarqué qu’il était possible d’avoir des informations manquantes sur les dates de sortie d’un module dans les logs entre le 25 et le 27 septembre.

Si vous êtes un client de type « DPC » et que vous êtes concernés par ces logs Entrée-Sortie, veuillez contacter votre chef de projet Dokeos.


Conclusion

L’équipe Dokeos s’excuse pour la gêne occasionnée ce début d’année scolaire 2023. Nous continuons activement notre travail d’optimisation sur les pages lourdes et avons déjà identifié une série de chantier. Notre objectif de cette fin d’année 2023 est l’optimisation de l’infrastructure. Ceci en parallèle de super nouvelles fonctionnalités qui viendront enrichir votre expérience sur notre LMS.

Avez-vous trouvé la réponse à votre question ?