Nous n’avons rien touché !

Chez Carboat, comme dans beaucoup d’entreprises, il n’y a pas de MEP le vendredi. Le principe étant d’avoir le temps de se retourner et d’éviter de pourrir le week-end des personnes d’astreintes et de nos internautes avec un site défaillant.

Vendredi 14h. Le monitoring est rouge…. un.e chargé de clientèle débarque, les clients appellent en masse. Les internautes ne peuvent plus déposer d’annonce.

Arf une MEP exceptionnelle a du être faite par une autre équipe. Mmmh selon l’historique des changements de prod, non. Changement clandestin qui n’aurait pas été tracé ? Non plus.

Mais qu’est-ce qui se passe ?….  Quels sont les causes de ces bombes à retardement hors MEP ?

Voici quelques cas (réels) qui nous sont déjà arrivés :

  • Un étranger dans les données : un caractère spécial qui rentre, une valeur vide non gérée dans le code.
  • C’est un serveur pas comme les autres : l’applicatif a été déployé sur 90% des instances sauf une.
  • Version ancestrale de l’applicatif : un de nos plus touchy. Le header manquait sur le site de La Centrale, entre autres effets sympas. La cause : le serveur avait récupéré (et déployé) une version ancestrale de l’applicatif sur Gitlab. L’autoscaling se déclenche régulièrement et c’est transparent d’habitude; Le serveur additionnel était allé chercher la dernière version de l’applicatif mais n’avait pas réussi (probablement un souci réseau). Il s’est alors rabattu sur la version de l’AMI, datant de 9 mois…. Version légèrement incompatible avec les services appelés.
  • Yum update fait à chaque nouvelle instance AWS déployé. Nous étions passés en blue green en terme de MEP, ce qui incluait le développement de nouvelles instances. Pas de souci pendant des semaines. Et lors d’une MEP mineure, plus rien ne fonctionnait. Apache avait été mis à jour par un script serveur lors du déploiement de la nouvelle instance, et était incompatible avec notre version.
  • Espace disque plein : il nous a mordu plusieurs fois celui là, à des endroits différents
  • Certificat HTTPS expiré sur les APIs de notre prestataire de validation du numéro de téléphone.
  • Intervention transverse : intervention infra, intervention base de données, MEP d’un autre service

Et vous, quels autres cas de bombe à retardement avez-vous rencontré ?

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s