.

Comme d’habitude en cas d’incident sur notre plateforme, nous partageons avec nos clients, partenaires et futurs clients notre post mortem suite à l’indisponibilité de notre plateforme mercredi 23/04/2014.

Nous pensons que c’est un gage de confiance que de mettre à disposition de chacun ce que nous avons vécu, comment nous l’avons traité et ce que nous en avons tiré comme moyen d’amélioration.

Description de l’incident

Des problèmes de connexions entre Illiad/Free et Google ont perturbé les résolutions DNS de nos machines situées dans le datacenter Europe.

L’incident a impacté tous nos clients sur l’ensemble du service d’optimisation, causant des indisponibilités de leur site (erreurs 504, Gateway timeout).

Faits et timeline

Le problème a été introduit par le peering de Online à 19h52 (17h52 UTC).

Nous avons reçu une alerte pour des sites indisponibles à 20h00, via Pingdom et nous avons immédiatement identifié le problème en corrélant plusieurs de nos métriques.

A 20h18, nous publions sur le site status.fasterize.com l’apparition de l’incident.

Le problème a été corrigé à 20h30 par Online. Le trafic n’a pas été complètement re-routé vers l’origine car notre solution permettant de bypasser complètement la plateforme (Cedexis) a détecté une indisponibilité de façon intermittente. La sonde utilisée ne faisant pas de résolution DNS, elle répondait en erreur à cause des autres composants du service et non directement.

Notre “Big Red Button” (celui qui désactive tout en un clic) ne fonctionnait pas puisque fasterize.com était également indisponible. En y accédant directement, il ne fonctionnait pas non plus parce que api.fasterize.com ne résolvait pas depuis notre console d’administration.

Quelques métriques

  • Niveaux de sévérité de l’incident : Sévérité 1, arrêt du site non planifié qui affecte un nombre significatif d’utilisateurs
  • Temps de détection : 8min
  • Temps de résolution : 38min

Impacts

Sur nos clients (en terme d’usage et d’image)

Tous les clients ont été impactés mais à des degrés divers, certains ayant bénéficié du reroutage automatique à l’origine.
Tous les clients qui se sont adressés au support ont été traités leur ticket dans les 15 minutes.

Sur Fasterize

Le site web www.fasterize.com a été indisponible de 19h52 à 20h30.

Contre-mesures

  • intégrer la résolution DNS dans la sonde de détection de disponibilité de la plateforme
  • faire un mécanisme de désactivation de la plateforme accessible directement sur les machines sans passer par l’api ou zookeeper
  • tuner nos serveurs DNS (Unbound) et leur cache
  • ne pas se reposer que sur les serveurs de Google pour nos DNS (ajouter les serveurs DNS d’Online et modifier les timeout de résolution DNS pour nos serveurs DNS)

Conclusion

Nous sommes sincèrement désolés pour cette indisponibilité relative à cet incident.

Cette panne nous a montré que notre système de bascule DNS pouvait encore être amélioré et que même un grand nom comme Google ne permet pas de bénéficier de 100% de disponibilité (les DNS de Google n’ont d’ailleurs pas de SLA).

Cela nous prouve aussi qu’il ne faut pas relâcher nos efforts pour améliorer encore la résilience de la plateforme, notamment par l’ajout d’autres datacenters. Nous y travaillons et vous remercions encore une fois pour votre confiance.

Par ailleurs, nous avons mis en place depuis quelques semaines la page status.fasterize.com. Nous relayons toutes les informations concernant l’état de santé de la plateforme sur cette page sur laquelle vous avez par ailleurs la possibilité de recevoir des notifications quand nous y publions des événements.

—L’équipe Fasterize