Nous allons ici présenter comment la fiabilité de la plateforme est assurée.
Pour se prémunir contre les incidents matériels qui font partie des impondérables, il est nécessaire d'utiliser plusieurs serveurs physiques. On peut profiter de la multiplication des machines de deux façons : utiliser des serveurs de secours qui prendront le relais en cas d'incident, ou bien en profiter pour faire de l'équilibrage de charge et ainsi augmenter la capacité d'accueil. Chez PepperWay, c'est cette deuxième possibilité que nous exploitons. Ainsi, si l'une des machines venait à subir un incident technique, le service ne serait que faiblement impacté, seule la capacité maximale serait diminuée temporairement, le temps de la résolution de l'incident.
Pour palier aux éventuels problèmes de routage réseau et électriques, nos serveurs sont répartis dans plusieurs salles machines de notre prestataire d'hébergement. Ainsi, si l'un des datacenters de notre prestataire devait subir un incident majeur, notre service ne serait que partiellement impacté et resterait fonctionnel.
Mais alors, comment sommes-nous informé d'un incident ?
Nos machines sont en permanence surveillées, afin de vérifier qu'elles sont toujours accessibles et que le service est fonctionnel. Si l'une des sondes venait à indiquer un problème, un email ainsi qu'un sms sont immédiatement envoyés sur le téléphone portable d'astreinte. La machine incriminée est aussi immédiatement et automatiquement sortie d'exploitation pour ne pas perturber le service.
Nous sommes donc immédiatement informés de l'incident. Il nous est alors possible d'intervenir dans les meilleurs délais, bien que l'architecture de la plateforme nous assure de la continuité de service et nous permette d'éviter d'agir dans l'urgence et la précipitation.
En cas d'incident matériel, notre prestataire en permanence sur place dans les salles machines s'occupe du remplacement de la pièce défectueuse sous un délai maximum garanti de 2H (il suffit en général de quelques minutes).
En cas d'incident logiciel, nos équipes interviennent dès réception de l'alerte pour résoudre le problème. En général, quelques minutes suffisent pour corriger l'incident. L'utilisation de terminaux téléphoniques 3G nous permet d'intervenir sur les serveurs à n'importe quel moment, et depuis n'importe quel endroit, assurant ainsi le plus haut degré de réactivité possible.
