Bonjour ! :)
Merci pour vos commentaires (Il en faut, cela nous permet de savoir où se trouvent nos lacunes lorsqu'il y en a pour pouvoir les corriger). D'un point de vue interne, nous n'avons pas le même ressentit que nos utilisateurs qui eux voient la chose d'un autre regard, impuissant
Pour vous expliquer un peu la structure du mutualisé, elle est découpée en "Zones" ... Si vous êtes hébergé sur dns-4-x par exemple , vous ne serez probablement pas impacté par un incident sur dns-5-x ou dns-3-x , tout dépend de l'importance de la panne (Malgré le fait que certaines zones se situent dans d'autres DC et sont prévues pour fonctionner même si un autre zone n'est pas joignable)
Sur le monitoring, lorsqu'un défaut survient, il n'est pas impossible que celui-ci ne soit pas affiché sur l'interface "publique" présente sur le site. De notre coté, nous supervisons la plateforme avec une interface plus complète qui reporte un état plus complet de chaque machine ou chaque service.
Il nous est impossible de prévoir les bugs et incidents, la plupart des soucis que nous avons sont résolus de façon automatique par des automates prévus à cet effet, d'autres soucis eux nécéssitent une intervention manuelle qui nous est également signalée. Il peut arriver également dans certains cas exeptionnel que le bug ne soit pas vu car ne concerne qu'un client en particulier ou une base de données, un virtualhost, etc etc... A ce moment, nous corrigeons et tentons de comprendre comment cet élément n'a pas été detecté, afin qu'il le soit a l'avenir.
L'incident qui s'est produit dimanche matin est survenu suite à deux coupures EDF proches qui ont mises en défaut et ont fait disjoncter une partie des lignes ondulées, à la remise en route, cela avait affecté une partie du brassage réseau du datacenter qui ont eu du mal a remonter, puis une autre partie de brassage plus proche localement des serveurs qui avait également du mal a remonter, cela a concerné une partie du mutualisé. Nous accordons une priorité maximale a la correction des incidents et communiquons publiquement dès que nous le pouvons, durant un "temps mort" par exemple et analysons les remontées par ticket et SMS pour avoir une ampleur plus globale, même si il est des fois impossible de répondre a tout le monde a cause du volume de messages reçus en très peu de temps. Ce genre d'incident est impossible a prévoir et nous faisons tout pour écourter au maximum la gêne ocassionnée
Du coté de la maintenance qu'il y a eu Lundi, elle n'était pas plannifiée et a fait suite de façon urgente aux incidents survenus la veille. La plupart des maintenances ne nécessitent pas, dans la plupart des cas, d'interruptions de service et sont donc effectuées de façon routinières. Celles nécessitant un arrêt de service sont communiquées via les différents supports dans un délais raisonnable, et sont généralement effectuées de nuit pour gener le moins de monde possible.
En tout cas, les bonnes pratiques à adopter sont de s'assurer d'avoir des sauvegardes fréquentes de ses différents sites quoiqu'il en soit (FTP + MySQL) sur son ordinateur personnel ou dans un autre lieu, et en cas d'incident de nous faire parvenir un ticket ou message facebook ou un SMS ou un mail et suivre les différentes communications facebook le cas échéant. Le forum est un espace communataire, y reporter un incident ou un problème n'est pas pertinent dans l'urgence car nous travaillons sur ces canaux que sur notre temps libre
Voilà, j'espère avoir fait le tour et avoir éclairci ce sujet ! :)
#C_Stephen