este finde estoy disponible (i de ii)

4 de julio de 2009

Uno de los parámetros que se pueden medir matemáticamente a la hora de montar nuestro servicio IT es la disponibilidad, la fiabilidad y la mantenibilidad. Todos ellos están relacionados con el tiempo de funcionamiento de nuestro servicio. Es decir, contra menos tiempo parado pase nuestro servicio, más disponible, más fiable y menos mantenible es.
Debemos distinguir entre el tiempo de parada debido a una incidencia (por ejemplo, una caída de Internet, un disco roto, una excepción de programación no controlada, etc) y el tiempo de parada debido a un mantenimiento (actualización mensual del software, un reboot programado, etc). Todo el tiempo de mantenimiento programado no debe contabilizarse desde de la disponibilidad, fiabilidad o mantenibilidad, ya que lo que queremos calcular es el tiempo de paradas no previstas y que por tanto, pueden afectar a la calidad del servicio por lo cual el cliente está pagando.

Una parada programada no afecta a la calidad del servicio ya que el cliente en su contrato ya sabe de la existencia de tantas paradas programadas al mes (por ejemplo el servicio de correo puede sufrir 1 una parada programada al mes de no más de 5 minutos).

Como hemos dicho tenemos tres valores para calcular:

+ Disponibilidad o availability: porcentaje de tiempo activo frente a tiempo inactivo.

+ Fialibilidad o reliability: lapso de tiempo entre fallos de servicio o componentes. Este valor nos lo da el MTBS (Mean Time Between Failures o Tiempo medio entre fallos).

+ Mantenibilidad o maintainability: lapso de tiempo para reparar el servicio o componente. Este valor nos lo da el MTRS (Mean Time to Restore Service o Tiempo medio de restauración del servicio).

Supongamos que tenemos un servicio de correo electrónico con un servidor Zimbra y que durante un año estos han sido los downtimes del servicio:

05/03/2008 -> 1h de caída del servicio
16/06/2008 -> 2h de caída del servicio
01/08/2008 -> 0,5h de caída del servicio
23/11/2008 -> 8h de caída del servicio
24/11/2008 -> 2h de caída del servicio

5 paradas de 13,5 horas de caída del servicio
Horas de un año: 365 dias * 24h = 8760h

Calculamos pues la disponibilidad, la fiabilidad y la mantenibilidad:

D = ( (8760-13,5)/8760 ) * 100% =  99,8% (disponibilidad)
MTBF = (8760-13,5)/5 =  1749h entre cada fallo (tiempo medio entre fallo)
MTRS = 13,5/5 = 2,7h de reparación (tiempo medio reparación)
Ahora la pregunta es: ¿esto es malo?, ¿el cliente podría quejarse?, ¿podría cancelar el servicio de correo electrónico?. La respuesta es depende. Depende lo que hayamos firmado. Es decir, dentro del contrato existen lo que se llaman las SLA (Service Level Agreement o Acuerdos del nivel del servicio). Si en la SLA firmada por el cliente dice que la disponibilidad del servicio no será menor de 99,0% pues el cliente no tiene base para poder realizar una queja ya que estamos en el nivel establecido.