este finde estoy disponible (ii de ii)

6 de julio de 2009

Para maximizar la disponibilidad (hacerla tender a 100%) hay que minimizar el riesgo. Hay que tener bien claro cuales pueden ser los posibles fallos de mi sistema, cual es la probabilidad que esos fallos se produzcan y cuales son los impactos en mi sistema de cada uno de esos fallo.
El problema es la aparición de la palabra "probabilidad". ¿Como puedo formular una probabilidad de algo que aun no ha pasado?.

Esto es un pequeño ejemplo de un "calculo de riesgo (relativo)" en un servicio de correo electrónico. Naturalmente es solo una base, ya que dentro de un calculo de riesgo existen varios métodos predictivos e infinidad de variables de riesgo.

Supongamos que tenemos un sistema de correo en el cual, después de un estudio hemos llegado a la conclusión de que solo existen dos posibles fallos de riesgo (naturalmente son muchos más).
Una rotura de disco SCSI que hemos llegado a la conclusión de que es poco probable y por tanto tiene una probabilidad de 0,2. Otro posible fallo es la caída de la linea de Internet que esto es más frecuente con una probabilidad de 0,8.
Por otro lado hemos llegado a la conclusión que la rotura de disco tiene un impacto catastrófico ya que no tenemos RAID. Por tanto el impacto en una escala de 10 sería un 9. Para el caso de la caída de Internet, tenemos un impacto de 2 ya que tenemos una linea de Internet redundante y con un simple cambio volvemos a tener conexión.

                   Prob.    Impac.
rotura disco       0,2      9
caida de internet  0,8      2
Si realizamos este cálculo:
0,2 * 9 = 1,9 riesgo
0,8 * 2 = 1,6 riesgo
Viendo los resultados vemos que la rotura de disco me supone un mayor riesgo y por tanto debería reducir al máximo mi riesgo.
La probabilidad de que se produzca un fallo es de 0,2. Esta probabilidad es imposible cambiarla ya que es inherente al propio hardware, en este caso un disco SCSI. Lo que si puedo minimizar es el impacto si en vez de utilizar un disco SCSI, utilizo dos discos SCSI en RAID y por otro lado realizo copias de seguridad diarias. Si implantamos todo esto vemos que el impacto de la rotura de un disco pasa de 9 a 4. Si volvemos hacer nuestro análisis de riesgo tenemos que ahora (0,2*4=0,8) la caída de la linea de Internet tiene un riesgo mayor.