This page contains a Flash digital edition of a book.
FOCUS DISPONIBILIDAD


Número 4. Segundo Trimestre 2011


SECCIÓN FOCUS: DISPONIBILIDAD


U


ptime Institute dispone de un archivo donde conserva memoria de todos los incidentes relacionados con paradas de servicio no planificadas de los últimos 18 años. Rick Schuknecht, vicepresidente y ejecutivo de redes globales de esta organización, ha analizado los datos recogidos para realizar estudios anuales. Yevgeniy Sverdlik, editor de DCD para la región NAM, entrevistó al directivo durante el pasado Symposium de Uptime Institute:


DCD Focus: ¿Han investigado cuál es el coste de una parada del servicio?


RS: No miramos particularmente cuál es el


La mayoría de los incidentes que producen tiempos de inactividad son atribuibles al error humano, pero una reciente encuesta del Uptime Institute concluyó que el número de humanos trabajando en los centros de datos está disminuyendo.


¿Cómo calificaría su número de empleados?


Falto de personal Falto de personal 1%


Personal de más Adecuado


Falto de personal


Personal de más Adecuado


¿Cuenta con personal 24/7 en su data center?


Personal de más Adecuado


¿Cuál es el obstáculo significativo a sus necesidades de personal?


Seguridad sólo No Sí


Cualificaciones Presupuesto


Aprobación de gestión


Cualificaciones Presupuesto


Aprobación de gestión


Aprobación de gestión


21% 18%


21% 10%


21% 18%


21% 18%


64 www.datacenterdynamics.es 61% 61%


Seguridad sólo No Sí


Seguridad sólo No Sí


Cualificaciones Presupuesto


67% 1% 1% 21% 10% 61% 69% 21% 32% 10%


67% 69%


69% 32% 67% 32%


UPTIME INSTITUTE ANALIZA EN UN ESTUDIO


LAS PARADAS DE SERVICIO El fallo humano sigue siendo la principal causa de caídas en los centros de datos. ¿Conseguirá la industria poner fin a esta tendencia?


coste. Se trata de un tema difícil. Cuando hablamos con una compañía, generalmente no quieren saber cuál es el precio de una caída. El costo de una interrupción del servicio puede encontrarse en un buen número de áreas diferentes. Puede tratarse de pérdidas en la facturación o de la reputación en la industria. O incluso de una violación de la normativa.


Las compañías, dependiendo del sector de negocio en el que operan, utilizan diferentes maneras de percibir el coste de un corte del servicio. Cuando trabajaba en el lado corporativo (y no en Uptime), en un gran banco, habíamos calculado que el coste de una caída era para nosotros de unos cinco millones de dólares por minuto.


¿Ha visto cambios en las principales causas de incidentes de downtime en los pasados cinco años?


No. Durante los pasados cinco años los datos han sido consistentes: tres cuartos, o casi tres cuartos, se pueden atribuir al error humano.


¿Es ésta, por lo tanto, la principal causa de caídas en el data center?


Los datos nos indican que cerca del 10% de los eventos se deben a verdaderas fallas. El resto son cuasi accidentes, donde algo previene que ese evento desencadene un proceso en cascada que desemboque en falla. De todas las que se han producido, aproximadamente un 73% se atribuyen directamente a un error humano, mientras que el 27% restante se distribuye entre otras categorías.


¿Podría proporcionarnos algunos ejemplos de los problemas que han detectado?


Un ejemplo se produce cuando un sistema se diseñó correctamente, pero no se construyó de forma adecuada, y por lo tanto no funciona como sería deseado. Otro caso es un sistema instalado como fue diseñado, pero no operado correctamente, lo que conduce al fallo.


Típicamente, vemos fallos relacionados con la restauración del sistema una vez que la actividad de mantenimiento se ha llevado a cabo. Generalmente, hay un script que se


El fallo humano es la mayor causa de alarma del DC


utiliza para poner fuera de servicio una pieza de equipamiento o sistema, y hay otro script para ponerlo de nuevo en servicio, y uno de estos pasos fue, o bien incorrecto, o bien no se siguió adecuadamente. El sistema se puso de nuevo en servicio… pero no funcionó porque no había sido restaurado adecuadamente.


¿Estamos hablando de todo tipo de sistemas?


Sí. Eléctricos, de refrigeración, sistemas de control, etc. Varios de los errores de los que hemos tenido constancia estuvieron directamente relacionados con la gestión inadecuada de los sistemas de prevención de incendios.


¿Hay tipos de sistemas más propensos a sufrir cortes no planificados?


En 2010 se informó de 23 fallos en un total de 305 incidentes. Unos 20 de los 23 fallos fueron eléctricos y tres mecánicos. Cerca del 80% de esos 20 (incidentes relacionados con equipo eléctrico) tuvieron lugar en los sistemas de distribución de critical power (posterior al UPS), fallos causados en su mayoría por error humano, y los otros fueron en los sistemas UPS. Los tres producidos en la parte mecánica fueron todos provocados por problemas en los sistemas anti-incendios.


¿Cuáles son las conclusiones más interesantes extraídas de estos datos?


El factor de fallo humano sigue estando en un ratio de tres por cada cuatro durante todos estos años. Dado el énfasis que instituciones como Uptime Insitute otras ponemos en presentaciones, conferencias y simposios en la interacción humana con las máquinas, es interesante que el número siga siendo el mismo.


Pero el registro está ahí y es muy estable. Año tras año, el 75% de los fallos se atribuye al error humano. Lo cual me parece muy curioso. 


Page 1  |  Page 2  |  Page 3  |  Page 4  |  Page 5  |  Page 6  |  Page 7  |  Page 8  |  Page 9  |  Page 10  |  Page 11  |  Page 12  |  Page 13  |  Page 14  |  Page 15  |  Page 16  |  Page 17  |  Page 18  |  Page 19  |  Page 20  |  Page 21  |  Page 22  |  Page 23  |  Page 24  |  Page 25  |  Page 26  |  Page 27  |  Page 28  |  Page 29  |  Page 30  |  Page 31  |  Page 32  |  Page 33  |  Page 34  |  Page 35  |  Page 36  |  Page 37  |  Page 38  |  Page 39  |  Page 40  |  Page 41  |  Page 42  |  Page 43  |  Page 44  |  Page 45  |  Page 46  |  Page 47  |  Page 48  |  Page 49  |  Page 50  |  Page 51  |  Page 52  |  Page 53  |  Page 54  |  Page 55  |  Page 56  |  Page 57  |  Page 58  |  Page 59  |  Page 60  |  Page 61  |  Page 62  |  Page 63  |  Page 64  |  Page 65  |  Page 66  |  Page 67  |  Page 68