Desenredando colaboraciones desordenadas, contribuyendo a los costos y la complejidad

A medida que las empresas confían cada vez más en su infraestructura digital, el tiempo de inactividad tiene un impacto proporcionalmente mayor. Sin embargo, aunque la atención para reducir las interrupciones en el centro de datos parece estar dando sus frutos, los costos por interrupción no están disminuyendo.

Andy Lawrence, director ejecutivo de investigación de Uptime, dice que una tendencia de “pequeñas mejoras” en las tasas anuales de interrupciones puede estar señalando el alto costo de las interrupciones restantes. Alrededor del 78 % de los encuestados en la encuesta global de centros de datos de Uptime en 2020 informaron haber experimentado interrupciones; sin embargo, en 2022 la proporción se redujo al 60 %.

“Las interrupciones más costosas pueden ser catastróficas, con la pérdida de negocios y el riesgo de reputación que a veces afecta las valoraciones de las empresas”, dice Lawrence. “Pero incluso las interrupciones más rutinarias y mucho menos impactantes se están volviendo más costosas, a medida que aumentan los costos incluso de una mitigación relativamente simple”.

A pesar del impulso para construir centros de datos de manera más económica, más personas están invirtiendo en resiliencia en el sitio junto con copias de seguridad distribuidas y servicios de recuperación en un intento por evitar la pérdida de ingresos o los impactos financieros relacionados con las interrupciones. Los apagones, por supuesto, también están sujetos a la inflación, con partes, mano de obra, infracciones de nivel de servicio y similares, todos viendo un impacto, dice Lawrence.

Alrededor del 40 % de los encuestados por Uptime eran proveedores profesionales de servicios de TI o centros de datos. Un 57% de un total de 830 encuestados procedían de organizaciones con ingresos anuales inferiores a 10 millones de dólares (principalmente consultores, ingenieros de diseño y altos ejecutivos) y el 28 % de todos los encuestados tenían su sede en Europa o el Reino Unido. Solo el 7% eran del club de más de mil millones de dólares.

Más contenido para leer:  Requisitos de almacenamiento para IA, ML y análisis en 2022

Entre aquellos en 2022 que experimentaron una interrupción en los últimos tres años, solo el 14 % clasificó una interrupción como “grave/grave”, frente al 18 % en la encuesta de 2019. Muchos fueron fallas parciales en lugar de totales de los sistemas o equipos.

Lawrence señala que evitar interrupciones, o al menos permitir una recuperación rápida y sin problemas, significa hacer inversiones (incluso en capacitación) por adelantado. Pero si bien los problemas de energía siguen siendo preocupantes, se entienden bien.

“La mayoría de los costos asociados con las fallas de energía ahora se relacionan con el reinicio de los sistemas y la recuperación y sincronización de datos”, dice.

“La compleja interconexión de la infraestructura digital modelo puede ayudar a aliviar grandes fallas en un solo sitio, pero las arquitecturas distribuidas más nuevas están sujetas a sus propias fallas. Los errores de software y configuración a menudo repercuten en diferentes sitios y servicios”.

“La mayoría de los costos asociados con las fallas de energía ahora se relacionan con el reinicio de los sistemas y la recuperación y sincronización de datos”

Andy Lawrence, tiempo de actividad

Nitha Puthran, vicepresidente sénior de nube e infraestructura de Persistent Systems, dice que los costos más altos pueden derivarse de una mayor dependencia de los sistemas y aplicaciones digitalizados, incluidos los grandes almacenes de datos habilitados para inteligencia artificial y aprendizaje automático.

Si bien los mejores sistemas de energía de respaldo y el software y los planes operativos efectivos de recuperación ante desastres están manejando más interrupciones a medida que surgen, las estrategias de recuperación ante desastres pueden no ser óptimas, con procedimientos probados exhaustivamente para garantizar la “memoria muscular”.

“Muchas organizaciones no hacen de esto una parte de su estrategia de TI, sigue siendo una ocurrencia tardía”, dice Puthran. “Les gusta gastar mucho en la infraestructura que hará funcionar el negocio diario, pero menos en construir esa redundancia que pueden considerar más como un lujo, especialmente en esa etapa de transformación”.

Las organizaciones más pequeñas que se asocian con grandes proveedores deben leer la letra pequeña, asegurándose de que comprenden los niveles de disponibilidad y no se quedan cortos. La planificación y el presupuesto para las interrupciones y su recuperación a menudo se escatiman un poco, dice Puthran, especialmente cuando los recursos son escasos.

“Y los simulacros ya no pueden ser una casilla de verificación: deben ser reales y realizarse de manera oportuna, como parte del cumplimiento, etc.”, dice, y agrega que los planes efectivos deben incluir personas, procesos y tecnología.

“Incluso si han diseñado la solución, o si lo hacen en colaboración, asegúrese de que pase por un proceso bien documentado y bien diseñado”, dice. “Si algo sucediera, ¿cómo regresamos más rápido, con menos daño?”

¿La respuesta es educación? Quizás, pero eso podría depender del tacto de un enfoque cuando proviene de un proveedor de servicios, agrega Puthran.

Usted es lo que come

Neil Thurston, tecnólogo jefe del proveedor de soluciones en la nube Logicalis, señala el “espagueti digital en la parte superior”, no solo en sí mismo una fuente de complejidad sino también de los costos consiguientes, especialmente a medida que las organizaciones se transforman para hacer frente a eventos como Covid.

Inevitablemente, es probable que algunos aspectos de este fenómeno representen una nueva normalidad y pueden verse agravados por la continua escasez de habilidades. “Dentro de nuestra propia base de clientes, que administran sus propios centros de datos y de terceros, y debido a la pandemia y la cadena de suministro global, la estandarización se ha ido por la ventana”, dice Thurston.

La gente a veces ha comprado cualquier kit que ha podido para hacer frente a la demanda en poco tiempo. Los operadores pueden tener redes subyacentes físicas superpuestas con redes virtuales definidas por software, lo que aumenta la complejidad en el lado de la red. También puede haber más piezas que funcionen mal. Y los problemas de red no siempre son obvios o fáciles de diagnosticar, dice Thurston.

“Estamos en un período en el que los ingenieros de centros de datos se enfrentarán a equipos a los que no están acostumbrados y las cosas serán diferentes, lo que dará como resultado una solución de problemas más prolongada”, dice.

“Si sucede en ese mundo virtual, el problema que tienes es que no es tan fácil como perder energía en el centro de datos. Quién se ve afectado: todos. Tienes que recuperar la energía, pero es un problema virtual, y solo tienes que seguir adelante hasta que lo encuentres. En el lado de las redes, aquí es donde se complica, porque todos diseñan una red de manera diferente”.

Parte de la estrategia podría incluir investigaciones de gestión de problemas y conocimientos que se pueden aplicar a una nueva estandarización que favorezca la automatización adicional. La “eficiencia de la ingeniería” podría acortar los ciclos de vida de las interrupciones, dice Thurston, mientras que la inteligencia artificial y las operaciones de inteligencia artificial pueden ayudar a detectar y remediar patrones.

John Graham-Cumming, director de tecnología de la empresa de seguridad web y socio tecnológico de Google, Cloudflare, señala que los centros de datos de nivel superior, especialmente, pueden ser “increíblemente estables” en cuanto a potencia y refrigeración. En cambio, las interrupciones pueden tratarse de cómo los operadores lidian con la inevitabilidad del deseo de realizar cambios continuamente, porque el software está en constante evolución, por ejemplo, en lugar de algo externo.

“Estamos en un período en el que los ingenieros de centros de datos se enfrentarán a equipos a los que no están acostumbrados y las cosas serán diferentes, lo que resultará en una solución de problemas más prolongada”

Neil Thurston, Logicalis

“Lo que funciona ha sido una combinación de cosas”, dice. “Desea encontrar dónde su sistema no es resistente. Hacemos una especie de ingeniería del caos, rompiendo cosas deliberadamente para ver qué sucede.

“Por ejemplo, desconecte servicios, máquinas o equipos de red. Con sistemas complejos grandes e interconectados, introducir el caos para resolver los problemas puede ser valioso”.

Los despliegues progresivos mientras se observan los elementos de la cadena, como el software, pueden ayudar a captar los impactos a medida que surgen, en una determinada escala o número de ubicaciones y usuarios, especialmente en un entorno heterogéneo, dice. Esto puede ayudar a descubrir rápidamente el historial y realizar un seguimiento de los cambios que afectan a X o Y a medida que ocurren.

Para Graham-Cumming, los sospechosos habituales incluyen redundancia, resiliencia, recuperación ante desastres, equilibrio de carga y más, pero la cultura puede desempeñar un papel importante en los impactos por interrupción.

Recomienda adoptar un enfoque “libre de culpa” que no desperdicie energía enfocándose en la responsabilidad de la causa o causas. En su lugar, concéntrese en que todos se unan para resolver el problema, incluidas las incógnitas inevitables, lo más rápido posible, sin repartir culpas.

“Cualquiera debería poder decir, ‘oye, estoy observando un problema o un problema potencial’ y poder llamar a un incidente en este momento para que las personas adecuadas vayan allí y lo hagan, y tener eso totalmente libre de culpa. ”, dice Graham-Cumming, “especialmente si la persona ‘responsable’ es un colaborador individual que simplemente hace su trabajo y trata de lograr algo”.

Jake Madders, director de Hyve Managed Hosting, sugiere que la diversificación de proveedores a veces puede ayudar a evitar la dependencia total de un jugador. Después de todo, cualquiera puede tener problemas imprevistos.

“Hemos visto una tendencia de aumento, creemos que está relacionado con Covid, porque todos están remotos”, dice, y agrega que esto puede hacer que las comunicaciones con los proveedores sean más complicadas a veces. Además, la falta de exposición a las conversaciones y los acontecimientos “en los escritorios” puede reducir la capacidad de una organización para mantenerse al tanto de los eventos inesperados.

“Si tenemos un cliente, pondríamos la mitad de sus cosas en el primario y luego usaríamos un suministro separado para su recuperación ante desastres, y lo mismo con nuestros ISP o proveedores de red”, dice Madders.

La innovación resuelve y añade complejidad

Con un cliente, dice Madders, están instalando su propio sistema de batería para ir entre su sistema y los racks de Hyve, un movimiento que alguna vez fue inaudito para un centro de datos de nivel tres o nivel cuatro.

Con los costos en aumento, las amenazas a la seguridad cibernética y las demandas de cumplimiento, y a pesar de las múltiples políticas y procedimientos enfocados en la resiliencia, incluidos el combustible, los generadores y el kit en el sitio, aún ocurren cortes de energía y fallas de hardware, entonces, ¿por qué dificultar las comunicaciones?

“Para algunos, un apagón de 10 minutos puede ser desastroso para su negocio”, dice Madders. “Mucho se puede predecir, pero mucho no. Puede desarrollar una estrategia, pero nuevamente, puede tener un costo prohibitivo, y todo tiene puntos débiles”.

El analista de IDC Phil Goodwin, en el informe del primer trimestre de su empresa El estado del ransomware y la preparación para desastres 2022 (lanzado en mayo y patrocinado por el proveedor de seguridad Zerto), sugiere que los riesgos para la integridad y disponibilidad de los datos en realidad nunca han sido mayores. El malware, la pérdida de datos por exfiltración y el ransomware ahora son generalizados, lo que destaca la necesidad de una recuperación ante desastres efectiva.

Casi el 80 % de los encuestados había activado una respuesta ante desastres en los últimos 12 meses, con el 61 % de esas respuestas desencadenadas por malware y el 94 % informó de tiempo de inactividad no planificado, con las causas principales que incluyen fallas de software, fallas de hardware y ransomware. La investigación separada de IDC supera el tiempo de inactividad promedio en $ 250,000 por hora en todas las industrias y tamaños de organizaciones.

Goodwin dice: “Las nuevas aplicaciones en el núcleo, en la nube y en el perímetro crean datos estructurados, no estructurados y en contenedores. Estos datos residen en servicios de almacenamiento de objetos dispersos geográficamente, como AWS S3 y Azure Blob”.

Las soluciones pueden incluir cambiar el tamaño de los acuerdos de nivel de servicio (SLA) en torno al tiempo de recuperación o la pérdida de datos para responder a esta complejidad, agrega.

Billy Durie, jefe del sector global de centros de datos del proveedor de soluciones Aggreko, confirma que más centros de datos buscan abordar los cortes de energía con la generación in situ de megavatios adicionales, a menudo temporalmente en el caso de una construcción, actualización o renovación.

“Sin embargo, el costo de reemplazar equipos o incluso piezas es cada vez más alto”, dice Durie. “Los precios del cobre están subiendo y la inflación siempre va a aumentar los costos con mano de obra, llamadas y todo lo demás. Incluso conseguir a las personas adecuadas se está volviendo difícil”.

Durie dice que donde las interrupciones se están reduciendo, puede deberse a que los operadores se han alejado de un enfoque anterior más “cortado” para diseñar específicamente para sus necesidades. Sin embargo, podría haber una mayor necesidad de preparación para el futuro y planificación de contingencia, especialmente con las presiones climáticas.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales