La Nube También Arde: Cuando el Plan B También Falla

Era una noche fría en Estrasburgo, Francia. Marzo de 2021. Dentro del datacenter SBG2 de OVHcloud, el zumbido de los ventiladores era hipnótico. Miles de servidores procesaban transacciones bancarias, alojaban sitios gubernamentales, corrían tiendas de e-commerce y mantenían vivos los mundos virtuales de videojuegos masivos como Rust.

Todo parecía normal. El SLA (Acuerdo de Nivel de Servicio) prometía un 99.9% de disponibilidad. La luz verde parpadeaba en los racks. Los clientes dormían tranquilos en Londres, París y Madrid, confiados en la promesa tácita de la era digital: la nube es eterna.

Hasta las 12:47 AM.

No fue un hacker ruso de élite. No fue un ransomware de Corea del Norte. Fue algo mucho más primitivo, casi medieval. Los informes posteriores apuntan a una batería defectuosa en un sistema de alimentación ininterrumpida (UPS). Una chispa química. Un poco de humo acre. Y luego, el caos.

En cuestión de minutos, el edificio SBG2 dejó de ser un centro de datos para convertirse en un infierno de cinco pisos. El fuego no solo consumió los servidores; alcanzó temperaturas tan altas que derritió el acero de los gabinetes y fusionó el plástico de los discos duros, convirtiendo petabytes de información en escoria tóxica.

Pero el verdadero terror para los clientes no fue el fuego físico. Fue el tweet que el fundador de OVH, Octave Klaba, envió a las 3:42 AM, mientras las llamas aún eran visibles desde kilómetros de distancia:

“Actualmente enfrentamos un incidente mayor en SBG2… Recomendamos activar su Plan de Recuperación de Desastres.”

Para miles de Gerentes de IT y CEOs alrededor del mundo, leer ese tweet fue como recibir un golpe en el estómago. ¿Por qué el pánico absoluto? Porque para muchos de ellos, ese edificio ERA su plan de recuperación.

Habían pagado por “backups”, sí. Habían marcado la casilla en el formulario de contratación. Pero no leyeron la letra pequeña ni auditaron la arquitectura. Sus copias de seguridad primarias estaban guardadas en un disco duro… situado físicamente en el mismo rack, o en la sala contigua al servidor que se está quemando.

Esa noche, empresas enteras dejaron de existir digitalmente. Facepunch Studios, creadores del juego Rust, tuvieron que admitir la derrota total ante millones de usuarios: “Pérdida total de los servidores europeos. Los datos no podrán ser restaurados”.

Años de progreso de jugadores, historiales de transacciones, bases de datos de clientes… se esfumaron. Para siempre.

La Gran Mentira del “99.9%” (El Espejismo del SLA)

Aquí es donde la historia de terror se convierte en una lección de negocios para el mercado panameño.

Existe un malentendido fundamental en las juntas directivas de Panamá sobre qué significa realmente contratar un servicio de nube (sea AWS, Azure, o un proveedor local). Los ejecutivos ven un contrato que dice “99.99% de Disponibilidad” y lo traducen mentalmente como “Seguridad Total”.

Es una mentira peligrosa.

Un SLA (Service Level Agreement) es un contrato financiero, no un escudo de física. Si un datacenter se quema, o se inunda, o es tragado por la tierra, la garantía del “99.99%” generalmente solo significa que el proveedor te debe un reembolso por el servicio de ese mes.

Hagamos la matemática del desastre:

Tu empresa pierde $50,000 por hora que está fuera de línea.
El datacenter se quema y tardas 3 semanas en reconstruir tu data desde cero (si es que puedes).
Pérdida total para tu negocio: Millones de dólares + Reputación destruida.
Compensación del proveedor según el SLA: Un crédito de $500 en tu próxima factura por “tiempo de inactividad”.

El contrato protege al proveedor, no a tus datos. La “Nube” es simplemente la computadora de otra persona en un edificio con aire acondicionado. Y como aprendimos en Estrasburgo, los edificios se queman.

El Contexto Local: No es Fuego, es Agua (y Sal)

“Pero Shadwell,” dirás, “Panamá no tiene incendios masivos de datacenters todos los días”.

Cierto. Nuestro enemigo es más silencioso.

En Panamá, hemos entrado a “cuartos de servidores” de empresas logísticas que facturan millones, solo para encontrar el rack principal debajo de una tubería de aire acondicionado que condensa agua. Hemos visto servidores críticos en torres de Punta Pacifica expuestos a niveles de salinidad que corroen los circuitos en silencio, esperando el día más inoportuno para fallar.

Y no olvidemos nuestra dependencia de la conectividad submarina. En Tonga (2022), una erupción volcánica cortó el único cable submarino que conectaba a la nación. Tonga desapareció de internet. En Panamá, no necesitamos un volcán. A menudo, es un barco pesquero arrastrando un ancla en aguas poco profundas, o una retroexcavadora en la Vía España cortando la fibra óptica principal de tu proveedor.

Si tu empresa en Costa del Este depende de un solo hilo de fibra, o de un solo cuarto de servidores en Obarrio, no tienes un negocio; tienes una apuesta de casino.

El “Milagro de Lagos”: Cuando la Suerte es tu Única Estrategia

Si crees que esto solo le pasa a empresas pequeñas que no invierten en IT, hablemos de Maersk.

En 2017, el gigante naviero global fue golpeado por el malware NotPetya. Fue una aniquilación total. En cuestión de minutos, 45,000 computadoras y 4,000 servidores en todo el mundo fueron encriptados irreversiblemente. Maersk mueve el 20% del comercio mundial. De repente, no sabían qué contenedores estaban en qué barcos. El comercio global se detuvo.

Sus ingenieros corrieron a los backups. Pero el malware se había replicado a través de la red y había borrado los backups también. Maersk estaba, efectivamente, muerta.

¿Cómo sobrevivieron? Por un milagro.

Encontraron un único controlador de dominio sobreviviente en una oficina remota en Lagos, Nigeria. ¿Por qué sobrevivió? Porque en el momento exacto del ataque, hubo un apagón en la ciudad y el servidor estaba desconectado de la corriente.

Maersk tuvo que volar a un ingeniero a Nigeria, tomar el disco duro físico, volar a Londres y reconstruir toda su red global desde esa única copia salvada por un corte de luz.

La lección: Si la supervivencia de tu empresa depende de que haya un apagón fortuito en África, no tienes una estrategia de seguridad. Tienes suerte. Y la suerte siempre se acaba.

Los Archivos del Caos: No Fue Solo Una Vez

Si crees que lo de Francia fue mala suerte, revisemos los archivos. Esto no es un evento aislado; es un patrón de negligencia física.

Caso #1: Cuando los Bomberos Ahogaron a Google (París, 2023) Dos años después de OVH, otro incendio golpeó. Esta vez fue un datacenter de Google Cloud en París (europe-west9-a). El fuego fue pequeño, pero la solución fue peor: el agua usada por los bomberos inundó las salas de servidores, causando una falla multi-cluster. Lección: Tu firewall digital no detiene el agua real.
Caso #2: Delta Airlines (2016): Un fallo en un switch de energía en su centro de operaciones en Atlanta costó $150 millones de dólares y canceló 2,000 vuelos. No fue un hackeo. Fue un enchufe.

La Solución: Arquitectura Paranoica (The Shadwell Way)

No escribimos esto para que canceles tu suscripción a la nube y compres servidores físicos (eso sería volver al pasado). Lo escribimos para que seas un Cínico de la Nube.

En Shadwell, operamos bajo una filosofía de Pesimismo Constructivo.

Cuando diseñamos una solución de Nube o Conectividad para una empresa panameña, no asumimos que “todo saldrá bien”. Asumimos que el edificio se va a quemar. Asumimos que el cable se va a cortar. Asumimos que una retroexcavadora cortará la fibra óptica mañana a las 9:00 AM.

Así es como evitamos que te conviertas en el próximo titular de noticias:

Geo-Redundancia Real: No hacemos copias de seguridad en el mismo edificio. Si tu servidor principal está en Panamá, tu réplica debe estar en Miami o AWS East. Si Estrasburgo arde, tu negocio debe encenderse en Roubaix automáticamente.
Agnosticismo de Proveedor: No te cases con una sola infraestructura. Shadwell Cloud integra múltiples rutas y proveedores. Si un datacenter cae, el tráfico se redirige.
Este es el estándar de oro que salvó a las pocas empresas que sobrevivieron a los desastres de OVH y Maersk.

3 Copias de tus datos: Nunca tengas una sola versión de la verdad.
En 2 Medios diferentes: No todo puede estar en el mismo tipo de disco o plataforma.
1 Copia Off-site e INMUTABLE: Esta es la clave. “Inmutable” significa que, aunque un hacker (o un empleado enojado) consiga las claves de administrador, no puede borrar ni alterar esa copia por un periodo de tiempo definido.

El Veredicto Final

El CEO de OVH tenía razón en su tweet, aunque llegó demasiado tarde para salvar a sus clientes. El momento de activar tu Plan de Recuperación no es cuando ves el humo saliendo del servidor. Es hoy, mientras todo funciona “bien”.

La nube es maravillosa. Nos da agilidad, velocidad y escala. Pero nunca olvides que la nube también arde. La diferencia entre una anécdota de bar y la bancarrota es qué tan lejos de las llamas guardaste tus paracaídas.

¿Tu estrategia de backup sobreviviría a un incendio físico o a un ransomware total? ¡Revisa! Nunca puedes estar demasiado seguro.

Herrington – Strategic process for your profits The most optimal consulting solution.