Cuando eres el Único Humano en la Videollamada

A principios de 2024, un empleado del departamento de finanzas de Arup, una gigantesca firma multinacional de ingeniería con sede en Hong Kong, recibió un correo electrónico.

El remitente era, aparentemente, el Director Financiero (CFO) global de la empresa, operando desde el Reino Unido. El mensaje solicitaba la ejecución de una “transacción confidencial”. El empleado, entrenado en protocolos básicos de seguridad, sospechó de inmediato. El correo tenía el inconfundible aroma del phishing. Estaba a punto de reportarlo y borrarlo.

Pero entonces, la estrategia de los atacantes cambió. Invitaron al empleado a una videollamada grupal para “aclarar las dudas del proyecto”.

El empleado hizo clic en el enlace. En su pantalla aparecieron varias ventanas de video. Allí estaba el CFO. Su rostro era idéntico. Su voz tenía el mismo acento y tono de siempre. También vio a otros colegas de la empresa conectados a la llamada. Hablaron sobre negocios, dieron instrucciones claras sobre los fondos y luego se desconectaron.

Tranquilizado por la evidencia visual y auditiva, el empleado procedió. Ejecutó 15 transferencias bancarias distintas hacia cinco cuentas bancarias locales en Hong Kong.

Días después, el empleado se comunicó con la oficina central para dar seguimiento al proyecto. Solo entonces descubrió la verdad: esa videollamada nunca existió en la agenda de la empresa.

Cada persona en esa pantalla, cada rostro parpadeando, cada voz dando instrucciones, era una falsificación digital profunda (Deepfake) generada por inteligencia artificial en tiempo real. El empleado fue el único ser humano real en esa reunión.

Para cuando la empresa entendió el engaño, $25.6 millones de dólares ya habían desaparecido en la red bancaria global.

El Pivote: Cuando Ver Ya No Es Creer

Piensa en tu oficina en Costa del Este, Obarrio o la Zona Libre de Colón. Durante la última década, hemos entrenado a nuestro personal financiero para detectar errores ortográficos en correos. Les hemos enseñado a revisar si la dirección de correo dice @tuempresa.com o @tu-empresa.com.

El caso de Arup cambia las reglas de esta defensa. La ingeniería social ha dado un salto técnico que ahora nos obliga a cuestionar lo que vemos y escuchamos en tiempo real. Los atacantes han dejado atrás los textos toscos para enfocarse en explotar la confianza que sentimos al reconocer el rostro o la voz de un colega. Es una táctica que utiliza nuestra propia familiaridad como una herramienta de entrada.

Hagamos una pregunta directa: Si mañana por la mañana tu asistente financiero recibe una videollamada por Teams donde tú pides una transferencia de $50,000 para liberar una carga urgente en el puerto, ¿tienes algún sistema que detenga ese proceso? Es una posición vulnerable. Significa que la seguridad de la cuenta bancaria depende exclusivamente de que un empleado logre detectar un fallo casi invisible en los píxeles de una pantalla.

En Hong Kong, las herramientas de seguridad funcionaron exactamente como fueron diseñadas. El firewall no detectó intrusos y el antivirus no encontró malware, porque el ataque no apuntaba a los servidores, sino a la persona que los opera. Es mucho más sencillo engañar a un ser humano que vulnerar un servidor moderno. El empleado utilizó sus credenciales reales y su autoridad legítima para mover los fondos; el sistema informático simplemente procesó una orden válida, sin saber que detrás de esa instrucción había una ilusión digital.

¿Cómo lo hicieron?

La ejecución de este robo destrozó el concepto tradicional de ciberseguridad corporativa. Mientras nosotros nos enfocamos en proteger los servidores y los enrutadores, los atacantes decidieron ignorar la infraestructura técnica por completo para centrarse en algo mucho más humano: nuestra forma de percibir la realidad. Con un poco de ingenio, software común y mucha disciplina, lograron orquestar un plan que se sintió tan real como cualquier reunión de trabajo cotidiana, moviéndose con una precisión quirúrgica a través de estas etapas:

Fase 1: El Casting y el Aislamiento Psicológico. El arma se forjó en YouTube y LinkedIn. Los estafadores descargaron horas de material público del CFO: entrevistas financieras, conferencias y videos corporativos. Con esos datos alimentaron un modelo de Inteligencia Artificial para clonar su biometría facial y el timbre exacto de su voz.

Al mismo tiempo, prepararon la trampa mental. Los correos iniciales insistían en que la transacción era una “adquisición corporativa estrictamente confidencial”. Al etiquetarla como secreta, aislaron a la víctima. Lo programaron psicológicamente para que no comentara el tema con su compañero de escritorio ni lo validara por chat con otro gerente. Cuando el empleado entró a la llamada, ya operaba bajo un voto de silencio.

Fase 2: La Marioneta y la Cámara Virtual. Los atacantes inyectaron una señal de video pre-generada directamente en la plataforma de la reunión, engañando al sistema para que la viera como una webcam legítima. Los “clones” dominaron la sala con órdenes financieras estrictas, evitando conversaciones largas que pudieran romper la ilusión técnica. El empleado no tuvo oportunidad de hacer preguntas complejas.

Fase 3: El Camuflaje y la Presión Social. Un deepfake en vivo es pesado de procesar. Si el atacante mueve la cabeza muy rápido o pasa una mano frente a su rostro, la máscara digital puede desfasarse y revelar la mentira.

Para ocultar cualquier micro-defecto, mantuvieron la reunión breve y controlada. En una videollamada corporativa, nadie cuestiona una imagen un poco congelada o una voz metálica. Tu primer instinto normalmente es culpar al Wi-Fi, no asumir que es una IA.

Finalmente, aplicaron la estocada maestra: no clonaron solo al jefe. Llenaron la reunión con los rostros de otros colegas de la empresa. Si estás a solas con tu supervisor, podrías hacer preguntas. Pero si entras a una sala virtual y ves a otros cuatro directivos asintiendo en silencio, el instinto de supervivencia corporativa se activa. Nadie quiere interrumpir. Los hackers fabricaron algo mucho más peligroso que un video falso: fabricaron “prueba social”.

El Límite de la Intuición Humana

Es fácil juzgar al empleado de Arup conociendo el desenlace de la historia. Desde la comodidad de la retrospectiva, la reacción natural de cualquier gerente es pensar: “Yo me habría dado cuenta de que era un video”. Pero la realidad operativa es mucho más implacable.

Este profesional no era un novato negligente. De hecho, su primer instinto fue impecable. Detectó el correo inicial, reconoció el patrón clásico de phishing y estuvo a segundos de reportarlo y borrarlo. Hizo exactamente aquello para lo que la industria lo había entrenado durante la última década.

El colapso ocurrió durante la escalada del ataque. Su intuición estaba calibrada para desconfiar de un texto anónimo, no para enfrentarse a una sala de juntas virtual donde su jefe directo y otros colegas validaban una instrucción. Contra ese nivel de presión jerárquica y prueba social fabricada, la intuición humana simplemente se quiebra. Exigirle a un empleado que detecte micro-latencias de renderizado en un rostro mientras su “CFO” le exige velocidad en un negocio millonario es una expectativa irreal. Hizo su mejor esfuerzo con las herramientas mentales que tenía.

La pérdida de 25.6 millones de dólares es una tragedia corporativa severa, pero funciona como un simulacro con fuego real para el resto del ecosistema empresarial. Este incidente traza una línea definitiva en la arena: nos enseña que el error fundamental no fue del empleado por creer en lo que veía en su pantalla. El error estructural fue del sistema, por permitir que la percepción visual de un solo ser humano fuera el único requisito para mover esa cantidad de capital.

Esta dura lección nos deja un mapa claro de lo que ya no funciona, y nos obliga a rediseñar cómo autorizamos las decisiones de alto riesgo a partir de hoy.

¿Por qué esto importa hoy? (El escenario de 2026)

Durante un tiempo, el caso de Hong Kong se vio como una anomalía. Pero el panorama ha cambiado drásticamente. En este 2026, los expertos en finanzas y ciberseguridad coinciden en que estamos atravesando la “tormenta perfecta” de fraude impulsado por IA.

Lo que antes requería un equipo de programadores expertos, hoy se ha industrializado bajo el modelo de “Fraude como Servicio” (FaaS). Ahora, criminales sin conocimientos técnicos avanzados pueden alquilar software de suplantación de identidad por una fracción de lo que costaba hace dos años. Las herramientas para clonar identidades no solo son más baratas, sino que ahora son capaces de mantener interacciones mucho más largas y complejas sin que la imagen se rompa.

No es una predicción: es la realidad que los directores financieros (CFOs) están reportando globalmente este año. Los ataques ya no buscan solo a las gigantes de ingeniería sino a cualquier empresa con procesos de pago que dependan de la “confianza” visual.

Entonces, ¿qué hacemos?

No es realista pretender que la solución es convertirnos en ermitaños digitales. Las personas cuyas identidades fueron usurpadas en este caso no cometieron un error por estar presentes en internet; estaban dando entrevistas, publicando en LinkedIn y representando a su empresa ante el mundo. En el entorno corporativo actual, tener una huella digital no es una opción, es un requisito. No podemos pedirle a una persona que desaparezca de la red para evitar ser clonada.

La lección corporativa aquí es cruda: no puedes instalar un parche de seguridad en la mente de tu equipo ni en la imagen pública de tus directivos. Si la tecnología puede engañar a los sentidos con tanta facilidad, la única defensa lógica es construir procesos operativos que no dependan exclusivamente del juicio visual o auditivo de una sola persona.

Sobrevivir a la era de la suplantación perfecta requiere estructurar las finanzas bajo el principio de Confianza Cero (Zero Trust). Esto se traduce en tres reglas inquebrantables de arquitectura corporativa:

Verificación “Fuera de Banda” (Out-of-Band – OOB): La inmediatez es el mejor amigo del atacante. Si una solicitud de fondos extraordinaria llega por video, correo o chat, la autorización debe ocurrir obligatoriamente por un canal físicamente distinto. El protocolo debe dictar que el encargado cierre la comunicación original y realice una marcación de voz directa al número móvil privado del ejecutivo. Sin esa fricción intencional en un segundo canal, el proceso simplemente se detiene.
Autorización Multipartita: Un solo empleado, sin importar su nivel de acceso, nunca debe tener el poder unilateral de enviar fondos corporativos a un destinatario no verificado. Se requiere la aprobación técnica e independiente de al menos dos ejecutivos desde dispositivos separados. Si un clon digital engaña al primer empleado, la estafa todavía tiene que chocar contra el segundo autorizador, quien revisa la transacción en frío desde el portal bancario y sin la presión de la videollamada.
Analítica de Comportamiento Sistémico (Behavioral EDR): Aquí es donde la infraestructura técnica defiende al humano. Las herramientas de seguridad modernas observan el contexto, no solo las contraseñas. Si un analista financiero que normalmente procesa dos pagos internacionales a la semana comienza a cargar 15 transferencias al extranjero en sucesión rápida, el sistema intercepta la acción en la red. No importa si la instrucción verbal en la oficina parecía legítima; el patrón matemático es anómalo y la plataforma congela la operación automáticamente.

El Fin de la Evidencia Visual

El caso de Arup eliminó la frase “lo vi con mis propios ojos” como una justificación válida para mover dinero en el mundo de los negocios.

Es imposible evitar que alguien tome tu imagen de LinkedIn o tu voz de una conferencia para crear un clon digital. Sin embargo, lo que sí podemos controlar es el peso que esa imagen tiene en nuestras decisiones financieras. La meta no es que tus empleados se vuelvan expertos en detectar píxeles falsos, sino que tengan procesos tan sólidos que, incluso ante el engaño visual más perfecto, el sistema mantenga la puerta cerrada hasta que se cumplan las reglas de seguridad.

Fuentes

https://www.scmp.com/news/hong-kong/law-and-crime/article/3250851/everyone-looked-real-multinational-firms-hong-kong-office-loses-hk200-million-after-scammers-stage

https://www.theguardian.com/technology/article/2024/may/17/uk-engineering-arup-deepfake-scam-hong-kong-ai-video

https://www.weforum.org/stories/2025/02/deepfake-ai-cybercrime-arup/

https://prmia.org/common/Uploaded%20files/eCyber/PRMIA%20Case%20study%20-%20ARUP.pdf

https://www.cfodive.com/news/fraud-attacks-expected-ramp-up-amid-ai-perfect-storm/808816/

Herrington – Strategic process for your profits The most optimal consulting solution.