El uso de la IA en los entornos profesionales se ha convertido en una palanca clave para ganar eficiencia, automatizar procesos y acelerar la toma de decisiones. Su integración en correos, buscadores internos o asistentes corporativos es ya una realidad cotidiana, especialmente en grandes organizaciones que manejan enormes volúmenes de información sensible.
Sin embargo, ese mismo avance ha abierto un nuevo frente de riesgo que preocupa cada vez más a los responsables de ciberseguridad. A medida que estos sistemas ganan autonomía y capacidad de análisis, también se convierten en un objetivo prioritario para actores maliciosos que buscan manipular su comportamiento desde dentro, sin necesidad de vulnerar directamente los sistemas tradicionales de defensa.
El nuevo frente de ataque que aprovecha los modelos de lenguaje
Los grandes modelos de lenguaje incorporan salvaguardas diseñadas para impedir usos indebidos, como la generación de correos fraudulentos o instrucciones dañinas. No obstante, investigadores especializados han demostrado que esas barreras pueden ser rodeadas mediante técnicas de manipulación del propio lenguaje, un fenómeno conocido como inyección de prompts. Esta técnica no ataca el software en sí, sino la forma en que interpreta las órdenes.
Desde Proofpoint, compañía especializada en ciberseguridad centrada en el factor humano, advierten de que este tipo de ataques se apoya en la propia lógica del sistema. “Los modelos están diseñados para seguir instrucciones y, si se les induce a ignorar sus normas internas mediante un contexto falso o una identidad simulada, pueden acabar ejecutando acciones que nunca deberían permitir”, explican los investigadores de la firma.
Este tipo de abuso no se produce mediante órdenes directas evidentes. Al contrario, se camufla dentro de narrativas aparentemente inofensivas que inducen al sistema a cambiar su comportamiento, ya sea adoptando un rol concreto o interpretando una situación ficticia como real. El resultado es la generación de contenido que, en condiciones normales, estaría bloqueado por los filtros de seguridad.
Cuando el ataque no lo ejecuta el usuario
La evolución más preocupante es la llamada inyección indirecta de instrucciones. En este escenario, el atacante no interactúa directamente con la herramienta, sino que introduce el mensaje malicioso dentro de un correo, un documento o un archivo adjunto. El usuario no necesita hacer nada. El propio asistente automatizado, al analizar ese contenido como parte de su trabajo rutinario, interpreta la instrucción oculta como legítima.

Este tipo de ataque es especialmente eficaz porque opera en segundo plano. El sistema analiza el contenido, lo incorpora a su contexto y ejecuta la orden sin alertar al usuario. La exfiltración de datos, la manipulación de respuestas o la alteración de resultados puede producirse sin dejar rastro visible.
“La inyección de prompts se vuelve especialmente crítica a medida que avanzamos hacia modelos más autónomos, capaces de actuar sin supervisión humana directa”, señalan los analistas de Proofpoint. “Un simple mensaje camuflado puede secuestrar el comportamiento del sistema y convertirlo en una herramienta al servicio del atacante”.
Datos, contexto y aprendizaje: el nuevo campo de batalla
A diferencia de los ataques tradicionales, esta amenaza no depende de vulnerabilidades técnicas clásicas, sino del propio proceso de aprendizaje y comprensión del lenguaje. Por eso, el foco de la defensa ya no está únicamente en firewalls o antivirus, sino en la calidad y fiabilidad de los datos que alimentan a los modelos.
Los expertos alertan de que los atacantes buscan contaminar fuentes de información, alterar contextos y aprovechar cualquier flujo automatizado para introducir instrucciones encubiertas. El objetivo no es romper el sistema, sino influir en sus decisiones futuras. En este escenario, la integridad de los datos se convierte en un elemento crítico de seguridad.
“La protección debe centrarse en comprender la intención del mensaje, no solo en analizar palabras clave”, subrayan desde la compañía. “Es imprescindible aplicar controles que evalúen el contexto, detecten patrones anómalos y verifiquen la fiabilidad de la información que consume el modelo”.
Una defensa que exige un cambio de mentalidad
Frente a este tipo de amenazas, las organizaciones deben asumir que los enfoques clásicos ya no son suficientes. La seguridad pasa por combinar análisis de comportamiento, supervisión de flujos de datos y controles específicos sobre los sistemas basados en IA, que hoy actúan como asistentes, clasificadores o motores de decisión.
La prevención exige también una revisión profunda de los procesos internos, especialmente en entornos donde los modelos acceden a correos, documentos o repositorios corporativos. Sin una gobernanza clara del dato y sin mecanismos de validación, el riesgo de manipulación se multiplica.
La realidad es que la sofisticación de estos ataques crece al mismo ritmo que la adopción de la IA en las empresas. Entender cómo se producen, anticipar sus efectos y reforzar los controles se ha convertido en una prioridad estratégica para cualquier organización que quiera aprovechar las ventajas de esta tecnología sin exponerse a consecuencias graves.








