Chatbots como ChatGPT de Open AI y Bard de Google son vulnerables a los ataques de inyección indirecta. Los investigadores de seguridad indican que los agujeros se pueden tapar, más o menos.

Es fácil engañar a los grandes modelos de lenguaje (LLM, por sus siglas en inglés) que hacen funcionar a chatbots como ChatGPT de OpenAI y Bard de Google. En un experimento realizado en febrero, unos investigadores de seguridad forzaron a Bing de Microsoft a comportarse como un estafador. Las instrucciones ocultas en una página web creada por el equipo ordenaban al chatbot que solicitara a quien lo usaba los datos de su cuenta bancaria. Este tipo de ataque, en el que la información encubierta obliga al sistema de inteligencia artificial (IA) a comportarse de forma no deseada, es solo el principio.
Desde entonces se han creado cientos de ejemplos de ataques de “inyección indirecta”, en los que se insertan prompts (instrucciones) secretas para alterar la conducta del modelo de IA. Este tipo de ataque se considera actualmente una de las formas más alarmantes en que los hackers abusarían de los modelos de lenguaje. Conforme las grandes corporaciones y las startups más pequeñas ponen en marcha sistemas de IA generativa, el sector de la ciberseguridad se esfuerza por concientizar sobre los peligros potenciales. Al hacerlo, esperan mantener la información, tanto personal como corporativa, a salvo. En estos momentos no existe una solución mágica, pero unas prácticas de protección comunes reducirían los riesgos.

La amenaza de la inyección de prompts en chatbots de IA


“La inyección indirecta de prompts es definitivamente una preocupación para nosotros”, comenta Vijay Bolina, director de seguridad de la información de la unidad de inteligencia artificial DeepMind de Google, quien afirma que esta empresa tiene en curso múltiples proyectos para comprender cómo se puede atacar a la IA. Anteriormente, señala Bolina, la inyección de prompts se consideraba “problemática”, pero la situación se ha agudizado desde que la gente comenzó a conectar los LLM a internet y a plug-ins, que añaden nuevos datos a los sistemas. A medida que más empresas los utilicen, alimentándolos potencialmente con más información personal y corporativa, todo se complicará. “Sin duda creemos que esto es un riesgo y, de hecho, limita los usos potenciales de los LLM para nosotros como industria”, observa Bolina.
Los ataques de inyección de prompts se dividen en dos categorías: directos e indirectos. Y esta última es la que más alarma a los expertos en seguridad. Cuando se utiliza un LLM, las personas formulan preguntas o dan instrucciones mediante prompts a los que el sistema responde. Las inyecciones directas se producen cuando alguien intenta que el LLM conteste de forma no deseada, por ejemplo, haciendo que genere discursos de odio o respuestas perjudiciales. Las inyecciones indirectas, que son las más preocupantes, van un paso más allá. En lugar de que el usuario introduzca un prompt malicioso, la orden procede de un tercero. Un sitio web que el LLM lea o un PDF que analice podrían, por ejemplo, contener instrucciones ocultas para que las siga el sistema de IA.

“El riesgo fundamental que se esconde detrás de todo esto, tanto para las instrucciones directas como para las indirectas, es que quien proporciona la entrada [o consulta] al LLM tiene un alto grado de influencia sobre la salida [o resultado]”, declara Rich Harang, arquitecto principal de seguridad centrado en sistemas de IA en Nvidia, la mayor fabricante mundial de chips de inteligencia artificial. En pocas palabras: si alguien es capaz de introducir datos en el LLM, posiblemente pueda manipular lo que este arroja como respuesta.

Los investigadores de seguridad han demostrado de qué manera se recurriría a las inyecciones indirectas de prompts para robar datos, manipular el currículum de alguien y ejecutar código de forma remota en una máquina. Un grupo de investigadores en la materia las clasifica como la principal vulnerabilidad para quienes implementan y manejan LLM. Y el Centro Nacional de Ciberseguridad, una rama del Cuartel General de Comunicaciones del Gobierno (GCHQ, por sus siglas en inglés), la agencia de inteligencia de Reino Unido, ha alertado incluso sobre el riesgo de esta clase de ataques, afirmando que se han producido cientos de casos hasta la fecha. “Aunque se está investigando la inyección de prompts, es posible que se trate simplemente de un problema inherente a la tecnología de los LLM”, resaltó la división del GCHQ en una publicación de su blog. “Existen algunas estrategias que dificultaría la inyección de prompts, pero todavía no se cuenta con soluciones infalibles”.

Medidas de seguridad contra la inyección indirecta de prompts

El vocero de OpenAI, Niko Felix, declara que las inyecciones de prompts son un área de investigación activa, mientras que la compañía ya ha hecho notar anteriormente los “jailbreaks”, otro término utilizado para algunas inyecciones de este tipo en las que los hackers aprovechan los fallos de un dispositivo electrónico para instalar software malicioso y violar las restricciones y protecciones del sistema operativo del fabricante. Caitlin Roulston, directora de comunicaciones de Microsoft, indica que la empresa tiene “equipos grandes” trabajando en los problemas de seguridad. “Como parte de este esfuerzo continuo, tomamos medidas para bloquear sitios web sospechosos y mejoramos continuamente nuestros sistemas para ayudar a identificar y filtrar este tipo de prompts, antes de que lleguen al modelo”, subraya Roulston.

Aunque los sistemas de IA creen nuevos problemas, también podrían ayudar a resolverlos. Bolina, de Google, sostiene que la compañía emplea “modelos especialmente entrenados” para “ayudar a identificar entradas maliciosas y salidas inseguras conocidas que violan nuestras políticas”. Nvidia publicó una serie de reglas de seguridad de código abierto para añadir restricciones a los modelos. Pero estos métodos únicamente sirven hasta cierto punto; no es posible conocer todas las formas en que se utilizan los prompts maliciosos. Tanto Bolina como Harang, de Nvidia, afirman que los desarrolladores y las empresas que deseen implantar LLM en sus sistemas deben adoptar una serie de buenas prácticas del sector de la seguridad para reducir los riesgos de inyecciones indirectas. “Tienes que pensar en la forma en que integrarás e implementarás estos modelos en aplicaciones y servicios adicionales”, señala Bolina.
“En el momento en que tomas información de terceros, como internet, no puedes confiar en el LLM más de lo que lo harías en un usuario aleatorio de la web”, resalta Harang. “La cuestión central es que siempre debes situar al LLM fuera de cualquier límite de confianza, si quieres centrarte verdaderamente en la seguridad”. Dentro de la ciberseguridad, los límites de confianza permiten establecer hasta qué punto se puede recurrir a determinados servicios, y los niveles de acceso que estos obtienen a ciertos tipos de datos. Aislar un sistema reduce el riesgo. Desde que OpenAI introdujo los plug-ins para ChatGPT a principios de este año, añadió la autenticación de usuario, lo que significa que las personas tienen que aprobar el momento en que los complementos quieren realizar algunas acciones. Harang comparte que las organizaciones deben saber quién desarrolló las extensiones y cómo se diseñaron antes de integrarlas.
Bolina, de Google, explica que cuando se conectan sistemas a los LLM, también se debe seguir el principio de ciberseguridad del mínimo privilegio, otorgando al sistema el nivel más bajo de acceso a los datos que necesita y la menor capacidad para realizar los cambios necesarios. “Si pido a un LLM que lea mi email, la capa de servicio que proporciona esa interacción ¿debería conceder a ese mismo servicio [la capacidad] de redactar los correos? Probablemente no”, resalta. En definitiva, agrega Harang, se trata de una nueva versión de un viejo problema de seguridad. “La superficie del ataque es nueva. Pero los principios y las amenazas con los que lidiamos son los mismos a los que llevamos enfrentándonos más de 30 años”.

Artículo publicado originalmente en WIRED UK. Adaptado por Andrei Osornio.