ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s mediante imágenes ASCII
Los avances en el desarrollo de inteligencias artificiales cada vez es mayor y requiere de más capas de seguridad para evitar que personas mal intencionadas abusen de estas herramientas que se han convertido en armas dé doble filo.
Y es que el desarrollo de los LLMs que se utilizan en una amplia gama de aplicaciones, la seguridad ya no es algo opcional, ya que en muchas ocaciones hemos visto de lo que es capas su mal uso.
Aun con todas esas técnicas implementadas, siguen surgiendo problemas que se encuentran dentro de los datos de entrenamiento, lo cual a primera vista no resulta nada fuera de lo común o peligroso al no considerar otras interpretaciones posibles de los datos.
La razón de mencionar esto, es que hace poco se dio a conocer información sobre un nuevo ataque denominado «ArtPrompt», el cual se aprovecha de las limitaciones de las IA’s en reconocer imagenes ASCII para eludir las medidas de seguridad y desencadenar comportamientos no deseados en los modelos.
Este ataque fue descubierto por investigadores de las universidades de Washington, Illinois y Chicago, y mencionan que «ArtPrompt» es un método para eludir las restricciones en chatbots de inteligencia artificial tales como GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) y Llama2 (Meta).
Este método de ataque se ejecuta en dos pasos y como tal se aprovecha del reconocimiento exitoso de texto formateado en ASCII. El primer paso consiste en identifican las palabras del prompt que podrían desencadenar rechazos para evadir los filtros que detectan preguntas peligrosas y en el segundo se encubren esas palabras utilizando arte ASCII para crear un prompt camuflado logrando así inducir respuestas perjudiciales en el modelo.
La efectividad de ArtPrompt se evaluó en cinco chatbots, demostrando su capacidad para eludir las defensas existentes y superar a otros tipos de ataques de jailbreak. Para evaluar la capacidad de los chatbots en reconocer consultas en forma de arte ASCII, se propone «Vision-in-Text Challenge (VITC)» como un benchmark.
Este desafío busca poner a prueba la capacidad de los modelos para interpretar y responder a consultas que utilizan arte ASCII, mostrando que los LLMs tienen dificultades para comprender consultas que representan una sola letra o número con arte ASCII. La precisión de los modelos disminuye significativamente a medida que las consultas contienen más caracteres, lo que pone de manifiesto una vulnerabilidad en la capacidad de los LLMs para procesar información visual codificada de esta forma. Además, se revisan otros ataques y defensas contra los jailbreaks en LLMs.
Se menciona que ArtPrompt es notablemente más efectivo que otros métodos conocidos ya que logró la más alta calidad de reconocimiento de gráficos ASCII en modelos como Gemini, GPT-4 y GPT-3.5, con tasas de omisión exitosa del filtro del 100%, 98% y 92% respectivamente en las pruebas. En cuanto a la tasa de éxito del ataque, se registró un 76%, 32% y 76%, y la peligrosidad de las respuestas recibidas se evaluó en 4,42, 3,38 y 4,56 puntos en una escala de cinco, respectivamente.
ArtPrompt destaca de otros ataques de jailbreak para construir las instrucciones dañinas, ya que requieren de un gran número de iteraciones, mientras que ArtPrompt logra el ASR más alto entre
todos los ataques de jailbreak con una sola iteración. La razón es que ArtPrompt puede construir eficientemente el conjunto de indicaciones encubiertas, y enviarlos al modelo en paralelo.
Además, los investigadores demostraron que los métodos comunes de elusión de filtros actualmente en uso (Paraphrase y Retokenization) no son efectivos para bloquear este tipo de ataque llamado «ArtPrompt». Curiosamente, el uso del método de Retokenización incluso aumentó la cantidad de solicitudes procesadas con éxito, lo que resalta la necesidad de desarrollar nuevas estrategias para enfrentar este tipo de amenazas en la interacción con chatbots.
ArtPrompt destaca por su capacidad para eludir las defensas existentes y los investigadores mencionan que seguirá siendo eficaz para atacar modelos de lenguaje multimodal, mientras los modelos continuen tomando imágenes como entradas, confundiendo al modelo y permitiendo que ArtPrompt induzca comportamientos inseguros.
Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.