¿Deberíamos preocuparnos por el uso malicioso de los modelos de lenguaje de IA?

Cada vez surgen más pruebas de cómo los modelos de lenguaje grandes, como el Transformador Generativo Preentrenado 3 (GPT-3) utilizado por personas como el chatbot avanzado ChatGPT de OpenAI, parecen ser altamente vulnerables al abuso a través de la ingeniería creativa rápida por parte de actores malintencionados.

Además, a medida que las capacidades de tales modelos se generalicen, se necesitarán nuevos enfoques para combatir el delito cibernético y el fraude digital, y los consumidores cotidianos deberán volverse mucho más escépticos acerca de lo que leen y creen.

Estos son algunos de los hallazgos de un proyecto de investigación realizado por WithSecure de Finlandia con el apoyo del proyecto CC-Driver, un proyecto del programa Horizonte 2020 de la Unión Europea que se centra en disciplinas como la antropología, la criminología, la neurobiología y la psicología en un esfuerzo colectivo. para combatir el cibercrimen.

El equipo de investigación de WithSecure dijo que el acceso universal a modelos que entregan texto con sonido humano en segundos representa un “punto de inflexión” en la historia humana.

“Con el amplio lanzamiento de herramientas fáciles de usar que emplean modelos de lenguaje autorregresivos como GPT-3 y GPT-3.5, cualquier persona con una conexión a Internet ahora puede generar un habla similar a la humana en segundos”, escribió el equipo de investigación.

“La generación de texto versátil en lenguaje natural a partir de una pequeña cantidad de entrada inevitablemente interesará a los delincuentes, especialmente a los ciberdelincuentes, si aún no lo ha hecho. Del mismo modo, cualquier persona que use la web para difundir estafas, noticias falsas o información errónea en general puede estar interesada en una herramienta que crea texto creíble, posiblemente incluso convincente, a velocidades sobrehumanas”.

Andrew Patel y Jason Sattler de WithSecure llevaron a cabo una serie de experimentos utilizando ingeniería rápida, una técnica utilizada para descubrir entradas que pueden generar resultados deseables o útiles, para producir contenido que consideraron dañino.

Durante sus experimentos, exploraron cómo el cambio de la entrada humana inicial en modelos GPT-3 afectaba la salida de texto de inteligencia artificial (IA) para identificar cómo las indicaciones creativas o maliciosas pueden generar resultados no deseados.

Pudieron usar el modelo elegido para crear correos electrónicos y mensajes SMS de phishing; mensajes en las redes sociales diseñados para trollear, acosar o causar daño a las marcas; mensajes de redes sociales diseñados para publicitar, vender o legitimar estafas; y convincentes artículos de noticias falsas.

También pudieron persuadir al modelo para que adoptara estilos de escritura particulares, para escribir sobre un tema elegido de una manera obstinada y para generar sus propias indicaciones basadas en el contenido.

“El hecho de que cualquier persona con una conexión a Internet ahora pueda acceder a poderosos modelos de lenguaje grande tiene una consecuencia muy práctica: ahora es razonable suponer que cualquier comunicación nueva que reciba puede haber sido escrita con la ayuda de un robot”, dijo Patel, quien encabezó el investigar.

“En el futuro, el uso de la IA para generar contenido tanto dañino como útil requerirá estrategias de detección capaces de comprender el significado y el propósito del contenido escrito”.

Patel y Sattler sacaron cuatro conclusiones principales de su trabajo, afirmando que la ingeniería rápida y la creación rápida maliciosa inevitablemente se desarrollarán como disciplina; que los actores maliciosos explotarán modelos de lenguaje grandes de formas potencialmente impredecibles; que será más difícil detectar contenido malicioso o abusivo; y que los ciberdelincuentes ya pueden utilizar fácilmente dichos modelos para hacer que los componentes de ingeniería social de sus ataques sean más efectivos.

Patel dijo que esperaba que el proyecto de investigación ayudara a impulsar el desarrollo de modelos de lenguaje grandes más seguros que sean menos susceptibles de ser manipulados de esta manera. El informe completo de la investigación del equipo se puede descargar aquí.

WithSecure es la última de una larga lista de empresas cibernéticas que han expresado su preocupación por la tecnología GPT-3, que se ha destacado en el discurso principal gracias al lanzamiento público de ChatGPT por parte de OpenAI en noviembre de 2022.

Aunque muchos lo recibieron positivamente, ChatGPT ya ha recibido críticas por ser supuestamente demasiado bueno en su trabajo en algunas circunstancias. Algunos han advertido que podría usarse para dejar obsoletos a los periodistas humanos, mientras que su posible uso indebido en la academia y los proyectos de investigación científica fue objeto de otro proyecto de investigación realizado en los EE. UU. Este estudio hizo que el programa generara resúmenes de investigación falsos basados en investigaciones médicas publicadas, lo que engañó a los científicos haciéndoles creer que estaban leyendo un informe real aproximadamente el 33 % de las veces.

“Comenzamos esta investigación antes de que ChatGPT pusiera la tecnología GPT-3 a disposición de todos”, dijo Patel. “Este desarrollo aumentó nuestra urgencia y esfuerzos. Porque, hasta cierto punto, ahora todos somos Blade Runners, tratando de averiguar si la inteligencia con la que estamos tratando es real o artificial”.

ChatGPT analiza ‘los beneficios del malware’

Cómo GPT-3 también puede ayudar a los equipos de seguridad