IA generativa en un momento decisivo con una serie de desafíos legales

Mires donde mires ahora mismo, es imposible evitar la existencia de la inteligencia artificial generativa (IA). Desde ChatGPT hasta creadores de imágenes como Stable Diffusion, la industria se ha disparado desde casi nada hasta convertirse en una súper industria global. Pero no todo el mundo está contento. En enero de 2023, la empresa de licencias de imágenes Getty Images inició procedimientos legales contra los propietarios de la aplicación de creación de imágenes de IA Stable Diffusion por su supuesta violación de las leyes de derechos de autor.

Es solo uno de un número creciente de casos, incluidos los desafíos legales contra la imagen AI Midjounrey y el buque insignia Open AI respaldado por Microsoft, que podrían determinar el futuro de la tecnología.

Pero estas batallas legales llevan más que solo el futuro de la IA generativa sobre sus hombros, y podrían afectar todo el futuro del arte de la IA, la creación de contenido y la capacidad de controlar cómo se utilizan nuestros datos personales.

Las razones del caso judicial son bastante simples en la superficie. Getty Images, como plataforma de licencias de imágenes, cobra una tarifa a los usuarios para acceder o usar imágenes. Ese sistema plantea un problema importante para los sistemas de IA generativa como ChatGPT o Stable Diffusion, que dependen del raspado masivo de datos para entrenar sus sistemas sobre cómo responder a las indicaciones.

“Entrenar estos modelos generativos de IA implica una gran cantidad de datos”, dice Laura Houston, experta en derecho de autor y socia del bufete de abogados Slaughter and May. “Por ejemplo, en los modelos de texto a imagen, tienes esta necesidad de alimentarlo con cientos de millones de puntos de datos para enseñarle al modelo a encontrar relaciones estadísticas entre las palabras y las imágenes”.

En pocas palabras, si un creador de imágenes de IA quiere descubrir cómo crear una imagen de, por ejemplo, un pollo con un sombrero de copa, debe estudiar tantas imágenes como pueda de pollos y sombreros de copa. La gran escala de los datos que necesita para aprender esa capacidad hace que sea imposible separar significativamente las imágenes con derechos de autor de las que no tienen derechos de autor.

“Tienes la propiedad intelectual [IP] riesgo de infracción que surge del uso de esos datos para enseñar el modelo de IA”, dice. “Pero también surge la pregunta de qué genera el modelo de IA como resultado y si, en virtud de los datos con los que se entrena, la salida del modelo corre el riesgo de infringir la propiedad intelectual de esos datos de entrada”.

Esto no es todo un ejercicio intelectual. La ley de derechos de autor es lo que sustenta la capacidad de todos los artistas y creadores de contenido para poder proteger y controlar su trabajo y, por lo tanto, realmente ganar dinero con él. Si la IA generativa es capaz de atravesar eso y usar su trabajo para entrenar sus sistemas, podría beneficiarse mientras diezma las industrias culturales en todo el mundo.

Pero las cuestiones legales y morales no terminan con las leyes de derechos de autor. La IA generativa y los modelos de lenguaje extenso también se han vuelto cada vez más incompatibles con los reguladores de protección de datos.

El regulador de datos italiano ya ha prohibido que el chatbot Replika, basado en Open AI, recopile datos en el país.

“Los datos disponibles públicamente siguen siendo datos personales según el RGPD [General Data Protection Regulation] y otras leyes de privacidad y protección de datos, por lo que aún necesita una base legal para procesarlo”, dice Robert Bateman, un experto en protección de datos. “El problema es que no sé cuánto han pensado estas empresas en eso… Creo que es una especie de bomba de relojería legal”.

Las violaciones de datos personales a menudo también son bastante extrañas. El mes pasado, El periodista de FT Dave Lee descubrió que ChatGPT estaba dando su número de Signal (publicado en su cuenta de Twitter) como el propio número del bot de chat, y posteriormente fue inundado con mensajes aleatorios. Incluso ese tipo de datos publicados están sujetos a las leyes de protección de datos, según Bateman.

“Existe la privacidad contextual”, dice. “Puede poner su número en Twitter y no esperar que aparezca en una base de datos en China. lo mismo te pasa a ti no [necessarily] esperando que se convierta en la salida de los chatbots. La precisión de los datos es uno de los principios del RGPD. Está obligado a asegurarse de que los datos personales en sus procesos sean precisos y estén actualizados.

“Pero los modelos de lenguaje grande alucinan alrededor del 20% del tiempo, aparentemente. Sobre esa base, habrá mucha información inexacta sobre las personas que se distribuirán”.

Determinación de incumplimientos

Atribución