Por qué los datos fiables son esenciales para una IA fiable

Después de décadas en las que la inteligencia artificial (IA) se limitó en gran medida a proyectos de investigación, aplicaciones específicas o incluso ciencia ficción, ahora es una herramienta empresarial convencional.

Impulsada por aplicaciones como Bard de Google (ahora Gemini), Mistral y ChatGPT especialmente, la IA generativa (GenAI) ya está impactando el lugar de trabajo.

El analista de la industria Gartner, por ejemplo, predice que el 95% de los trabajadores utilizarán GenAI de forma rutinaria para completar sus tareas diarias para 2026.

Al mismo tiempo, cada vez más organizaciones están utilizando GenAI para impulsar “chatbots” y otros servicios que permiten al público interactuar con la tecnología de una manera más natural. Los grandes modelos de lenguaje (LLM) permiten a las computadoras comunicarse con los usuarios en algo parecido al habla humana, y los propios modelos pueden rastrear los vastos recursos de Internet para encontrar respuestas incluso a las preguntas más oscuras. Y ahí es donde pueden estar los problemas.

Como era de esperar, la IA, con sus riesgos y beneficios, fue un tema clave tanto en la Cumbre de Análisis y Datos de Gartner como en la cumbre Tech.EU 2024, ambas en Londres.

Se acusa a las herramientas GenAI de crear resultados sesgados, o incluso resultados que son completamente falsos. Estas alucinaciones han llevado a las empresas a tener que compensar a los clientes, así como a daños a su reputación.

“La gobernanza es aún más crítica cuando se entregan productos de datos con IA”, dijo Alys Woodward de Gartner en la Cumbre de Análisis y Datos de la empresa. “Con la IA, pueden surgir rápidamente consecuencias no deseadas. Ya hemos visto algunos ejemplos de implementaciones exitosas de GenAI. Estas organizaciones implementan la tecnología con barreras de seguridad adecuadas y casos de uso específicos, pero nunca sabemos cuándo nuestros productos de datos infundidos con IA nos traerán problemas”.

Los reguladores y los tribunales ya están responsabilizando a las empresas por las decisiones tomadas utilizando la IA. La Ley de IA de la Unión Europea (UE), que entrará en vigor a partir de junio, creará nuevas obligaciones e impondrá nuevas sanciones. Las multas por las infracciones más graves de la ley llegarán al 7% de la facturación global, más que por las infracciones del RGPD.

Pero si la Ley de IA es una llamada de atención para que las organizaciones sean más cuidadosas y transparentes en su uso de la IA, también las impulsará a observar más de cerca cómo los modelos de IA llegan a las conclusiones a las que llegan.

Más contenido para leer:  El valor del código abierto en Europa

Esto, a su vez, depende de la calidad de los datos, tanto para los modelos de entrenamiento como durante la fase de inferencia (u operativa) de la IA. Los grandes modelos lingüísticos actuales se basan principalmente en datos públicos recopilados de Internet. Y, aunque se están tomando medidas para permitir que las empresas utilicen sus propios datos para la formación y la inferencia [oracle]los algoritmos reales utilizados por los propios modelos de IA siguen siendo opacos.

Este enfoque de “caja negra” por parte de los proveedores de IA ha generado preocupaciones sobre el sesgo y la posible discriminación, tanto en el trato con los clientes como en áreas como la contratación. Las organizaciones también tendrán preocupaciones sobre si sus datos patentados se utilizan para entrenar modelos (los principales proveedores de IA dicen que ya no lo hacen), preocupaciones sobre la privacidad en torno al uso de información confidencial y si los datos, incluidas las indicaciones, podrían filtrarse de las herramientas de IA. .

“Cuando las organizaciones comienzan a implementar capacidades de IA, las cuestiones de confianza, riesgo y cumplimiento se vuelven muy importantes”, dijo Nader Henein, vicepresidente analista de Gartner especializado en privacidad.

Sin embargo, añadió que las organizaciones están cada vez más expuestas a riesgos a través de las herramientas de inteligencia artificial que traen del exterior.

Estas incluyen herramientas de IA específicas, como Gemini o ChatGPT, pero también funcionalidades de IA integradas en otras aplicaciones, desde herramientas de escritorio y navegadores hasta paquetes empresariales. “Casi todo el mundo utiliza uno o más SaaS [software-as-a-service] herramienta y muchos 1716912316 tienen capacidades habilitadas para IA dentro de ellos”, dijo. “La Ley de IA apunta a eso y dice que es necesario comprender, cuantificar y asumir ese riesgo”.

Calidad de los datos

El desafío es identificar dónde y cómo se utiliza la IA en la empresa, así como la calidad de los datos, especialmente los utilizados para entrenar los modelos. Como sugiere Henein de Gartner, la IA sufre los mismos problemas de datos que cualquier sistema de análisis: la basura que entra es igual a la basura que sale.

Pero con la IA, es aún más probable que tomemos sus resultados al pie de la letra, afirmó. “Los humanos prefieren las sugerencias de los sistemas automatizados de toma de decisiones, ignorando a menudo su propio juicio”, dijo Henein. “Pero esta nueva generación de alucinaciones, con respuestas muy detalladas, con referencias y extremadamente elocuentes, lleva ese sesgo de automatización a nuevas alturas”.

Más contenido para leer:  El papel esencial de los PET en el desbloqueo del mercado SaaS de un billón de dólares

Mucho también depende del tipo de decisión que respalda la IA, y algunas herramientas plantean un mayor riesgo para la empresa que otras.

“Esta es una de las cosas más difíciles”, dijo Tharishni Arumugam, director global de operaciones y tecnología de privacidad de AON. “Muchas veces la gente piensa: ‘Quiero saber sobre cualquier pequeño uso de la IA’. En realidad, ¿realmente necesita conocer algún pequeño servicio de traducción que esté utilizando su tercero? Probablemente no, pero desea saber cuándo un tercero está utilizando su información de salud para proporcionar análisis predictivos a sus empleados. Por eso, en este momento existe un gran malentendido sobre lo que necesitamos saber desde la perspectiva del proveedor”.

Esto, dijo, se vincula directamente con la gobernanza de datos, y las organizaciones con políticas maduras de gobernanza de datos tienen menos probabilidades de caer en los peligros de la IA.

Esto abarca la calidad básica de los datos, pero también, como dice Gartner, si los datos son lo suficientemente precisos y diversos como para producir resultados confiables y libres de sesgos y alucinaciones. Esto a veces se denomina “datos listos para la IA”, y Gartner advierte que pocas organizaciones pueden decir realmente que tienen ese tipo de datos… todavía.

Pérdida de confianza

El problema empeora cuando las organizaciones vinculan los modelos de IA a lo largo de un proceso de toma de decisiones. A medida que cada modelo se incorpora al siguiente, los niveles de confianza en las conclusiones finales disminuirán. Pero esto puede no ser obvio para el usuario o consumidor.

“Los modelos muy grandes tienen acceso a cantidades increíbles de datos”, dijo Henein. “Muchos de esos datos provienen de Internet, y todos sabemos que Internet no está tan curado desde la perspectiva de la calidad del contenido como nos gustaría.

“Y ese es un problema fundamental”, dijo. “Está en el corazón de estas alucinaciones”.

Según Henein, los modelos actualmente no proporcionan orientación sobre su precisión, ni en términos porcentuales ni siquiera en una escala simple como rojo, ámbar y verde. “Si tuviéramos esa indicación de la precisión de la respuesta, tal vez aliviaríamos algunas de las preocupaciones en torno a las alucinaciones”, dijo.

Linaje de datos

La confianza también significa comprender el linaje de los datos a medida que se mueven entre sistemas.

Esto incluye datos que pasan de sistemas empresariales o almacenes y lagos de datos a la IA, así como (potencialmente) resultados de IA que se utilizan como entradas para otros modelos o incluso, potencialmente, para entrenar IA. Gartner predice que, dentro de dos años, tres cuartas partes de las empresas utilizarán GenAI para crear datos sintéticos que, a su vez, podrían usarse para entrenar modelos de aprendizaje automático.

Más contenido para leer:  Orange eliminará gradualmente 2G y 3G a finales de la década

Los científicos de datos también necesitan construir barreras de seguridad en los sistemas de IA para reducir el riesgo y evitar el abuso de las herramientas.

Esto podría incluir limitar o restringir el uso de datos de identificación personal, información de salud, propiedad intelectual o incluso fuentes de datos no verificadas y no calificadas.

“En última instancia, los datos que se introducen en el modelo, los datos que se utilizan para entrenar sus modelos, son extremadamente importantes”, dijo Junaid Saiyed, director de tecnología de la firma de inteligencia y gobierno de datos Alation.

“Si no proporciona datos precisos y confiables, obtendrá recomendaciones y predicciones no tan buenas. Independientemente de lo que busque obtener de su IA, sea lo que sea que busque obtener de sus modelos, los datos confiables conducen a una IA confiable.

“La gente busca ese código de confianza”, añadió. “No es sólo la respuesta final. Quieren conocer la confianza a lo largo del camino. ¿Cuál es su confianza en los datos que se introdujeron en el modelo y su confianza en el modelo mismo? Incluso podría aceptar un modelo menos sofisticado, si la respuesta es explicable”.

Construyendo confianza

A menos que los directores de seguridad de la información y los directores de datos puedan generar esa confianza, los usuarios se mostrarán reacios a utilizar herramientas de inteligencia artificial y será poco probable que los clientes confíen en sus consejos o recomendaciones.

“En el negocio entre empresas, es necesario brindar este nivel de confianza”, dijo Daniel Gallego Vico, investigador de inteligencia artificial y aprendizaje automático, cofundador de PrivateGPT y del servicio de inteligencia artificial empresarial Zylon, y orador en la cumbre Tech.EU.

Un ingeniero, por ejemplo, no utilizará la recomendación de un LLM para un diseño si no confía en los datos. “Si estoy construyendo un puente y el puente se derrumba, los abogados vendrán a por mí, no el LLM”, dijo. “Necesito estar seguro de que lo que está produciendo el LLM es correcto”.

Para Vico, por muy poderosa que sea la herramienta de inteligencia artificial, los humanos deben seguir siendo parte del flujo de trabajo. “Hay que comprender qué fuentes de datos ha utilizado el LLM para generar la respuesta”, dijo. “De esa manera, puedes volver a verificar”.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales