Entrevista ejecutiva: Agregar sentido común a la creatividad generativa de la IA

Según Jim Webber, científico jefe de Neo4j, existe una relación saludable entre los modelos de lenguaje grande (LLM) y las bases de datos de gráficos, que se utilizan para extraer información a través de diferentes redes de datos.

Computer Weekly habló con Webber luego de la ratificación del estándar GQL ISO, que proporciona una forma estándar de realizar búsquedas en bases de datos de gráficos y es análogo al estándar ISO SQL-86 para sistemas de gestión de bases de datos relacionales.

Las bases de datos gráficas adoptan un enfoque muy diferente a las consultas de datos que las bases de datos relacionales. Webber ha trabajado con bases de datos de gráficos durante aproximadamente 16 años, 14 de los cuales han sido con Neo4j. Si bien ve un papel para las bases de datos relacionales, el punto principal de Webber es que el rendimiento del tiempo de ejecución en una base de datos relacional se deteriora.

La idea básica detrás de un sistema de base de datos relacional es que organiza los datos de forma orientada a filas y vincula los activos de datos mediante “uniones” para vincular filas en una tabla de base de datos con filas en otra para formar una relación entre las dos. Un ejemplo simple es una fila que identifica una referencia de cliente única en una tabla que vincula a los detalles de contacto del cliente que se encuentran en otra tabla.

“Irónicamente, las bases de datos relacionales son terribles a la hora de unir”, afirma. “Esto es lo único que no desea hacer en una base de datos relacional porque lo hace en tiempo de ejecución en la parte costosa del sistema”, dice Webber.

Más contenido para leer:  El tamaño medio de los centros de datos a hiperescala va en aumento

Esto, señala, se debe a que las uniones se ejecutan efectivamente en la memoria y ocurren cuando una aplicación o un usuario ejecuta una consulta que requiere interrogar varias tablas de bases de datos.

Sin embargo, a pesar de esta aparente ineficiencia, las bases de datos relacionales son la plataforma de datos central para muchas aplicaciones empresariales.

Foto de Jim Webber, científico jefe de Neo4j

“Las redes de gráficos te permiten modelar [messy data] de forma de alta fidelidad sin sufrir el dolor y la complejidad de tener que crear tablas y esquemas complejos y realizar uniones en tiempo de ejecución”.

Jim Webber, Neo4j

“Antes tenía sentido utilizar bases de datos relacionales, porque todos los datos eran idénticos”, añade. Webber se refiere al hecho de que algo así como un sistema de nómina contiene miles de instancias de datos con formato idéntico para miles de empleados.

Dice: “El mundo en el que vivíamos en los años 1980 era uniforme, y el mundo en el que vivíamos en los años 1990 era mayoritariamente uniforme, por lo que tenía mucho sentido utilizar una base de datos relacional”.

Pero con la explosión de sistemas que ha ocurrido más recientemente, Webber dice que los datos se han vuelto más confusos. “Las redes de gráficos le permiten modelar ese desorden en una forma de alta fidelidad sin sufrir el dolor de la ‘bomba de unión’ y la complejidad de tener que construir tablas y esquemas complejos y realizar uniones en tiempo de ejecución”, afirma.

Confianza en GQL

Webber cree que el estándar ISO recientemente ratificado para el lenguaje de consulta de gráficos (GQL) representa un importante punto de inflexión para la tecnología. El estándar ISO para lenguaje de consulta estructurado (SQL), llamado SQL-86, se publicó en 1986.

Más contenido para leer:  Posix vs almacenamiento de objetos: ¿Cuánto tiempo más para Posix?

Al recordar la importancia del estándar, Webber dice que estaba “programando ZX Spectrum en ese momento”, por lo que “SQL no significaba nada para mí” en ese entonces. Pero el estándar SQL-86 resolvió un debate que comenzó en la década de 1970 sobre cómo gestionar las bases de datos. Edgar Cobb, mientras trabajaba en IBM, desarrolló el modelo de base de datos relacional. El estándar SQL, adoptado por el Instituto Nacional Estadounidense de Estándares (ANSI) en 1986 y la Organización Internacional de Normalización (ISO) en 1987, dio a los desarrolladores de aplicaciones y compradores de software empresarial la confianza para utilizar bases de datos relacionales.

Una propuesta alternativa, la base de datos en red desarrollada por Charles Bachman, perdió. Pero el enfoque de Bachman, según Webber, es un antiguo precursor de las bases de datos gráficas.

Él cree que los estándares son importantes cuando los tomadores de decisiones de TI tienen que hacer apuestas tecnológicas. “Los CIO están nerviosos porque si haces una inversión significativa en un sistema, no quieres quedar atrapado o descubrir que el sistema no tiene futuro y que has apostado por el caballo equivocado. Es la analogía de VHS versus Betamax. Creo que SQL dio una inyección significativa al mercado de software de aplicaciones porque les dijo a todos que la tecnología de bases de datos relacionales es madura y segura”.

Según Webber, el estándar ISO GQL, al igual que SQL-86, protege a los compradores de TI de tomar malas decisiones comerciales. Aunque existen diferentes dialectos de SQL, la sintaxis básica sigue siendo la misma. Lo mismo debería ser cierto para GQL.

Más contenido para leer:  SEA-ME-WE 4 doubles undersea capacity with optical link

“En principio, siempre puedes cambiar de proveedor porque tu idioma seguirá siendo el mismo”, afirma. “El aprendizaje adicional que tengo que hacer para especializarme en un sistema de gestión de bases de datos relacionales como SQL Server u Oracle es marginal”.

Sentido común de la IA

El analista Gartner recientemente colocó los gráficos de conocimiento en el centro de su radar de impacto para la inteligencia artificial generativa (GenAI).

“Las bases de datos gráficas son gráficos de conocimiento, una red de hechos, que ofrecen el contrapeso más apropiado para GenAI”, dice Webber. Si GenAI es como el lado derecho creativo del cerebro, cree que los gráficos son como el lado izquierdo, que está más centrado en el razonamiento.

Las bases de datos de gráficos son gráficos de conocimiento, una red de hechos, que ofrecen el contrapeso más apropiado para GenAI.

Jim Webber, Neo4j

“Tienes un motor probabilístico en IA generativa. Me encanta. Sé que es un robot, pero aun así se siente tan peligrosa y maravillosamente cerca de tener esa chispa de imaginación”, dice. “Pero es necesario moderar esta chispa, y resulta que los gráficos de conocimiento son particularmente buenos en esto, utilizando un enfoque llamado gráfico RAG”. Aquí es donde la base de datos de gráficos proporciona información contextual para los LLM.

“Esta es probablemente la mejor manera que conocemos de aprovechar al máximo la IA generativa, evitando al mismo tiempo que se filtren falsedades y cosas engañosas al usuario final. Es el cerebro izquierdo trabajando con el cerebro derecho”.

Durante la discusión, Webber habla de un ejemplo mencionado durante una transmisión de la Radio Pública Nacional (NPR) donde un investigador de IA le preguntó a un LLM cuánto tiempo tomaría secar dos camisas en su tendedero, si se necesitan tres horas para secar una. La respuesta es obviamente tres, pero un LLM puede razonar que dos camisetas tardarían el doble.

“Puedes evitar que esas falsedades se filtren colocando el mapa de ese vector en gráficos de conocimiento, que puedan atravesarse”, dice Webber.

Por ejemplo, dice que cuando se le presenta la palabra “manzana”, el usuario puede querer que el sistema de inteligencia artificial entienda que la manzana en cuestión es la empresa de Cupertino que fabrica iPods y iPhones. Con los gráficos, dice: “Se puede recorrer una rica red de datos sobre Apple, la empresa de tecnología. No es Apple, la fruta, ni Apple, el sello discográfico de los Beatles”. En efecto, la base de datos de gráficos aplica un nivel de sentido común al LLM que, según el contexto, ayuda a dirigir sus respuestas a las que tienen más sentido.

“Cuando tienes una red de hechos para explotar, ningún otro modelo de datos te proporciona esa red de hechos”, afirma Webber. “Hoy en día, la forma de explotar esa red de hechos es escribiendo el código de consulta en SQL”.

Pero dadas las ineficiencias de las que habla Webber al usar SQL para realizar uniones entre múltiples fuentes de datos, ejecutar GQL en un gráfico de conocimiento puede ser la forma en que la IA aprende sentido común en el futuro.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales