Podcast: AI Data necesita flash escalable, pero también debe ser justo

En este podcast, hablamos con el gerente de productos y soluciones empresariales de Quantum, Tim Sherbak, sobre los impactos de la inteligencia artificial (IA) en el almacenamiento de datos, y en particular sobre las dificultades del almacenamiento de datos durante largos períodos y con muy grandes volúmenes de datos.

Hablamos sobre los requisitos técnicos que la IA coloca en el almacenamiento, lo que podría incluir la necesidad de una arquitectura altamente escalable y la necesidad de agregar el rendimiento en múltiples y simples transmisiones.

También hablamos sobre la realidad del “crecimiento para siempre” y la necesidad de “retención para siempre”, y cómo las organizaciones podrían optimizar el almacenamiento para hacer frente a tales demandas.

En particular, Sherbak menciona el uso de principios justos: la capacidad de búsqueda, accesibilidad, interoperabilidad y reanilidad) como una forma de manejar los datos de una manera abierta que ha sido pionera en la comunidad científica.

Finalmente, hablamos sobre cómo los proveedores de almacenamiento pueden aprovechar la IA para ayudar a administrar esas grandes cantidades de datos en grandes y diversas tiendas de datos.



¿Qué impactos aporta el procesamiento de IA al almacenamiento de datos?

El procesamiento de IA tiene grandes demandas sobre el almacenamiento de datos subyacente que tiene. Las redes neuronales son muy intensivas computacionalmente. Toman una gran cantidad de datos.

El desafío básico es alimentar a la bestia. Tenemos grupos de computadora enormemente potentes y caros que se basan en estas GPU hambrientas de datos [graphics processing units]. Entonces, el desafío básico es, ¿cómo alimentamos esos datos a un ritmo para que funcionen a plena capacidad todo el tiempo, solo por la enorme cantidad de análisis computacional que se requiere? Se trata de alto rendimiento y baja latencia.

En primer lugar, eso significa que necesitamos NVME [non-volatile memory express] y soluciones altas. En segundo lugar, estas soluciones tienden a tener una arquitectura de escala para que puedan crecer e interactuar cómodamente a escala con rendimiento, ya que estos grupos también pueden ser muy grandes. Necesita un acceso sin problemas a todos los datos en este espacio de nombres planos de modo que todos los grupos de cómputo tengan visibilidad para todos los datos.

En el plazo actual, hay mucho enfoque en la capacidad de RDMA, acceso remoto a la memoria directa, de modo que todos los servidores y nodos de almacenamiento en este clúster tienen acceso directo y visibilidad en los recursos de almacenamiento. Esto también puede optimizar el acceso al almacenamiento a través del clúster. Entonces, por último, no es solo el rendimiento agregado lo que es deseable, sino también un rendimiento de un solo flujo lo que es muy importante.

Y, por lo tanto, existen nuevas arquitecturas que tienen clientes de ruta de datos paralelos que le permiten no solo agregar múltiples transmisiones, sino también optimizar cada una de esas flujos individuales aprovechando múltiples rutas de datos para obtener los datos a las GPU.

¿Cómo pueden las organizaciones administrar el almacenamiento de manera más efectiva, dados los impactos probables de la IA en los datos, la retención de datos, etc.?

Con IA en estos días, hay dos problemas realmente claros.

Una es que tenemos un crecimiento de datos para siempre, y tenemos una retención para siempre los datos que estamos arquitectando en estas soluciones. Y así, hay enormes cantidades de datos más allá de lo que se calcula en el contexto de cualquier individuo ejecutado en un clúster de GPU.

Esos datos deben conservarse a largo plazo a un costo razonable.

Hay soluciones en el mercado que son efectivamente una combinación de flash, disco y cinta, para que pueda optimizar el costo de la solución, así como el rendimiento de la solución al tener diferentes niveles y cantidades en esos tres medios. Al hacerlo, puede tamaño a la derecha el rendimiento y la rentabilidad de la solución que está utilizando para almacenar todos estos datos a largo plazo.

La otra cosa que recomiendo a las organizaciones que consideren cómo resolver este problema de datos de crecimiento para siempre y para siempre es analizar el concepto de gestión de datos justos. Este concepto ha existido durante seis u ocho años. Proviene del lado de la investigación de la casa en las organizaciones que analizan cómo curar toda su investigación, pero también tiene un impacto real y la capacidad de ayudar a las personas a medida que observan sus conjuntos de datos de IA.

Fair es un acrónimo de búsqueda, evaluable, interoperable y reutilizable. Este es realmente un conjunto de principios [that allow] tú [to] Mida su entorno de gestión de datos para asegurarse de que a medida que evolucione la infraestructura de gestión de datos, lo mide con estos principios [and] Haciendo el mejor trabajo que puede curar todos estos datos. Es como tomar un poco de la biblioteca y aplicarla a la era digital.

¿Cómo puede AI ayudar con el almacenamiento de datos para AI?

Esa es una pregunta realmente interesante.

Creo que hay algunos escenarios básicos en los que, a medida que los proveedores de almacenamiento recopilan datos de sus clientes, pueden optimizar las operaciones y la capacidad de apoyo de la infraestructura a nivel mundial al agregar la experiencia y los patrones de uso, etc., que podemos usar algoritmos avanzados para apoyar a los clientes de manera más efectiva.

Pero creo que probablemente la aplicación más poderosa de IA y almacenamiento de datos es este concepto de almacenamiento consciente de sí mismo o, probablemente, de manera más apropiada, la gestión de datos consciente de sí mismo. Y la idea de que podemos catalogar metadatos ricos, datos sobre los datos que estamos almacenando, y podemos usar la IA para hacer esa catalogación y mapeo de patrones.

A medida que cultivamos estos conjuntos de datos más grandes y más grandes, la IA podrá clasificar automáticamente y autodocumentar los conjuntos de datos de diferentes maneras. Eso beneficiará a las organizaciones de poder aprovechar más rápidamente los conjuntos de datos que están a su disposición.

Solo piense en términos de un ejemplo como los deportes y cómo la IA podría documentar fácilmente la carrera de un equipo o un jugador con solo revisar toda la película del jugador, los artículos y otra información a la que la IA puede tener acceso. Y luego, cuando un gran jugador se retira o pasa, hoy sin IA, puede ser una especie de lucha loca para una liga o un equipo para reunir todas esas imágenes e historias de jugadores para las noticias nocturnas o para el documental que están haciendo, pero con IA, tenemos más oportunidades de obtener acceso más rápido a esos datos.