Una empresa de inteligencia artificial ahorra un millón al pasar al almacenamiento compartido Pure FlashBlade

Crater, consultora de inteligencia artificial (IA) con sede en Toronto, ha ahorrado alrededor de 1,5 millones de dólares canadienses (885.000 libras esterlinas) en tiempo de investigación después de reemplazar el almacenamiento de conexión directa, difícil de configurar, con capacidad compartida en una matriz FlashBlade de Pure Storage.

Con esta medida, prácticamente se eliminó la necesidad de que sus investigadores dedicaran tiempo a configurar la infraestructura de almacenamiento para las ejecuciones de capacitación en IA en proyectos de clientes.

Crater proporciona pruebas de concepto y trabajos de investigación en IA para sus clientes. Se centra en la fase de formación de la IA, tras la cual los proyectos se devuelven al cliente.

Los experimentos en los que ha trabajado para clientes incluyen el desarrollo de IA para: detectar defectos en los procesos de fabricación; analizar los datos de la SEC en tres días en lugar de 10; calcular rutas de entrega para miles de camiones en dos tercios menos de tiempo; y detectar anomalías de facturación con hasta un 93% de precisión para empresas de telecomunicaciones y servicios públicos.

“Los clientes pueden realizar procesamiento de IA/ML, pero no pueden realizar investigaciones internas para desarrollar algo que no esté disponible en el mercado”, dijo Eidoo. “Los clientes nos traen para desarrollar nuevos modelos basados en lo último que sale del mundo académico”.

Anteriormente, Crater trabajaba en la nube o en servidores flash conectados internamente y en discos giratorios.

Ejecutar IA en la nube resultó costoso para la empresa, afirmó Eidoo. “Nuestros proyectos suelen ser conjuntos de datos de varios terabytes y la formación en la nube no era lo más práctico”, afirmó. “Los conjuntos de datos son diversos porque tenemos múltiples proyectos ejecutándose para los clientes simultáneamente, lo que puede significar muchos tipos y tamaños de archivos, y eso trajo restricciones sobre cómo podríamos interactuar con los servicios del proveedor de la nube”.

Internamente, los límites surgieron al intentar alimentar múltiples modelos en paralelo a medios de almacenamiento heterogéneos divididos en múltiples servidores.

“Podría haber 12 proyectos a la vez y nuestros investigadores necesitaban configurar el almacenamiento para ellos”, dijo Eidoo. “Los tipos de datos pueden variar desde imágenes muy grandes hasta bases de datos, todas con E/S muy diferentes. [input/output] firmas.

“Debido a que cada servidor tenía su propio almacenamiento, había una gran cantidad de datos revueltos en el lugar correcto, pero aun así a menudo no podíamos saturar las GPU. [graphics processing units],” él dijo. “No queríamos tener que lidiar con todo eso. Nuestros investigadores tardaron tres o cuatro días en configurar el almacenamiento para cada experimento”.

Por lo tanto, Crater cambió a Pure Storage FlashBlade, que apunta a datos no estructurados en archivos y cargas de trabajo de almacenamiento en bloque y viene con unidades flash TLC o QLC (mayor capacidad).

Crater ejecuta alrededor de 127 TB de capacidad FlashBlade que proporciona capacidad de almacenamiento a través de Ethernet a clústeres de servidores de IA basados en Linux que ejecutan “varias docenas” de GPU Nvidia. Las cargas de trabajo de IA se activan a través de contenedores, a los que se les proporciona fácilmente capacidad de almacenamiento.

Uno de los beneficios más importantes es que los investigadores ahora no tienen que dedicar tiempo a configurar el almacenamiento para cada ejecución de entrenamiento de IA. “A los investigadores les tomó alrededor del 10% del tiempo dedicado a cada proyecto trabajar en tareas relacionadas con la infraestructura”, dijo Eidoo. “Eso está prácticamente eliminado ahora. No pensamos dos veces en la ubicación de los datos”.

Dijo que eso significa que el tiempo para entrenar modelos se ha reducido entre un 25% y un 40%. “Eso significa que el equipo no estará sentado durante dos o tres semanas esperando”, dijo Eidoo. “Si multiplicamos eso por 12 experimentos y entre cuatro y seis investigadores, obtenemos un efecto multiplicador bastante grande. Estamos ahorrando cerca de 1,5 millones de dólares canadienses al no tener que dedicar tiempo a configurar la infraestructura”.