El laboratorio Genome pone la E/S rápida de Vast Data a trabajar en datos de pacientes

El laboratorio francés de secuenciación del genoma SeqOIA implementó almacenamiento universal basado en flash de células de cuatro niveles (QLC) de Vast Data para cumplir con los objetivos gubernamentales de 6000 análisis de pacientes por año para 2025. De hecho, estaba en camino de cumplir ese objetivo mucho antes de fin de año. y ha podido agregar recursos de controladores de almacenamiento sin necesidad de agregar capacidad de matriz.

“La secuenciación del genoma ayuda a identificar eventos genéticos en pacientes para caracterizar mejor su patología y encontrar nuevos tratamientos”, dijo Alban Lermine, director de sistemas de información de SeqOIA. “Podemos encontrar explicaciones genéticas para un cáncer, por ejemplo, o para enfermedades raras. Y gracias a estos análisis, los médicos pueden determinar mejores tratamientos o aconsejar a las familias sobre condiciones que pueden darse en la familia”.

En 2017, el gobierno francés decidió aspirar al liderazgo en secuenciación genómica y anunció el programa Médecine France Génomique 2025. El desafío era construir una red de plataformas de secuenciación de muy alto rendimiento. Tres importantes establecimientos franceses de investigación en salud unieron fuerzas para abordar el trabajo y crearon SeqOIA en 2018 con el objetivo de romper las barreras tecnológicas.

Un clúster de almacenamiento gigante que colapsó bajo solicitudes de E/S

“El principio es que para cada secuencia del genoma tienes que lanzar varios análisis en volúmenes muy grandes de datos”, dijo Lermine.

“En 2018, implementamos un 400 TB [terabyte] clúster de almacenamiento administrado por Lustre, lo cual es común en la comunidad científica. A ese almacenamiento accedieron 2000 núcleos de procesador en el clúster de cómputo a través de Ethernet de 40 Gbps”, agregó Lermine.

Más contenido para leer:  La Comisión Europea revela planes para el futuro del gigabit

“Poco a poco, aumentamos la carga en el clúster de cómputo. Comenzamos con un procedimiento de secuenciación, luego dos en paralelo, luego tres. Pero cuando llegamos a cuatro, el sistema colapsó”.

Los discos duros del clúster de almacenamiento de SeqOIA ya no podían hacer frente a las demandas de entrada/salida (E/S) de los servidores informáticos. Mientras esperaba que los cabezales de escritura terminaran de escribir los archivos, Lustre almacenaba en caché cualquier dato adicional que llegara. Pero el caché no tenía espacio para crecer y tenía que intentar escribir lo que pudiera en el tiempo que tenía. Eso resultó en escrituras incompletas, dijo Lermine, lo que resultó en “entonces, básicamente terminamos con archivos corruptos”.

Para empezar, el equipo de Lermine consideró agregar más nodos de almacenamiento para ampliar el ancho de banda para las solicitudes de acceso. “¿Fue una buena idea? Ni siquiera teníamos la capacidad de hacer la pregunta”, dijo Lermine. “Nuestro proveedor de almacenamiento no podía suministrar más de todos modos, así que tuvimos que buscar otra solución”.

El desafío: agregar rendimiento pero no capacidad

Para entonces, era finales de 2021. SeqOIA se había establecido, había comprado su equipo médico, implementado su TI, realizado pruebas y aumentado su capacidad para manejar datos. Pero durante ese tiempo, el almacenamiento había evolucionado, sobre todo con la caída del precio del flash, mucho más rápido que los discos duros clásicos.

“El almacenamiento flash nos interesó porque nos permitió multiplicar el rendimiento sin tener que aumentar la capacidad de almacenamiento”, dijo Lermine. SeqOIA necesita 400 TB como capacidad de trabajo, pero una vez que se obtienen los resultados, los datos se archivan en otro lugar en el almacenamiento de objetos de Scality Ring.

Más contenido para leer:  BT, Nokia team to boost 5G SA capabilities to meet future demand

Entonces, el jefe de TI de SeqOIA se dispuso a reunirse con los proveedores. HPE, Pure Storage y Vast Data respondieron.

“HPE propuso una solución compleja”, dijo Lermine. “Mientras tanto, Pure Storage nos habría dado el mismo problema que con los discos duros. Ofrecieron una solución con mucho ancho de banda, pero si llegaba a sus límites, tenía que agregar una matriz completa completa con almacenamiento que no hubiéramos utilizado. Solo Vast Data nos permitiría agregar módulos de administración de E/S sin aumentar la cantidad de SSD”.

Vast Data ofrece arreglos basados ​​en almacenamiento masivo usando flash QLC conectado a NVMe. QLC, si bien es relativamente económico, es el menos duradero de todas las generaciones flash y se utiliza mejor para E/S secuencial.

Para sortear esta limitación, Vast hace todo lo posible para garantizar que el tráfico se secuencia con unidades de procesamiento de datos (DPU) que dan forma a las E/S en menos patrones aleatorios.

Sin errores: Un objetivo ya obtenido

Todas las reuniones tuvieron lugar en noviembre de 2021. Menos de 30 días después, SeqOIA acordó implementar una matriz de almacenamiento universal Vast Data de 500 TB.

La compra fue directa, sin suscripciones mensuales, arrendamiento o similares, lo que a menudo es impulsado por los proveedores pero no siempre encaja con las organizaciones del sector público europeo que trabajan con presupuestos que pueden cambiar anualmente.

“El precio de compra incluía un contrato de soporte de cinco años y eso es todo lo que nos importa”, dijo Lermine.

Sin embargo, ese no fue el único punto de satisfacción. “No solo desaparecieron los archivos corruptos, sino que los tiempos de análisis se redujeron al 25 % de lo que era antes”, agregó Lermine.

Más contenido para leer:  El gobierno del Reino Unido publica un documento técnico sobre IA

“El objetivo marcado por el gobierno es procesar 6.000 registros de pacientes al año para 2025. Este año, 2022, no termina y ya hemos procesado 5.500”.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales