Western Digital valida el rendimiento del almacenamiento de IA en el mundo real con los resultados de MLPerf Storage V2

Masterbitz
5 ago 2025
4 Min. de lectura

A medida que las cargas de trabajo de IA aumentan en complejidad y escala, la capacidad de los sistemas de almacenamiento para mantener el ritmo de la infraestructura de cómputo acelerada se ha convertido en un factor crítico en el desempeño general. Western Digital (Nasdaq: WDC) anunció hoy sus resultados de envío de MLPerf Storage V2, validando las capacidades del mundo real de su OpenFlex Data24 4000 Series NVMe-oF Storage Platform. Los resultados afirman la capacidad de OpenFlex Data24 (grupo de flash de EBOnet) para satisfacer las rigurosas demandas de las cargas de trabajo modernas de IA, ofreciendo un alto rendimiento, eficiencia y escalabilidad en una solución rentable para la infraestructura de IA moderna.

OpenFlex Data24 NVMe-oF Storage Platform de Western Digital amplía el alto rendimiento de NVMe flash sobre el tejido Ethernet para permitir el almacenamiento compartido de baja latencia para infraestructura de IA escalable y desagregada. Diseñado para simplificar el despliegue, reducir el costo y crecer con la demanda de GPU, el OpenFlex Data24 proporciona la capacidad de escalar el almacenamiento y calcular de forma independiente para una mayor flexibilidad.

Para reflejar escenarios de implementación realistas y exigentes en los que los sistemas de almacenamiento deben mantenerse al ritmo de la infraestructura acelerada de GPU, Western Digital colaboró con PEAK:AIO, un proveedor de SDS de alto rendimiento con la capacidad de ingerir, encender y servir grandes volúmenes de datos a altas velocidades.

La presentación de validación utilizó SSD NVMe Serie KIOXIA CM7-V Series, seleccionados por sus características de rendimiento sobresalientes en cargas de IA exigentes. Cuando se despliegan en el recinto OpenFlex Data24, permiten la entrega de datos desglosadas de alto rendimiento a muchos clientes-nodos de GPU.

Resultados de MLPerf Almacenamiento V2 de Benchmark

MLPerf es ampliamente considerado como el patrón de oro de la industria para el benchmarking de IA. Los resultados de MLPerf Storage V2 de Western Digital muestran cómo esta arquitectura no sólo ofrece rendimiento a escala, sino que lo hace con un enfoque en la eficiencia y la economía de implementación práctica con y sin una capa de almacenamiento definida por software (SDS).

MLPerf Storage utiliza nodos de clientes de GPU - sistemas que simulan el comportamiento de un servidor de IA que accede al almacenamiento durante el entrenamiento o infiere para generar los patrones de carga de E/S típicos de las cargas de GPU del mundo real - para evaluar qué tan bien una plataforma de almacenamiento soporta entornos de IA distribuidos en múltiples clientes de GPU concurrentes. Las pruebas de entrenamiento de IA utilizadas en el suite de almacenamiento MLPerf miden la eficacia con que el sistema sirve a cargas de IA que subsanan diferentes aspectos del almacenamiento de E/S, incluyendo la producción y la concurrencia, a través de varios modelos de aprendizaje profundo. Hay dos puntos de referencia clave de la carga de trabajo utilizados para MLPerf:

Carga de trabajo 3D U-Net

3D-UNet es un modelo de aprendizaje profundo utilizado en imágenes médicas y segmentación volumétrica. Coloca una carga mucho más pesada en los sistemas de almacenamiento debido a sus grandes conjuntos de datos de entrada 3D y patrones intensivos de lectura de flujo de datos. Como tal, es un punto de referencia más estricto para demostrar un rendimiento sostenido de alto ancho de banda y baja de lalatencia en todos los flujos de trabajo de IA de varios ganglios.

En este modelo:

OpenFlex Data24 de Western Digital logró un rendimiento sostenido de lectura de 106.5 GB/s (99.2 GiB/s), saturando 36 GPUs de H100 simulados en tres nodos físicos de clientes que demuestran la capacidad del EBOF para manejar tareas de entrenamiento de alto paraelismo con facilidad.
Con el servidor de datos PEAK:AIO AI Data24 fue capaz de entregar 64.9 GB/s (59.6 GiB/s), saturando 22 GPUs de H100 simulados de un solo servidor de cabecera y un solo nodo de cliente.

Recarga de trabajo de ResNet50

ResNet-50 es una red neuronal convolutiva ampliamente utilizada diseñada para la clasificación de imágenes. Sirve como referencia para el rendimiento de la formación, representando una mezcla equilibrada de computación y movimiento de datos. Con patrones de E/S aleatorios y secuenciales, utilizando lecturas de imágenes medianas, es útil para evaluar qué tan bien un sistema maneja el acceso de alta frecuencia a archivos más pequeños y ciclos de iteración rápida.

En este modelo:

OpenFlex Data24 de Western Digital entregó un rendimiento óptimo en 186 GPUs de H100 y tres nodos de clientes, con una relación GPU-drive sobresaliente que refleja el uso eficiente de los medios físicos de la plataforma.

Con el servidor de datos PEAK:AIO AI, OpenFlex Data24 fue capaz de saturar 52 GPUs de H100 simuladas desde un solo servidor de cabecera y un solo nodo de cliente.

"Estos resultados validan la arquitectura desagregada de Western Digital como un potente facilitador y piedra angular de la infraestructura de IA de próxima generación, maximizando la utilización de GPU al tiempo que minimiza la huella, la complejidad y el costo total de propiedad", dijo Kurt Chan, vicepresidente y gerente general de Western Digital Platforms Business. "La plataforma de almacenamiento de almacenamiento de OpenFlex Data24 4000 Series NVMe-oF ofrece un rendimiento de casi saturación a través de exigentes puntos de referencia de IA, tanto independientes como con un solo aparato PEAK:AIO AI Data Server, que se traduce en una extensión de tiempo a los resultados más rápido y reducción de la extensión de infraestructura".

"Estos resultados de MLPerf ponen de relieve la eficiencia lograda al combinar PEAK:AIO-definida de software AI Data Server con la escalabilidad de OpenFlex Data24 de Western Digital y la densidad de rendimiento de las SSD de la Serie CM7-V de KIOXIA", dijo Roger Cummings, Presidente y CEO de PEAK:AIO. "Juntos, estamos entregando infraestructura de IA de alto rendimiento que es más rápida de implementar, más eficiente para operar y más fácil de escalar. Es una prueba convincente de que el alto rendimiento ya no requiere una alta complejidad".

Ya sea que las organizaciones estén comenzando su viaje de IA o escalando a cientos de GPUs, OpenFlex Data24 de Western Digital con conectividad líder en la industria utilizando adaptadores de red Western Digital RapidFlex permite que hasta 12 hosts se acoplan sin un interruptor. La plataforma de almacenamiento de datos ofrece un crecimiento simplificado, predecible y de alto rendimiento de la infraestructura de IA sin que los costos iniciales o las demandas de energía de algunas otras soluciones lo que hace ideal para las organizaciones escalar las cargas de trabajo de IA con confianza.

Western Digital valida el rendimiento del almacenamiento de IA en el mundo real con los resultados de MLPerf Storage V2

Resultados de MLPerf Almacenamiento V2 de Benchmark

Carga de trabajo 3D U-Net

En este modelo:

OpenFlex Data24 de Western Digital logró un rendimiento sostenido de lectura de 106.5 GB/s (99.2 GiB/s), saturando 36 GPUs de H100 simulados en tres nodos físicos de clientes que demuestran la capacidad del EBOF para manejar tareas de entrenamiento de alto paraelismo con facilidad.

Con el servidor de datos PEAK:AIO AI Data24 fue capaz de entregar 64.9 GB/s (59.6 GiB/s), saturando 22 GPUs de H100 simulados de un solo servidor de cabecera y un solo nodo de cliente.

Recarga de trabajo de ResNet50

En este modelo:

OpenFlex Data24 de Western Digital entregó un rendimiento óptimo en 186 GPUs de H100 y tres nodos de clientes, con una relación GPU-drive sobresaliente que refleja el uso eficiente de los medios físicos de la plataforma.

Con el servidor de datos PEAK:AIO AI, OpenFlex Data24 fue capaz de saturar 52 GPUs de H100 simuladas desde un solo servidor de cabecera y un solo nodo de cliente.

Entradas recientes

Comentarios

Siguenos