Sep 5, 2024

NVIDIA Blackwell establece nuevo estándar para la IA generativa con la inferencia MLPerf

La primera aplicación que utiliza la GPU NVIDIA Blackwell multiplica por 4 el rendimiento de Llama 2 70B y la arquitectura Hopper de NVIDIA genera grandes ganancias en las pruebas de IA del sector.

por

A medida que las empresas se apresuran a adoptar la IA generativa y lanzar nuevos servicios al mercado, las exigencias a la infraestructura de los centros de datos nunca han sido mayores. Entrenar grandes modelos de lenguaje (LLM) es un reto, pero ofrecer servicios en tiempo real basados en LLM es otro.

En la última ronda de pruebas de MLPerf, Inference v4.1, las plataformas NVIDIA ofrecieron el mejor rendimiento en todas las pruebas de centros de datos. 

La primera presentación de la próxima plataforma NVIDIA Blackwell reveló hasta 4 veces más rendimiento que la GPU NVIDIA H100 Tensor Core en la mayor carga de trabajo LLM de MLPerf, Llama 2 70B, gracias al uso de un Transformer Engine de segunda generación y FP4 Tensor Cores.

La NVIDIA H200 Tensor Core GPU obtuvo resultados extraordinarios en todas las pruebas de la categoría de centros de datos; incluida la última incorporación a la prueba, el Mixtral 8x7B mixture of experts (MoE) LLM, con un total de 46.700 millones de parámetros, con 12.900 millones de parámetros activos por token.

Los modelos MoE ganan popularidad como una forma de aportar más versatilidad a los despliegues LLM, ya que son capaces de responder a una amplia variedad de preguntas y realizar tareas más diversas en un único despliegue.

También son más eficientes, ya que sólo activan a unos pocos expertos por inferencia, lo que significa que ofrecen resultados mucho más rápidamente que los modelos densos de tamaño similar.

Satisfaciendo necesidades

El continuo crecimiento de los LLMs está impulsando la necesidad de más computación para procesar las solicitudes de inferencia. Para satisfacer los requisitos de latencia en tiempo real de los LLM actuales y hacerlo para el mayor número posible de usuarios, es imprescindible el cálculo multi-GPU. 

NVIDIA NVLink y NVSwitch proporcionan comunicación de gran ancho de banda entre GPUs basadas en la arquitectura Hopper de NVIDIA y aportan importantes ventajas para la inferencia de grandes modelos en tiempo real y de forma rentable. 

La plataforma Blackwell ampliará aún más la capacidad de NVLink Switch con dominios NVLink más grandes con 72 GPUs.

Un resultado excelente

Además de las propuestas de NVIDIA, 10 partners de la compañía -ASUSTek, Cisco, Dell Technologies, Fujitsu, Giga Computing, Hewlett Packard Enterprise (HPE), Juniper Networks, Lenovo, Quanta Cloud Technology y Supermicro- presentan sólidas sugerencias de MLPerf Inference, lo que pone de manifiesto la amplia disponibilidad de las plataformas NVIDIA.

“Estamos muy satisfechos de obtener este excelente resultado en MLPerf, que demuestra que las plataformas NVIDIA ofrecen un rendimiento líder en todos los sectores de los centros de datos”, celebra Marcio Aguiar, director de la división Enterprise de NVIDIA para Latinoamérica. 

A lo que agrega: “Esto contribuye significativamente a seguir reforzando nuestra posición en este escenario, así como a hacer más eficiente el trabajo de las empresas”.

Innovación incesante del software

Las plataformas NVIDIA se someten a un proceso continuo de desarrollo de software, lo que se traduce en mejoras mensuales de rendimiento y funcionalidad.

En la última ronda de inferencia, las ofertas de NVIDIA, que incluyen la arquitectura NVIDIA Hopper, la plataforma NVIDIA Jetson y el servidor de inferencia NVIDIA Triton, experimentaron aumentos de rendimiento a pasos agigantados.

La GPU NVIDIA H200 proporcionó hasta un 27% más de rendimiento en inferencia generativa de IA que la ronda anterior; lo que subraya el valor añadido que los clientes obtienen con el tiempo de su inversión en la plataforma NVIDIA.

Triton Inference Server, disponible con el software NVIDIA AI Enterprise, es un servidor de inferencia de código abierto con todas las funciones. Lo que ayuda a las organizaciones a consolidar los servidores de inferencia específicos de cada marco de trabajo en una única plataforma unificada. 

Esto ayuda a reducir el coste total de propiedad de los modelos de IA en producción y acorta el tiempo de implantación de los modelos de meses a minutos.

En esta ronda de MLPerf, el servidor de inferencia Triton ofreció un rendimiento casi igual al de los modelos bare-metal de NVIDIA, lo que demuestra que las empresas ya no tienen que elegir entre utilizar un servidor de inferencia de IA de alta calidad para producción o alcanzar el máximo rendimiento.

Hacia el Edge

Los modelos de IA generativa desplegados en el perímetro pueden transformar los datos de sensores, como imágenes y vídeos, en información procesable en tiempo real y con gran conocimiento del contexto. 

La plataforma NVIDIA Jetson para inteligencia artificial y robótica en los edges es la única capaz de ejecutar localmente cualquier tipo de modelo, incluidos los LLM, los transformadores de visión y Stable Diffusion.

En esta ronda de pruebas MLPerf, los módulos sobre sistema NVIDIA Jetson AGX Orin lograron una mejora del rendimiento de 6,2 veces y una mejora de la latencia de 2,4 veces con respecto a la ronda anterior en la carga de trabajo GPT-J LLM. 

En lugar de desarrollar para un caso de uso específico, los desarrolladores ahora pueden utilizar este modelo de uso general de 6.000 millones de parámetros para interactuar sin problemas con el lenguaje humano, transformando la IA generativa en el perímetro.

Liderazgo en rendimiento

Esta ronda de MLPerf Inference demostró la versatilidad y el rendimiento líder de las plataformas NVIDIA, que se extienden desde el centro de datos hasta el perímetro, en todas las cargas de trabajo de la prueba.

Esto potencia las aplicaciones y los servicios más innovadores basados en IA. Para obtener más información sobre estos resultados, consulte nuestro blog técnico.

Los sistemas dotados de GPU H200 ya están disponibles a través de CoreWeave -el primer proveedor de servicios en la nube que anuncia su disponibilidad general- y los fabricantes de servidores ASUS, Dell Technologies, HPE, QTC y Supermicro.

Véase el aviso sobre información de productos de software.

Televitos

Revista papel digital de habla hispana donde puedes encontrar lo mejor del cine, series, consumo y entretenimiento.

Tecnovitos

T-Plus

error: ¡¡El contenido está protegido!!