Ago 27, 2024

Nvidia presenta innovaciones para mejorar rendimiento de los centros de datos

A lo largo de cuatro charlas en la conferencia, los ingenieros de Nvidia comparten detalles sobre la plataforma Nvidia Blackwell, nuevas investigaciones sobre refrigeración líquida y agentes de IA para apoyar el diseño de chips.

por

Una conferencia sobre tecnología punta dirigida a arquitectos de procesadores y sistemas de la industria y el mundo académico se ha convertido en un foro clave para el mercado de la informática de centros de datos, que mueve un billón de dólares. 

En Hot Chips 2024, los ingenieros de Nvidia presentan los últimos avances de la plataforma Nvidia Blackwell, así como investigaciones sobre refrigeración líquida para centros de datos y agentes de IA para el diseño de chips.

Comparten cómo:

  • Nvidia Blackwell reúne múltiples chips, sistemas y software Nvidia CUDA para impulsar la próxima generación de IA en distintos casos de uso, sectores y países.
  • Nvidia GB200 NVL72, una solución multinodo a escala de rack con refrigeración líquida que conecta 72 Blackwell GPUs y 36 Grace CPUs, sube el listón del diseño de sistemas de IA.
  • NVLink la tecnología de interconexión proporciona comunicación de GPU a GPU, lo que permite un alto rendimiento y una baja latencia de inferencia para la IA generativa.
  • El sistema de cuantización Nvidia Quasar supera los límites de la física para acelerar el cálculo de la IA.
  • Los investigadores de Nvidia están creando modelos de IA que ayudan a construir procesadores para la IA.

Las diferentes charlas

Una charla sobre Nvidia Blackwell, que tuvo lugar el lunes 26 de agosto, también destacó nuevos detalles de arquitectura y ejemplos de modelos de IA generativa que se ejecutan en el silicio Blackwell.

La precedieron tres tutoriales el domingo 25 de agosto, en los que se explicó cómo las soluciones híbridas de refrigeración líquida pueden ayudar a los centros de datos a adoptar infraestructuras más eficientes desde el punto de vista energético. 

Además de cómo los modelos de IA, incluidos los agentes basados en modelos de lenguaje lingüísticos (LLM), pueden ayudar a los ingenieros a diseñar la próxima generación de procesadores.

En conjunto, estas presentaciones muestran la forma en que los ingenieros de Nvidia están innovando en todas las áreas de la informática y el diseño de centros de datos para ofrecer un rendimiento, una eficiencia y una optimización sin precedentes.

Prepárese para Blackwell

Nvidia Blackwell es lo último en computación de pila completa. Está compuesto por múltiples chips Nvidia, entre ellos la Blackwell GPU, la Grace CPU, la unidad de procesamiento de datos BlueField, la tarjeta de interfaz de red ConnectX, network interface card, NVLink Switch, Spectrum Ethernet switch y Quantum InfiniBand switch.

Ajay Tirumala y Raymond Wong, directores de arquitectura de Nvidia, presentan una primera visión de la plataforma y explicarán cómo estas tecnologías trabajan juntas para ofrecer un nuevo estándar de rendimiento en IA y computación acelerada, al tiempo que avanzan en eficiencia energética.

La solución multimodo Nvidia GB200 NVL72 es un ejemplo perfecto. La inferencia LLM requiere una generación de tokens de baja latencia y alto rendimiento. GB200 NVL72 actúa como un sistema unificado para proporcionar una inferencia hasta 30 veces más rápida para cargas de trabajo LLM, desbloqueando la capacidad de ejecutar modelos de billones de parámetros en tiempo real.

Tirumala y Wong también hablan sobre cómo el sistema de cuantización Quasar de Nvidia -que combina innovaciones algorítmicas, librerías y herramientas de software de Nvidia y la segunda generación del motor Transformer Engine de Blackwell- permite obtener alta precisión en modelos de baja precisión, destacando ejemplos que utilizan LLM e IA generativa visual.

“La plataforma Nvidia Blackwell representa un hito importante en la evolución de la computación acelerada, ya que reúne el hardware y el software más avanzados para impulsar la próxima generación de inteligencia artificial”, asegura Marcio Aguiar, director de la división Enterprise de Nvidia para Latinoamérica. 

Agregando que: “Al combinar múltiples chips, como las GPU Blackwell y las CPU Grace, estamos estableciendo nuevos estándares de rendimiento y eficiencia energética, lo que permite a empresas de todo el mundo liberar el verdadero potencial de la IA a escala”.

Centros de datos refrigerados

El zumbido tradicional de los data centers refrigerados por aire puede convertirse en una reliquia del pasado a medida que los investigadores desarrollen soluciones más eficientes y sostenibles que utilicen la refrigeración híbrida, una combinación de refrigeración por aire y líquida.

Las técnicas de refrigeración líquida alejan el calor de los sistemas con más eficacia que el aire, lo que facilita que los sistemas informáticos se mantengan fríos incluso mientras procesan grandes cargas de trabajo. 

Los equipos de refrigeración líquida también ocupan menos espacio y consumen menos energía que los sistemas de refrigeración por aire, lo que permite a los data centers añadir más bastidores de servidores -y, por tanto, más potencia de cálculo- en sus instalaciones.

Varios diseños de refrigeración híbrida

Ali Heydari, director de refrigeración e infraestructura de data centers de Nvidia, presenta varios diseños con refrigeración híbrida.

Algunos adaptan unidades de refrigeración líquida a data centers ya existentes refrigerados por aire, lo que ofrece una solución rápida y sencilla para añadir refrigeración líquida a los bastidores existentes. 

Otros diseños requieren la instalación de tuberías de refrigeración líquida directamente en el chip, utilizando unidades de distribución de refrigeración o sumergiendo totalmente los servidores en tanques de refrigeración por inmersión. 

Aunque estas opciones requieren una mayor inversión inicial, suponen un ahorro sustancial tanto en el consumo de energía como en los costes de funcionamiento.

Heydari también habla del trabajo de su equipo como parte del programa COOLERCHIPS del Departamento de Energía de EE.UU. para desarrollar tecnologías avanzadas de refrigeración de data centers. 

Como parte del proyecto, el equipo está utilizando la plataforma Nvidia Omniverse para crear gemelos digitales informados por la física que les ayudarán a modelar el consumo de energía y la eficiencia de la refrigeración para optimizar los diseños de sus data centers.

Agentes de IA contribuyen al diseño de procesadores

El diseño de semiconductores es un reto colosal a escala microscópica. Los ingenieros que desarrollan los procesadores más avanzados trabajan para hacer caber toda la potencia de cálculo posible en unos pocos centímetros de silicio, poniendo a prueba los límites de lo físicamente posible.

Los modelos de IA apoyan este trabajo mejorando la calidad y productividad del diseño, aumentando la eficacia de los procesos manuales y automatizando algunas tareas que consumen mucho tiempo. 

Los modelos incluyen herramientas de predicción y optimización para ayudar a los ingenieros a analizar y mejorar rápidamente los diseños, así como LLM que pueden ayudar a los ingenieros a responder preguntas, generar código, depurar problemas de diseño y mucho más.

Una visión amplia de los modelos

Mark Ren, director de investigación sobre automatización del diseño en Nvidia, ofrece una visión general de estos modelos y sus usos en un tutorial. En una segunda sesión, se centra en los sistemas de IA basados en agentes para el diseño de chips.

Los agentes de IA basados en LLM pueden ser dirigidos para que realicen tareas de forma autónoma, lo que abre un amplio abanico de aplicaciones en diferentes sectores. 

En el diseño de microprocesadores, los investigadores de Nvidia están desarrollando sistemas basados en agentes que pueden razonar y actuar utilizando herramientas de diseño de circuitos personalizadas, interactuar con diseñadores experimentados y aprender de una base de datos de experiencias humanas y de agentes.

Los expertos de Nvidia no sólo están creando esta tecnología, sino que la están utilizando. Ren comparte ejemplos de cómo los ingenieros pueden utilizar agentes de IA para el análisis de informes de temporización, los procesos de optimización de clusters de celdas y la generación de código

El trabajo de optimización de clusters de celdas ganó recientemente el premio al mejor artículo en el primer Workshop Internacional IEEE sobre Diseño Asistido por LLM.

Acerca de Nvidia

Desde su fundación en 1993, Nvidia (NASDAQ: NVDA) ha sido pionera en el campo de la aceleración computacional. La invención de la GPU por parte de la compañía en 1999 estimuló el crecimiento del mercado de juegos para PC, redefinió los gráficos por ordenador, inauguró la era de la IA moderna y ha contribuido a la digitalización industrial en todos los mercados. 

En la actualidad, Nvidia es una empresa de infraestructuras informáticas completas con soluciones a escala de centro de datos que están revolucionando la industria. Para saber más: Link.

Televitos

Revista papel digital de habla hispana donde puedes encontrar lo mejor del cine, series, consumo y entretenimiento.

Tecnovitos

T-Plus

error: ¡¡El contenido está protegido!!