GTC | NVIDIA lanza GPU Blackwell con 30 veces más potencia
Este lunes (18), NVIDIA lanzó la nueva GPU B200 para IA en GTC 2024 (Graphics Technology Conference), inaugurando la arquitectura Blackwell. Las nuevas GPU aportan innovaciones de hardware y tecnologías integradas que ofrecen, por GPU, 4 veces más rendimiento en entrenamiento, 30 veces más en inferencias y 25 veces más eficiencia energética en comparación con los chips Hopper H100.
Los nuevos chips Blackwell se fabrican en el proceso 4NP de 4 nm de TSMC, adaptado para integrar dos matrices Blackwell para que actúen como una única GPU a través de interconectores de chip a chip de 10 TB/s (NVLINK C2C). La gran ventaja del nuevo diseño es eliminar posibles problemas de comportamiento del programa en una arquitectura de chiplet desagregada.
Inferencia en la escala de billones de parámetros
Otra innovación de los chips Blackwell es la introducción de la nueva generación de Tensor Cores y compiladores Tensor que combinan los modelos TensorRT-LLM y el marco NeMo Megatron. Entre otras ventajas, el resultado es una aceleración de la inferencia y el entrenamiento en tiempo real en una escala de 10 billones de parámetros.
Además, NVIDIA lanzó la quinta generación de interconexiones NVIDIA NVLink con ancho de banda bidireccional de 1,8 TB/s, lo que garantiza una comunicación de ultra alta velocidad entre hasta 576 GPU. Con la implementación de un motor de descompresión dedicado, los chips B200 aún ofrecen importantes mejoras de rendimiento en las actividades de análisis de datos.
Servidores NVL72 con superchip
Finalmente, lo más destacado de la nueva arquitectura GPU de NVIDIA es el superchip Grace-Blackwell GB200, una evolución del ya impresionante Grace-Hopper, implementado en los servidores NVL72. La nueva generación de racks NVIDIA para IA y HPC combina 36 CPU Amazing Grace y 72 GPU Blackwell B200 que se comunican a través de NVIDIA NVLink de quinta generación.
El resultado es un servidor con una potencia computacional de 720 Petaflops (PFLOPS) en entrenamiento de modelos LLM, 1.440 PFLOP en inferencia y capacidad para modelos con hasta 27 billones de parámetros. NVIDIA ya cuenta con una amplia cartera de empresas que adoptarán las soluciones de Blackwell en 2024.
Entre las principales alianzas se encuentran Google Cloud, Microsoft Azure, Oracle Cloud Infrastructure y Amazon Web Services (AWS) como los primeros en actualizar sus infraestructuras. Además, Cisco, Dell, Lenovo y Supermicro también producirán sus propias soluciones de servidor utilizando chips Blackwell y otras tecnologías NVIDIA para 2024.