Blackwell no se entiende bien como la siguiente tarjeta de una tabla. Con B200 y GB200, la historia se desplaza hacia sistemas completos: aceleradores, CPU, interconexion y diseno de rack trabajando como una unidad.
De una GPU a un sistema
Cuando el trabajo se reparte entre muchas GPUs, el tiempo perdido comunicando datos puede comerse la mejora de computo. La nueva generacion importa si mantiene alimentados a los aceleradores y reduce la espera entre ellos.
Que debe observar plataforma
- Energia y refrigeracion: el datacenter se condiciona antes de ejecutar el primer modelo.
- Interconexion: el ancho de banda define cuanto escala una carga distribuida.
- Operacion: scheduling, fallos y metricas deben entender nodos muy costosos.
Blackwell abre la puerta para estudiar NVLink, redes RDMA, almacenamiento, runtimes de inferencia y consumo electrico como una sola arquitectura.
Conversacion
Se el primero en comentar