NVLink e InfiniBand

Es facil imaginar que un cluster de IA es una suma: si una GPU es rápida, muchas GPUs deberian ser proporcionalmente más rapidas. La realidad se parece menos a una suma y más a una conversacion urgente. Durante entrenamiento distribuido, los aceleradores necesitan sincronizar resultados repetidamente. Durante serving a gran escala, partes del modelo o del cache pueden repartirse. Cada comunicación lenta deja hardware costoso esperando. Por eso la red no aparece al final del diseño: forma parte de la capacidad de cálculo.

Dentro de un nodo, NVLink y NVSwitch resuelven una distancia corta pero exigente. Su objetivo es que varias GPUs puedan moverse datos con un ancho de banda y una latencia que una ruta ordinaria no proporcionaria. Ahí tiene sentido hablar de una máquina compuesta por aceleradores, no de tarjetas independientes. Cuando el trabajo cruza la frontera del servidor, aparecen otras herramientas. InfiniBand y RDMA buscan mover memoria entre nodos con baja latencia y evitando trabajo innecesario del procesador, algo especialmente valioso cuando las sincronizaciones se repiten miles de veces.

Desde networking, el tema es hermoso porque obliga a bajar de la abstraccion. Una interfaz arriba no revela automáticamente un enlace congestionado, un path mal equilibrado o una topologia que hace que algunas GPUs se comuniquen a mayor coste que otras. Un job distribuido puede parecer lento por el modelo, cuando en realidad esta esperando una red que no fue diseñada o observada para esa forma de tráfico. Hay que mirar contadores, errores, retransmisiones donde apliquen, utilizacion de enlaces y el mapa fisico por el que pasa el colectivo.

También conviene recordar que RDMA no es magia. Reducir copias y participacion de CPU ofrece una ventaja real, pero exige configuración, aislamiento, firmware, drivers y un equipo capaz de investigar cuando la promesa deja de cumplirse. En un laboratorio se ve ancho de banda. En producción se ve si la plataforma conserva ese comportamiento mientras otros trabajos comparten la fabrica y aparecen fallos parciales.

Una GPU rápida aislada sirve para aprender. Un sistema distribuido solo sirve si su red sostiene la conversacion entre aceleradores. NVIDIA documenta el papel de NVLink y de sus soluciones de InfiniBand. La idea fundamental es más amplia que una tecnologia: cuando entrenar depende de sincronizar, el cable y el switch también forman parte del modelo.

Conversacion

Cancel reply