Cuando distribuyes trabajo, la red deja de ser un cable y se convierte en parte del algoritmo. En IA ocurre con mas fuerza porque las operaciones dependen de compartir datos entre aceleradores.
Dentro del nodo: NVLink y NVSwitch
Varias GPUs en un servidor necesitan comunicarse con mas ancho de banda y menos latencia que una ruta convencional. NVLink y NVSwitch forman esa red interna para que las GPUs no trabajen como islas.
Entre nodos: InfiniBand y RDMA
Al escalar a varios servidores, InfiniBand y RDMA buscan mover datos con baja latencia y menos trabajo innecesario de CPU. Cada sincronizacion repetida afecta el tiempo final.
Que observar en un cluster
- Topologia y saltos entre participantes.
- Congestion en redes compartidas.
- Enlaces degradados que vuelven lento un job.
- Metricas de red junto a metricas de GPU.
Cuando el modelo crece, la red determina si muchas maquinas se comportan como un sistema o como una coleccion cara de esperas.
Conversacion
Se el primero en comentar