Un cluster puede tener aceleradores carisimos y seguir siendo lento si los datos llegan tarde. Los modelos deben cargarse, los datasets recorrerse y los checkpoints escribirse sin convertir el almacenamiento en una espera silenciosa.
El ciclo que no se ve
Durante entrenamiento, guardar checkpoints permite continuar despues de un fallo. Durante serving, distribuir pesos y arrancar replicas con rapidez determina cuanto tarda una plataforma en reaccionar. En ambos casos, almacenamiento y red forman parte del sistema de IA.
Capas que conviene estudiar
- NVMe local para acceso muy rapido y temporal.
- Almacenamiento compartido o de objetos para pesos y datasets persistentes.
- Cache y distribucion de modelos a nodos de inferencia.
- Rutas directas de datos cuando el hardware las soporta.
Un modelo no solo calcula: tambien lee, escribe, reanuda y se replica. La velocidad real empieza antes de la GPU.
Conversacion
Se el primero en comentar