Storage y checkpoints

Hay una escena frustrante en cualquier plataforma de IA: el cluster esta reservado, los aceleradores cuestan dinero por minuto y la carga todavia no calcula porque esta leyendo, preparando o esperando datos. En las presentaciones, el modelo parece nacer dentro de la GPU. En la práctica, antes de entrenar necesita datasets; antes de servir necesita pesos; y cuando un entrenamiento dura lo suficiente como para que un fallo sea inevitable, necesita checkpoints que permitan reanudar sin volver al comienzo.

El almacenamiento no es una sola caja en esta historia. Puede haber objetos persistentes donde viven datasets y modelos, discos NVMe locales usados como cache rápida, un sistema compartido que alimenta multiples nodos y una ruta de red por la que todo ese material debe cruzar. Cada capa responde a una necesidad distinta. Conservar todo lejos del nodo puede ser simple, pero lento al arrancar replicas. Copiar todo localmente puede acelerar una carga, pero requiere espacio, consistencia y un plan cuando el nodo desaparece.

Los checkpoints hacen especialmente visible la tension. Guardarlos con poca frecuencia reduce escritura, pero aumenta el trabajo perdido tras un fallo. Guardarlos con demasiada frecuencia puede interrumpir un entrenamiento o saturar la ruta compartida. No hay frecuencia universalmente correcta: depende del coste del job, del tiempo que tarda escribir, de la probabilidad de interrupcion y de la capacidad de recuperar el estado sin improvisacion. Este es el tipo de decisión donde infraestructura deja de ser una compra y se convierte en criterio.

En inferencia, el mismo problema se presenta con otro rostro. Si una plataforma escala replicas al detectar demanda pero cada replica tarda demasiado en recibir los pesos, el autoscaling llega tarde. Si muchos nodos descargan a la vez el mismo modelo, el backend de objetos o la red pueden convertirse en el cuello de botella que no aparecia en la prueba individual. El tiempo hasta el primer token empieza bastante antes de que la GPU reciba una peticion.

Estudiar almacenamiento en IA es aprender a no dejar que el acelerador monopolice la explicación. Un modelo se alimenta, se guarda, se copia y se recupera. Todo eso es infraestructura y todo eso aparece en la factura y en la confiabilidad del servicio. La documentacion de NVIDIA GPUDirect Storage permite explorar una de las rutas para acercar datos al acelerador; incluso cuando no se usa esa tecnologia, la pregunta queda intacta: cuanto tiempo valioso estas pagando para esperar bytes.

Conversacion

Cancel reply