Storage y checkpoints: el dato tambien entrena el modelo
Datasets, pesos y checkpoints convierten al almacenamiento en una capa critica de cualquier datacenter de IA.
Leer postAceleradores, memoria, sistemas, redes y datos: una coleccion para abrir la infraestructura que entrena o sirve un modelo de IA
Datasets, pesos y checkpoints convierten al almacenamiento en una capa critica de cualquier datacenter de IA.
Leer postGaudi 3 ayuda a estudiar el papel de Ethernet y de las alternativas de aceleracion en clusters de IA.
Leer postTrainium2 une chip, red y software de AWS en una plataforma propia para entrenar y servir modelos.
Leer postGoogle TPU 8t y 8i muestran una infraestructura propia: una ruta para entrenamiento y otra para inferencia, mas alla de la GPU tradicional.
Leer postAMD Instinct abre otra ruta para aceleracion de IA: memoria, ROCm y una plataforma que no depende de CUDA.
Leer postUna GPU rapida aislada no entrena sistemas grandes: NVLink une aceleradores e InfiniBand y RDMA conectan nodos con menos espera.
Leer postUn servidor HGX permite ver la GPU dentro de su habitat real: aceleradoras, switches, CPU, red, energia y refrigeracion.
Leer postAntes de hablar de velocidad conviene preguntar si el modelo cabe: pesos, activaciones y KV cache compiten por la memoria de GPU.
Leer postBlackwell obliga a pensar mas alla de una GPU: B200, GB200, interconexion, potencia y racks completos para IA.
Leer postLa H200 pone el foco donde muchos despliegues de LLM se rompen: memoria disponible, ancho de banda y cache durante la inferencia.
Leer post