Durante anos hablar de entrenamiento de modelos a gran escala sonaba casi automaticamente a NVIDIA. Esa lectura ya es incompleta. AMD Instinct existe precisamente para disputar el acelerador del datacenter, y la familia MI350 hace visible una pregunta sana: que ocurre cuando la plataforma no gira alrededor de CUDA.
La pieza fisica y la pieza de software
Una GPU de datacenter no compite solo en capacidad de calculo o memoria. Compite en compiladores, kernels, bibliotecas, observabilidad y soporte dentro de los runtimes que sirven modelos. En AMD, ese camino pasa por ROCm.
Que deberias observar
- Capacidad y ancho de banda de memoria frente al modelo que quieres servir.
- Compatibilidad real del runtime: PyTorch, vLLM u otras herramientas del stack.
- Disponibilidad en cloud, bare metal y proveedores especializados.
- Operacion: metricas, scheduling, drivers y aislamiento.
Por que merece un capitulo
La existencia de una alternativa importa incluso si hoy operas NVIDIA. Evita disenar una plataforma alrededor de una marca y obliga a definir contratos: modelo, memoria, latencia, coste y mantenibilidad. Ese es criterio de infraestructura, no una guerra de logos.
Conversacion
Se el primero en comentar