En infraestructura solemos mirar CPU, RAM y disco antes de desplegar un servicio. En IA hay que agregar una pregunta: cuanto espacio real existe dentro de la GPU para el modelo y las conversaciones que atendera.
VRAM no es RAM comun
La memoria de una GPU esta cerca del calculo porque necesita entregar datos con gran ancho de banda. HBM lleva esa idea al centro de los aceleradores modernos.
Que ocupa memoria
- Pesos: el modelo cargado, afectado por tamano y precision.
- Activaciones: datos intermedios especialmente visibles al entrenar.
- KV cache: contexto ya procesado para generar los siguientes tokens.
Un modelo que entra durante una prueba puede fallar al aumentar contexto o concurrencia. Antes de elegir GPU, anota modelo, precision, contexto y usuarios simultaneos; despues mide.
Conversacion
Se el primero en comentar