VRAM, HBM y KV cache: donde cabe un modelo de IA

Antes de hablar de velocidad conviene preguntar si el modelo cabe: pesos, activaciones y KV cache compiten por la memoria de GPU.

En infraestructura solemos mirar CPU, RAM y disco antes de desplegar un servicio. En IA hay que agregar una pregunta: cuanto espacio real existe dentro de la GPU para el modelo y las conversaciones que atendera.

VRAM no es RAM comun

La memoria de una GPU esta cerca del calculo porque necesita entregar datos con gran ancho de banda. HBM lleva esa idea al centro de los aceleradores modernos.

Que ocupa memoria

  • Pesos: el modelo cargado, afectado por tamano y precision.
  • Activaciones: datos intermedios especialmente visibles al entrenar.
  • KV cache: contexto ya procesado para generar los siguientes tokens.

Un modelo que entra durante una prueba puede fallar al aumentar contexto o concurrencia. Antes de elegir GPU, anota modelo, precision, contexto y usuarios simultaneos; despues mide.

Conversacion

Se el primero en comentar