Hay momentos en los que una GPU no se queda corta por falta de calculo. Se queda corta porque el modelo, el contexto y la cache no caben con comodidad. Ese es el punto de partida para entender H200.
Mas memoria no es un detalle menor
H200 lleva la conversacion hacia HBM3e y una capacidad mayor que la generacion anterior. En un LLM, eso puede marcar la diferencia entre fragmentar el trabajo, reducir contexto o mantener mas informacion cerca de la GPU.
La cache que nadie ve
Durante inferencia, la KV cache crece con el contexto y con las peticiones simultaneas. Una plataforma puede tener calculo suficiente y aun asi quedarse sin espacio util.
Tres preguntas practicas
- Cuantos parametros tiene el modelo y con que precision se carga.
- Cuanto contexto quieres ofrecer.
- Cuantas peticiones simultaneas necesitas sostener.
El aprendizaje es separar computo, memoria y ancho de banda antes de elegir hardware.
Conversacion
Se el primero en comentar