NVIDIA H100

La NVIDIA H100 suele aparecer como un nombre corto en una consola de nube: eliges una instancia, esperas a que arranque y el modelo comienza a cargar. Desde fuera parece una GPU especialmente cara. Desde dentro es otra cosa. H100 marca el momento en que muchas plataformas tuvieron que dejar de tratar el acelerador como un periferico y empezar a tratarlo como el centro de un sistema: memoria de altisimo ancho de banda, enlaces entre GPU, alimentacion, refrigeración, scheduling y una red capaz de no arruinar el trabajo del silicio.

Hopper llego cuando entrenar modelos grandes y servir inferencia generativa ya no consistia solamente en multiplicar matrices más rápido. El modelo tiene que estar cerca del cálculo, las activaciones se mueven durante entrenamiento y, al servir una conversacion, la memoria comienza a llenarse con el contexto que el usuario no ve. En la variante SXM, H100 combina 80 GB de HBM3 con un ancho de banda de memoria de varios terabytes por segundo. Esa cifra no es decoracion de ficha técnica: es el camino por el que entran los datos que los Tensor Cores consumen. Si el camino se estrecha, una parte del computo queda esperando.

También hay una diferencia importante entre tener una H100 y operar ocho dentro de un nodo. Una sola GPU puede servir una prueba o un modelo moderado. Cuando el modelo se reparte, la conversacion cambia: cada acelerador necesita intercambiar información con los demas sin convertir cada paso en una espera. Ahí aparecen NVLink y NVSwitch. Por eso la pregunta correcta no es cuántos TOPS tiene la tarjeta, sino que topologia ofrece el nodo, que runtime usara la carga, cuanto contexto debera sostener y como se observa una degradacion antes de que alguien la note como latencia.

H100 también cambio la rutina del equipo de plataforma. Un recurso asi no puede quedar escondido tras una etiqueta genérica de Kubernetes. Hay que saber si se comparte o se reserva, como se drenan trabajos largos, que ocurre si falla una GPU a mitad de un entrenamiento y que métricas distinguen una GPU ocupada de una GPU bloqueada esperando datos. En una aplicación tradicional, desperdiciar CPU puede ser molesto. En un cluster de aceleradores, desperdiciar minutos repetidamente se convierte en coste visible.

La leccion que deja Hopper es sobria: la IA no corre sobre una tarjeta, corre sobre una cadena de decisiones. La H100 merece estudiarse porque hace evidente esa cadena. La memoria acerca el modelo, la interconexión permite repartirlo y la operación decide si la inversión produce trabajo útil o solo calor y facturas. Las cifras técnicas de memoria e interconexión pueden contrastarse en la documentacion oficial de NVIDIA H100; lo interesante empieza cuando esas cifras se traducen a un cluster real.

Conversacion

Cancel reply