Introduccion a la infraestructura para IA

Cuando escribimos una pregunta en un chat parece que la respuesta ocurre en un lugar abstracto. Hay una caja de texto, unos segundos de espera y un modelo que contesta. Para un ingeniero de sistemas, esa explicación queda demasiado arriba. La respuesta tarda, cuesta dinero y a veces falla porque debajo hay memoria, aceleradores, servidores, redes y almacenamiento tomando decisiones muy concretas.

Un modelo no aparece de la nada cuando llega una petición. Antes tuvo que ser entrenado y sus pesos tuvieron que terminar guardados en algún sitio. Para responder, una parte de esos pesos debe estar disponible cerca del cálculo. Ahí empieza la primera conversación útil: no en cuántos parámetros anuncia una empresa, sino en dónde caben esos parámetros, cuánto tardan en moverse y qué ocurre cuando el contexto del usuario crece.

La memoria es una de las piezas menos vistosas y más decisivas. En una GPU destinada a inteligencia artificial no basta con decir que tiene mucha potencia. Los pesos del modelo, las activaciones y la memoria temporal que mantiene el contexto de una conversación compiten por un espacio rápido y limitado. Por eso aparecen nombres como HBM o KV cache. No son vocabulario para una hoja comercial: explican por qué dos despliegues con el mismo modelo pueden comportarse de manera muy distinta.

El acelerador es la pieza que ejecuta gran parte del trabajo matemático. NVIDIA H100 o H200 son GPUs; AMD Instinct es otra familia; Google TPU, AWS Trainium o Intel Gaudi plantean caminos distintos. El nombre cambia, pero la pregunta que conviene conservar es la misma: qué cálculo ejecuta, qué memoria tiene cerca, con qué software se programa y cómo se conecta cuando una sola unidad deja de ser suficiente.

En ese punto se entiende por qué este atlas no debe ser un catálogo de tarjetas. Una GPU suelta sirve para estudiar una parte del problema. En un sistema real aparecen nodos con varias GPUs, switches internos, CPU, almacenamiento local y adaptadores de red. Plataformas como NVIDIA HGX existen porque juntar ocho aceleradores no consiste en meter ocho piezas dentro de una caja; hay que conseguir que intercambien datos sin pasar media vida esperando.

La red también cambia de papel. En muchos sistemas tradicionales una red lenta molesta al usuario. En entrenamiento distribuido o inferencia repartida, una red lenta puede dejar aceleradores caros esperando información. NVLink y NVSwitch hablan de comunicación dentro de un sistema; InfiniBand y RDMA aparecen cuando el tráfico tiene que cruzar entre nodos con muy poca latencia y sin cargar innecesariamente la CPU. Aprender redes aquí no es una desviación: es entender parte del cálculo.

Queda el almacenamiento, que suele llegar al final de los diagramas aunque el trabajo empiece allí. Los modelos, los datasets y los checkpoints se leen, escriben y recuperan. Un entrenamiento largo necesita guardar avances para no perder días de cálculo ante un fallo. Un servicio de inferencia necesita cargar pesos sin convertir el arranque en una espera interminable. NVMe, almacenamiento de objetos y flujos de datos no son el fondo del escenario; son la forma en que el trabajo entra y vuelve a salir.

Esta sección está pensada para leer en ese orden. Primero memoria, porque permite entender qué está intentando mantener cerca el sistema. Después aceleradores, para distinguir productos y arquitecturas sin confundirlos con toda la plataforma. Más adelante servidores y redes, donde las piezas empiezan a trabajar juntas. Por último almacenamiento, porque una infraestructura de IA solo tiene sentido si puede alimentar, proteger y recuperar el trabajo que realiza.

No hace falta comprar un servidor ni trabajar en un gran laboratorio para estudiar estas piezas. Hace falta mirarlas con las preguntas correctas. Cuánta memoria hay y para qué se usa. Qué se comunica dentro de un nodo y qué sale por la red. Dónde viven los pesos cuando nadie está consultando el modelo. Qué se pierde si una ejecución se interrumpe. A partir de ahí, una ficha técnica deja de ser una sucesión de siglas y empieza a contar cómo funciona la máquina.

El objetivo del Atlas es precisamente ese: abrir la infraestructura que sostiene la inteligencia artificial sin convertirla en una carrera de marcas. Las tecnologías importan porque resuelven límites reales. Si al terminar cada lectura puedes señalar qué pieza estaba saturada, esperando o moviendo datos, el hardware deja de parecer una caja cerrada y empieza a tener sentido.

Introduccion a la infraestructura para IA

Conversacion

Cancel reply