El mapa de los chips de IA se ha redibujado - Los agentes lo cambiaron todo en 2026
OpenAI firma con Cerebras, Nvidia absorbe Groq y Google TPU cierra contratos multimillonarios. La era de la inferencia ha roto el monopolio de la GPU.
«¿No basta con una GPU de Nvidia?»
Si eso es lo que pensabas hasta el año pasado, los titulares del último mes te habrán dejado bastante desorientado. Hoy OpenAI ha firmado un acuerdo de 10.000 millones de dólares con Cerebras, Nvidia ha adquirido Groq por 20.000 millones de facto, y Google TPU ha cerrado contratos multimillonarios con Anthropic y Meta.
El mapa de semiconductores que impulsó el boom de la IA acaba de redibujarse. Y tiene su lógica.
La era de la inferencia ha expuesto los límites de la GPU
Hemos entrado en una época en la que los agentes piensan y responden miles de veces en tiempo real. Las GPU tradicionales se diseñaron para el entrenamiento - multiplicación bruta de matrices sobre lotes masivos. Pero la inferencia de baja latencia, la que los agentes exigen, es una carga de trabajo fundamentalmente distinta.
- Los chips basados en SRAM, como los de Groq y Cerebras, se están reevaluando precisamente por esto
- El consumo energético en movimiento de datos es entre 20 y 100 veces menor que con DRAM, lo que los convierte en piezas optimizadas para inferencia en tiempo real a escala
El entrenamiento premiaba el throughput bruto. La inferencia premia la latencia y la eficiencia energética. El hardware que ganó la era anterior no es automáticamente el que va a ganar esta.
La guerra de diversificación de chips de las Big Tech
La estrategia de apostar exclusivamente por Nvidia ha muerto. Todas las grandes empresas de IA están construyendo un portfolio multichip.
- OpenAI: Ha expandido su infraestructura más allá de Microsoft para incluir Cerebras y Google TPU
- Anthropic: Opera más de un millón de TPUs de Google junto con AWS Trainium y GPUs de Nvidia
- Intel: Intenta volver al mercado de la inferencia mediante su adquisición de SambaNova
No se trata de sustituir a Nvidia. Se trata de emparejar el silicio con la carga de trabajo. Los clústeres de entrenamiento siguen funcionando con H100 y B200. Pero las flotas de inferencia - las que realmente sirven los agentes a los usuarios - demandan cada vez más arquitecturas especializadas.
El patrón de compra ha pasado de «¿cuántas GPUs de Nvidia podemos conseguir?» a «¿cuál es la mezcla óptima de silicio para nuestra ratio inferencia-entrenamiento?».
China está completando su propio ecosistema
Justo ayer, Zhipu AI lanzó GLM-Image, un modelo de generación de imágenes open source entrenado íntegramente sobre chips Huawei Ascend. Ha alcanzado resultados de vanguardia entre los generadores de imágenes de código abierto.
- Esto demuestra que un ecosistema doméstico de chips puede funcionar bajo las restricciones de exportación de Estados Unidos
- Sin soberanía semiconductora no hay soberanía en IA - y China está actuando en consecuencia
Las implicaciones van más allá de la geopolítica. Lo que queda claro es que el mercado de chips para IA se está fragmentando en ecosistemas regionales diferenciados, cada uno con sus propias cadenas de suministro, stacks de optimización y dinámicas competitivas.
Qué significa todo esto de cara al futuro
El paso de un entrenamiento centrado en la GPU a un silicio especializado en inferencia es un cambio estructural, no cíclico. Los agentes no procesan consultas por lotes - transmiten, ramifican e iteran en tiempo real. Las arquitecturas de chip que sirvan esta carga de trabajo de forma eficiente capturarán la próxima ola de inversión en infraestructura.
Para las empresas de semiconductores de todo el mundo, la pregunta ya no es si diversificar más allá de las GPUs. La pregunta es con qué rapidez pueden posicionarse en la economía de la inferencia antes de que el nuevo mapa se solidifique.
Únete al boletín
Recibe actualizaciones sobre mis últimos proyectos, artículos y experimentos con IA y desarrollo web.