La carte des puces IA vient d'être redessinée - les agents ont tout changé en 2026
Le deal de 10 milliards d'OpenAI avec Cerebras, l'acquisition de Groq par Nvidia et les méga-contrats Google TPU signalent un basculement tectonique du GPU vers le silicium optimisé pour l'inférence.
« Un GPU Nvidia, c’est tout ce qu’il vous faut, non ? »
Si c’est ce que vous pensiez encore l’année dernière, les gros titres du mois écoulé ont dû sérieusement vous déstabiliser. Aujourd’hui, OpenAI a signé un accord de 10 milliards de dollars avec Cerebras, Nvidia a de facto racheté Groq pour 20 milliards, et Google TPU a verrouillé des contrats de plusieurs milliards avec Anthropic et Meta.
La carte des semi-conducteurs qui alimentait le boom de l’IA vient d’être redessinée. Voici pourquoi.
L’ère de l’inférence a exposé les limites du GPU
Nous sommes entrés dans une époque où les agents réfléchissent et répondent des milliers de fois en temps réel. Les GPU traditionnels ont été conçus pour l’entraînement - de la multiplication matricielle brute sur des batchs massifs. Mais l’inférence à faible latence, celle qu’exigent les agents, représente une charge de travail fondamentalement différente.
- Les puces à base de SRAM, comme celles de Groq et Cerebras, sont réévaluées précisément pour cette raison
- Le coût énergétique du déplacement de données y est 20 à 100 fois inférieur à celui de la DRAM, ce qui les rend optimisées pour l’inférence en temps réel à grande échelle
L’entraînement récompensait le débit brut. L’inférence récompense la latence et l’efficacité énergétique. Le matériel qui a gagné la dernière bataille n’est pas automatiquement celui qui gagnera la prochaine.
La guerre de diversification des puces chez les géants de la tech
La stratégie « tout Nvidia » est morte. Chaque grande entreprise d’IA construit désormais un portefeuille multi-puces.
- OpenAI : s’est étendu au-delà de l’infrastructure Microsoft pour intégrer Cerebras et Google TPU
- Anthropic : fait tourner plus d’un million de TPU Google aux côtés d’AWS Trainium et de GPU Nvidia
- Intel : tente de revenir sur le marché de l’inférence via son acquisition de SambaNova
Il ne s’agit pas de remplacer Nvidia. Il s’agit de faire correspondre le silicium à la charge de travail. Les clusters d’entraînement tournent toujours sur des H100 et des B200. Mais les flottes d’inférence - celles qui servent concrètement les agents aux utilisateurs - exigent de plus en plus des architectures spécialisées.
Les logiques d’achat sont passées de « combien de GPU Nvidia peut-on obtenir ? » à « quel est le mix optimal de silicium pour notre ratio inférence/entraînement ? ».
La Chine achève de construire son propre écosystème
Hier encore, Zhipu AI a publié GLM-Image - un modèle de génération d’images open source entraîné intégralement sur des puces Huawei Ascend. Il a atteint l’état de l’art parmi les générateurs d’images open source.
- Cela prouve qu’un écosystème de puces domestique peut réellement fonctionner sous les restrictions d’exportation américaines
- Pas de souveraineté sur les semi-conducteurs, pas de souveraineté en IA - et la Chine agit en conséquence
Les implications dépassent la géopolitique. C’est la démonstration que le marché des puces IA se fragmente en écosystèmes régionaux distincts, chacun avec ses propres chaînes d’approvisionnement, ses stacks d’optimisation et ses dynamiques concurrentielles.
Ce que ça change pour la suite
Le basculement d’un entraînement centré sur le GPU vers un silicium spécialisé pour l’inférence est structurel, pas cyclique. Les agents ne traitent pas les requêtes par lots - ils streament, bifurquent et itèrent en temps réel. Les architectures de puces capables de servir efficacement ces charges de travail capteront la prochaine vague de dépenses d’infrastructure.
Pour l’industrie mondiale des semi-conducteurs, la question n’est plus de savoir s’il faut diversifier au-delà du GPU. C’est de savoir à quelle vitesse chacun peut se positionner dans l’économie de l’inférence avant que la nouvelle carte ne se fige.
Et pour l’Europe, le signal est particulièrement clair. Avec le EU Chips Act et des acteurs comme STMicroelectronics ou les initiatives de souveraineté numérique portées par la France, le continent dispose d’atouts réels - mais la fenêtre de tir se referme. L’inférence spécialisée n’est pas un marché de rattrapage : c’est un nouveau terrain de jeu où l’Europe peut entrer au bon moment, à condition d’agir maintenant. Ceux qui attendront de voir comment le marché se stabilise risquent d’arriver trop tard.
Rejoindre la newsletter
Recevez des mises à jour sur mes derniers projets, articles et expériences en IA et développement web.