AI 반도체 지도가 다시 그려졌다 - 에이전트가 2026년 판도를 바꾼 이유
OpenAI의 Cerebras $100억 딜, Nvidia의 Groq 인수, Google TPU 대규모 계약까지. GPU 중심 학습에서 추론 우선 실리콘으로의 구조적 전환이 시작됐습니다.
“Nvidia GPU만 있으면 되는 거 아니었어?”
작년까지 그렇게 생각하셨던 분이라면, 최근 한 달간의 뉴스에 상당히 혼란스러우셨을 겁니다. 오늘 OpenAI가 Cerebras와 $100억 규모의 계약을 체결했고, Nvidia는 사실상 Groq를 $200억에 인수했으며, Google TPU는 Anthropic과 Meta에 수십억 달러 규모의 계약을 확보했습니다.
AI 붐을 이끌어온 반도체 지도가 통째로 다시 그려지고 있습니다. 왜 이런 일이 벌어지고 있는지 정리합니다.
추론 시대가 GPU의 한계를 드러냈다
에이전트가 실시간으로 수천 번 사고하고 응답하는 시대에 접어들었습니다. 기존 GPU는 학습용으로 설계된 칩이거든요. 대규모 배치에서 행렬 곱셈을 무차별적으로 밀어붙이는 데 최적화된 구조입니다. 그런데 에이전트가 요구하는 저지연 추론은 근본적으로 다른 워크로드입니다.
- Groq와 Cerebras의 SRAM 기반 칩이 바로 이 이유로 재평가받고 있습니다
- 데이터 이동 에너지가 DRAM 대비 20~100배 낮아서, 대규모 실시간 추론에 최적화되어 있습니다
학습은 순수 처리량이 승부였습니다. 추론은 지연 시간과 에너지 효율이 승부입니다. 지난 시대를 지배한 하드웨어가 자동으로 다음 시대도 지배하는 건 아닙니다.
빅테크의 칩 다각화 전쟁
Nvidia 올인 전략은 끝났습니다. 모든 주요 AI 기업이 멀티칩 포트폴리오를 구축하고 있습니다.
- OpenAI: Microsoft 인프라를 넘어 Cerebras와 Google TPU까지 확장
- Anthropic: Google TPU 100만 개 이상을 운용하면서 AWS Trainium과 Nvidia GPU도 병행
- Intel: SambaNova 인수를 통해 추론 시장 재진입 시도
이건 Nvidia를 대체하겠다는 이야기가 아닙니다. 워크로드에 맞는 실리콘을 매칭하겠다는 이야기입니다. 학습 클러스터는 여전히 H100과 B200으로 돌아갑니다. 하지만 실제로 사용자에게 에이전트를 서빙하는 추론 플릿은 점점 더 전문화된 아키텍처를 요구하고 있습니다.
구매 패턴이 바뀌었습니다. “Nvidia GPU를 얼마나 확보할 수 있느냐”에서 “우리의 추론 대 학습 비율에 최적인 실리콘 조합이 뭐냐”로요.
중국이 자체 생태계를 완성하고 있다
바로 어제, Zhipu AI가 GLM-Image를 공개했습니다. Huawei Ascend 칩만으로 학습한 오픈소스 이미지 생성 모델인데, 오픈소스 이미지 생성기 중 최고 수준의 성능을 달성했습니다.
- 미국 수출 규제 하에서도 자국 칩 생태계가 실제로 작동할 수 있다는 것을 증명한 셈입니다
- 반도체 주권 없이는 AI 주권도 없다 - 중국은 이 원칙을 실행에 옮기고 있습니다
지정학을 넘어서는 시사점이 있습니다. AI 반도체 시장이 지역별로 분리된 생태계로 분화하고 있다는 것이거든요. 각각 독자적인 공급망, 최적화 스택, 경쟁 역학을 갖춘 체계입니다.
앞으로 어떤 의미인가
GPU 중심 학습에서 추론 특화 실리콘으로의 전환은 일시적인 현상이 아니라 구조적 변화입니다. 에이전트는 쿼리를 배치 처리하지 않습니다. 실시간으로 스트리밍하고, 분기하고, 반복합니다. 이 워크로드를 효율적으로 처리하는 칩 아키텍처가 다음 인프라 투자 사이클을 가져갈 겁니다.
전 세계 반도체 기업들에게 질문은 더 이상 “GPU 너머로 다각화할 것인가”가 아닙니다. “새로운 지도가 굳어지기 전에 추론 경제에서 얼마나 빨리 자리를 잡을 수 있느냐”입니다.
뉴스레터 구독하기
최신 프로젝트, 아티클, AI와 웹 개발 실험에 대한 소식을 받아보세요.