분석·2026-06-02·9분

엔비디아가 CPU를? 다 이유가 있습니다

GPU가 AI의 전부인 줄 알았다면 꼭 보셔야 하는 글입니다. 정작 엔비디아부터 GPU 아닌 전체 시스템에 집중하고 있죠. 학습에서 추론의 시대로 넘어가며 바뀐 AI 반도체 판을, CommanderOS 자체 추론 운영 경험까지 얹어 풀어봤습니다.

AXyNow
엔비디아
GPU
ASIC
추론
메모리반도체
AI반도체

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

지난 몇 년 동안 우리가 외우다시피 한 공식이 하나 있죠. "AI는 곧 GPU다." 모델을 더 똑똑하게 만들고 싶으면 엔비디아 GPU를 더 많이 사서 더 크게 쌓으면 된다, 이게 2025년까지의 상식이었습니다. 엔비디아가 전 세계 시총 1위를 찍은 것도 다 그래서였고요.

그런데 요즘 정작 그 엔비디아가 좀 이상한 행보를 보입니다. GPU도 아닌 칩을 200억 달러나 주고 사들이고, GTC 무대에서는 GPU가 아니라 CPU를 새로 깔았거든요. AI의 왕이 GPU라고 알고 있던 우리 모두의 상식을 깨고, 엔비디아는 CPU까지 나아가고 있는 걸까요. 오늘은 이 얘기를 좀 해보려고 합니다.

황제폐하께서 GPU 아닌 칩을 사들였습니다

작년 12월, 엔비디아가 Groq라는 회사를 약 200억 달러에 흡수했습니다. Groq가 만드는 건 GPU가 아니라 LPU(Language Processing Unit)예요. 이름 그대로 언어 모델을 "빠르게 돌리는" 한 가지 일에만 특화된 칩입니다. GPU 황제가, GPU 아닌 추론 전용 칩을 통째로 사버린 거죠.

사실 저는 Cerebras랑 Groq 모두를 매우 좋아했습니다. 웹소설 개발 플랫폼부터 심리분석 플랫폼까지 속도가 중요한 추론에서 이 두 회사의 서비스를 매우 유용하게 활용했었거든요. 그러나 인수된 후로는 오히려 자체 추론 서비스에 관심이 없어진 탓에 새로운 업데이트가 잘 안되었던 것 같습니다.

말이 좀 샜네요, 이어서 가볼게요.

올해 3월 GTC 2026에서 엔비디아는 신제품 7종을 한꺼번에 풀었는데, 그 라인업이 좀 의미심장합니다. 차세대 Rubin GPU만 있는 게 아니라 Vera라는 자체 CPU가 같이 들어가 있었거든요. 88개 코어짜리 ARM 칩인데, 메모리 대역폭이 기존 CPU의 두 배(1.2TB/s)인데 전력은 절반이라고 합니다. 거기에 아까 그 Groq의 LPU까지 한 랙(Groq 3 LPX, LPU 256개)으로 묶어서 같이 내놨고요. (갖고싶다...)

정리하면, 엔비디아가 그리는 미래의 AI 공장은 GPU 한 종류로 도배된 게 아니라, CPU(Vera) + GPU(Rubin) + LPU(Groq) 세 칩이 역할을 나눠 도는 구조예요. 젠슨 황은 이걸 두고 "엔비디아는 이제 수직 통합됐지만 수평으로 열린 회사"라고 표현했습니다. 말은 멋있는데, 뒤집어 보면 GPU 하나만으로는 다음 판을 못 먹는다는 걸 본인들이 제일 잘 안다는 소리죠.

그러니까 질문이 이렇게 바뀝니다. GPU가 정말 AI의 전부였다면, 왜 GPU를 가장 잘 파는 회사가 GPU 바깥에 이렇게 돈을 쓸까요.

GPU의 시대가 저무는 게 아니라, 학습의 시대가 저뭅니다

답은 'AI를 어디에 쓰느냐'가 바뀌었다는 데 있습니다.

2023~2024년은 **학습(training)**의 시대였어요. 거대 모델을 처음부터 훈련시키는 게 메인 이벤트였고, 여기엔 온갖 연산을 다 소화하는 범용 괴물인 GPU가 딱이었습니다. 그런데 2026년 들어 무게중심이 추론(inference) 쪽으로 확 넘어갔어요. 이미 다 만들어진 모델을 수십억 명한테 실제로 돌려주는 일이요. 업계에서는 올해 AI 연산 지출의 약 3분의 2가 학습이 아니라 추론에서 나올 거라고 봅니다.

여기서 반전이 생깁니다. 추론은 "같은 일을 어마어마하게 반복"하는 작업이에요. 이럴 땐 뭐든 다 할 줄 아는 범용 GPU의 유연함이 오히려 부담이 됩니다. 쓰지도 않는 기능까지 다 얹은 비싼 칩으로 단순 반복을 돌리는 셈이거든요. 그래서 구매 기준 자체가 바뀌었습니다. 예전엔 "얼마나 센가"였다면, 지금은 **토큰 하나당 원가, 전력, 발열, 가동률, 총소유비용(TCO)**이에요. 그리고 이 항목들에서는 한 가지 일만 하도록 깎아 만든 전용 칩(ASIC)이 구조적으로 유리합니다.

숫자가 그걸 증명합니다. 시장조사기관 트렌드포스에 따르면 2026년 커스텀 AI 칩(ASIC) 출하 증가율이 44.6%인데, 엔비디아 같은 범용 GPU는 16.1%에 그칩니다. 전용 칩 성장세가 GPU의 거의 세 배예요. 이게 사상 처음으로 ASIC이 GPU 성장률을 추월한 해라는 게 핵심입니다.

2026년 AI 칩 출하 증가율(%). 전용 칩이 범용 GPU의 약 3배로 자라며 사상 처음 추월했다. 출처: TrendForce 인용(techtimes), 2026-05.

오해는 마세요. GPU 매출이 줄었다는 게 아닙니다. GPU도 16% 자랍니다. 다만 판이 커지는 방향이 GPU가 아니라 전용 칩 쪽이라는 거죠. 왕이 죽는 게 아니라, 왕국에 새 영주들이 우후죽순 생기는 중입니다.

큰손들은 이미 갈아타는 중입니다

그 새 영주들이 누구냐면, 공교롭게도 엔비디아의 가장 큰 고객들이에요.

구글은 Ironwood라는 7세대 TPU를 돌리고 있고, 아마존은 Trainium, 마이크로소프트는 Maia 200, 메타는 MTIA라는 자체 칩을 굴립니다. 이 회사들 전부 엔비디아 GPU를 제일 많이 사주는 큰손들인데, 동시에 자기네 칩을 만들어서 추론 물량을 거기로 빼고 있어요. 왜겠어요. 돈 때문이죠.

대표적인 사례가 이미지 생성 서비스 미드저니입니다. 추론을 엔비디아 GPU에서 구글 TPU로 옮겼더니 월 컴퓨트 비용이 210만 달러에서 70만 달러로 줄었어요. 약 67% 절감입니다. 한 달에 140만 달러, 1년이면 1,600만 달러가 넘게 빠지는 거죠. 이 정도 차이가 나는데 안 옮기는 게 이상한 거예요.

미드저니 월 컴퓨트 비용(만 달러). 추론 워크로드를 엔비디아 GPU에서 구글 TPU로 옮긴 뒤 약 67% 줄었다. 출처: TrendForce 인용(techtimes), 2026-05.

업계에서는 대규모 추론에서 전용 칩의 총소유비용 우위를 40~65% 정도로 봅니다. 그러니 AI ASIC 시장 자체가 폭발하고 있어요. 2024년 130억 달러 규모였던 게 2030년이면 1,500억 달러를 넘길 거란 전망입니다. 연평균 50% 가까이 자라는 셈이죠.

데이터센터 AI ASIC 시장 추정 규모(억 달러). 6년 만에 10배 넘게 커진다는 전망. 출처: TrendForce·업계 추정, 2026-05.

회사	자체 추론 칩	성격
구글	Ironwood TPU(7세대)	추론 전용, 미드저니 등 외부 고객 유치
아마존	Trainium	자사 클라우드(AWS) 비용 절감
마이크로소프트	Maia 200	Azure·코파일럿 내재화
메타	MTIA	추천·광고 추론 대량 처리
엔비디아	Vera CPU + Groq LPU	GPU 옆에 전용 칩을 끼워 풀스택 방어

출처: 각사 발표·트렌드포스 정리, 조회 2026-06-02.

엔비디아가 Groq를 사고 CPU를 만든 건, 이 흐름을 못 막으니까 차라리 "추론 전용 칩도 우리한테서 사라"고 판을 다시 짠 겁니다. 물론, 그들만이 갖고 있는 CUDA라는 성벽은 추론에서도 밸류가 있습니다.

에디터인 제가 직접 운영하는 서비스 중에서 STT를 개발할 일이 있었는데, 학습을 위해 RTX 5090 2개가 활용되었지만 정작 추론에는 그렇게 비싼 부품은 필요가 없었습니다. 즉 총 소유비용이 너무 비쌌던 것이죠.

냉정하게 보면, 오히려 추론만 할 거라면 인텔이나 AMD의 그래픽카드가 가성비가 더 좋다는 말입니다. 굳이 NVFP4(Blackwell) 같은 아키텍쳐에 집착하지 않는다면 말이죠.

진짜 병목은 연산이 아니라 메모리

여기까지가 'GPU냐 전용 칩이냐'의 싸움이라면, 이젠 주식시장에서 새로운 답이 나옵니다. 연산 칩을 뭘 쓰든 그게 핵심이 아니라는 거예요. 진짜 병목은 메모리라는 거죠.

이걸 들고나온 데가 공교롭게도 한국 스타트업입니다. 판교에 있는 엑세나(XCENA)라는 회사가 지난달 시리즈B로 1,350억 원 규모(1억 3,500만 달러)를 투자받았어요. 기업가치는 5,700억 원대로 평가됐고요. 이 회사 대표가 한 말이 인상적이었습니다. "CPU와 GPU는 수십 년간 계속 똑똑해졌는데, 메모리는 한 번도 안 똑똑해졌다."

보통 추론은 데이터가 메모리에서 CPU로, 다시 GPU로, 또 메모리로 왔다 갔다 하면서 처리됩니다. 이 과정을 편하게 말하면 GPU + HBM(VRAM) 이 묶인 인터포저 위에서 주된 연산이 일어나고, 이것이 외부 CPU와 소통되면서 고객에게 서빙된다고 볼 수 있겠죠.

이 과정에서 대화 맥락을 저장해두는 KV 캐시 같은 게 계속 메모리를 들락날락하는데, 엑세나는 아예 메모리(DRAM) 안에 연산 기능을 박아서, 데이터가 메모리를 떠나기 전에 처리해버리는 칩(MX1)을 만들고 있습니다. 이렇게 하면 서버 10대가 할 일을 1대로 줄일 수 있다는 주장이에요. 양산은 삼성 파운드리에서 올해 말부터고요.

이게 한국 입장에서 묘하게 의미심장한 게, 메모리 반도체는 우리가 세계 최강이잖아요. 실제로 이번 달 삼성전자, SK하이닉스, 마이크론 세 회사가 나란히 사상 처음으로 시가총액 1조 달러를 넘겼습니다. AI 칩 전쟁 한다고 다들 엔비디아만 쳐다보는 사이에, 정작 조용히 1조 달러 클럽에 들어간 건 메모리 3사였던 거죠.

그러니까 "AI는 연산 싸움"이라는 말도 절반만 맞는 얘기였을 수 있습니다. 모델한테 진짜 부족했던 건 더 빠른 두뇌가 아니라, 그 두뇌가 기억을 꺼내 쓰는 속도였는지도 모르거든요.

그래서 우리는 어떻게 하고 있나

이 흐름을 멀리서 구경만 하는 입장은 아닙니다. CommanderOS도 추론을 직접 굴리는 입장이라 이 변화가 남 일이 아니거든요.

저희는 작업 종류에 따라 칩과 모델을 다르게 씁니다. 문서에서 글자를 따는 OCR, 이미지를 이해하는 비전 검색, 글의 제목을 다는 가벼운 일은 각자 다른 칩과 모델에 맡겨요. 큰 GPU 한 장에 전부 몰아넣지 않습니다. 예를 들어 제목·요약 같은 자잘하고 양 많은 일은 CPU에서 도는 초소형 한국어 모델한테 떼주고, 진짜 무거운 추론만 GPU로 보내는 식이죠. 오늘 글에서 본 "일마다 맞는 칩을 골라 쓴다"는 그 흐름을, 규모는 작아도 똑같이 하고 있는 셈입니다.

이유도 똑같아요. 토큰 하나당 원가말이죠. 비싼 범용 GPU로 단순 반복을 돌리는 건 작은 회사한테는 더 치명적이거든요. 그래서 저희가 자체 호스팅 작은 모델에 계속 투자하는 거고, AXyBench로 굳이 초소형 모델까지 한국 실무로 재보는 것도 같은 맥락입니다. "제일 센 모델"이 아니라 "이 일에 딱 맞는 가장 저렴한 칩과 모델"을 찾는 게 진짜 경쟁력이라고 보거든요.

뭔가 이상한가요? 무조건 좋아야 한다고 보시나요? 편의점 알바를 뽑는데 굳이 NASA 출신 우주공학 엔지니어 경력이 필요 없는 것과 같은 이야기를 하고 싶은 겁니다.

결론: GPU는 안 죽습니다, 다만 이젠 메모리와 CPU도 같이 봐야합니다

오해하시면 안돼요. GPU가 사라진다는 얘기가 절대 아닙니다. 새 모델을 처음부터 학습시키는 일에서는 여전히 GPU가 최강이고, 이 자리는 안 흔들립니다. 바뀐 건 'AI = GPU'이라는 단순한 공식이에요. 이제는 학습은 GPU, 대량 추론은 전용 칩(ASIC·LPU), 그리고 그 밑을 메모리가 받치는 여러 칩의 분업 시대로 넘어가고 있습니다.

엔비디아가 GPU 아닌 칩을 사고 만든 것도, 큰손들이 자체 칩으로 갈아타는 것도, 한국 메모리 3사가 조용히 1조 달러를 넘긴 것도 전부 이 한 줄로 설명됩니다. 진짜 천장은 이제 칩이 아니라 전력이 될 거란 얘기까지 나오는데, 그건 다음 기회에 따로 다뤄볼게요.

당분간 AI 반도체 뉴스를 볼 땐 "누가 제일 센 GPU를 만들었나"보다 "누가 토큰당 원가를 제일 많이 깎았나"를 보시면 판이 훨씬 잘 읽힐 겁니다. 그게 지금 이 전쟁의 진짜 본질이거든요.

자세한 모델 실측 결과는 → AXyBench 전체 결과 보기

공유X Threads