분석·2026-06-06·8분

GPU 값의 절반이 메모리? 삼성전자와 SK하이닉스, HBM이 뭐길래

엔비디아가 6월 5일 삼성·SK하이닉스·마이크론을 HBM4 공급사로 인증했습니다. 그런데 HBM이 대체 뭐고, 왜 추론 시대엔 칩보다 메모리가 병목일까요.

AXyNow
HBM
HBM4
메모리반도체
엔비디아
삼성전자
SK하이닉스
추론

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

지난 6월 5일, 한국을 찾은 젠슨 황이 인터뷰를 했습니다. 삼성전자·SK하이닉스·마이크론, 메모리 3사 전부가 차세대 HBM4 공급 인증을 통과했다는 겁니다. 특히 삼성은 직전 세대에서 엔비디아 문턱을 못 넘어 한참 마음고생을 했던 터라, 이건 단순한 부품 뉴스가 아니라 "삼성의 설욕"이라는 말까지 나왔네요.

근데 여기서 사람들이 의아해 합니다. "그래서 HBM이 뭔데? 메모리는 그냥 부속품 아냐?" 오늘은 이걸 3분 안에, 비전공자도 한 번에 잡히게 풀어보려고 합니다.

무슨 일이 있었나

먼저 사실관계부터 깔끔하게 정리해보자면,

블룸버그 보도에 따르면, 6월 5일 젠슨 황이 한국 방문 중에 "메모리 3사 모두 엔비디아의 HBM4 인증을 통과했다"고 직접 언급했습니다. 차세대 AI 가속기 플랫폼인 **베라 루빈(Vera Rubin)**에 들어갈 메모리를 세 회사 다 납품할 자격을 얻은 것이죠. 베라 루빈은 6월 1일 GTC 타이베이에서 "생산에 들어간다"고 발표됐고, 실제 고객 출하는 올가을로 예정돼 있습니다.

이 "3사 인증" 소식은 엔비디아의 공식 보도자료가 아니라 CEO가 현장에서 한 발언을 블룸버그가 받아 적은 것. 엔비디아 공식 자료(5/31)엔 HBM4나 공급사 얘기는 없음.

삼성 입장에선 이게 꽤 큰 반전입니다. 직전 HBM3E 세대에선 엔비디아 대량 납품 자격을 한참 못 따내 속을 끓였거든요. 그런데 HBM4에선 올 초 이미 엔비디아·AMD 테스트를 통과했고, 핀당 속도도 요구치(약 10Gb/s)를 넘는 11.7Gb/s로 합격했다는 보도가 나왔습니다.

그래서 HBM이 뭔데?

원래 CPU는 대학교수 10명, GPU는 산수학원다니는 초등학생 1만명 정도로 비유되곤 했었죠? 이번엔 이 GPU 안에도 결국엔 연산을 담당하는 GPU칩 뿐만 아니라 그 옆에 이 GPU에 데이터를 서빙하는 메모리가 필요합니다. 이걸 VRAM이라고 해요.

AI 칩(GPU)은 세계 최고의 요리사라고 가정하면요, 요리에 쓸 재료(데이터와 모델)는 칩 안이 아니라 **창고(메모리)**에 들어 있어요. 요리사가 아무리 빨라도, 창고에서 재료를 날라 오는 길이 좁으면? 요리사는 재료 기다리며 그냥 멍하니 서 있게 됩니다. 이걸 업계에선 **'메모리 월(memory wall)'**이라고 불러요. 두뇌는 남아도는데 손이 노는 상태죠.

HBM(High Bandwidth Memory, 고대역폭 메모리)은 이 문제를 두 가지로 해결합니다.

창고를 부엌 바로 옆에 수직으로 쌓는다. 보통 D램은 기판 위에 평평하게 깔리는데, HBM은 D램 칩을 여러 층으로 쌓아 올려서 칩 바로 옆에 딱 붙입니다. 층과 층 사이는 **TSV(실리콘 관통 전극)**라는 미세한 수직 통로로 뚫어 연결하고요. 거리가 짧아야 빠르니까요.
4차선 도로를 1,024차선 고속도로로 바꾼다. 핵심은 속도보다 **'폭(대역폭)'**입니다. 일반 D램이 좁은 통로로 데이터를 흘려보낸다면, HBM은 어마어마하게 넓은 통로로 한 번에 쏟아붓습니다.

그리고 이 적층 메모리 덩어리를 GPU 옆에 붙이는 것도 보통 일이 아니라서, 실리콘 인터포저 위에 GPU와 HBM을 나란히 얹는 특수 패키징(TSMC의 CoWoS 같은)이 동원됩니다. 배선이 1,000가닥을 넘어가니 일반 기판으론 감당이 안 되거든요. 그래서 HBM은 D램 3사 + TSMC 패키징이 한 몸으로 움직여야 나오는, 진입장벽이 무지막지하게 높은 물건입니다.

HBM 패키지 단면. D램 다이를 수직으로 쌓아 TSV(관통 전극)로 연결하고, GPU 바로 옆에 인터포저로 붙여 2,048비트(HBM4)짜리 초광폭 통로로 잇는다. "거리는 줄이고 통로는 넓힌다"가 HBM의 전부다.

왜 하필 지금? 추론 시대라서

여기서 "근데 이게 왜 지금 갑자기 중요해졌어?"가 나와야 정상입니다.

답은 AI를 쓰는 방식이 학습에서 추론으로 넘어갔기 때문이에요. 그리고 추론, 그중에서도 AI가 답을 한 글자씩 만들어내는 단계는 연산 싸움이 아니라 메모리 대역폭 싸움입니다.

이게 왜 그러냐면, AI가 단어 하나를 뱉을 때마다, 모델 가중치 전체를 메모리에서 다시 한 번 쭉 읽어와야 하거든요. 예를 들어 700억 개 파라미터짜리 모델이면 글자 하나 만들 때마다 약 140GB를 메모리에서 끌어옵니다. 그다음 글자도, 그다음 글자도 똑같이요. 이쯤 되면 계산을 더 빨리 하는 칩을 꽂아봐야 소용이 없어요. 천장이 '얼마나 빨리 계산하나'가 아니라 '얼마나 빨리 모델을 읽어 들이나'에 걸려 있으니까. 그 읽어 들이는 속도가 바로 메모리 대역폭이고, 그걸 책임지는 게 HBM입니다.

그러니까 추론 시대의 진짜 질문은 "누가 제일 센 칩을 만드나"가 아니라 "누가 제일 빨리 모델을 칩에 먹이나"로 바뀐 겁니다. 두뇌(연산)가 아니라 두뇌가 기억을 꺼내 쓰는 속도(메모리)가 병목이 된 거죠. 다르게 말하면, GPU 성능의 성장속도보다 메모리 성능 성장속도에 병목이 온 것입니다. 물론 곧 '전력' 병목이 이어지겠죠.

HBM4는 뭐가 달라졌나

그래서 HBM4가 직전 세대(HBM3E)보다 진짜 좋아진 게 뭐냐. 핵심만 짚으면 데이터가 다니는 통로를 두 배로 넓혔습니다.

JEDEC(반도체 표준 기구)이 2025년 4월 확정한 HBM4 표준의 가장 큰 변화가 인터페이스 폭을 1,024비트에서 2,048비트로 두 배 늘린 겁니다. 통로 자체가 두 배 넓어졌다는 뜻이에요. 표준상 한 덩어리(스택)당 대역폭이 최대 **초당 2테라바이트(2TB/s)**까지 나오고, 실제 제품은 이보다 더 빠르게 개선되겠습니다.

HBM4는 데이터가 오가는 인터페이스 폭을 1,024비트에서 2,048비트로 두 배 늘렸다. 통로가 넓어진 만큼 한 번에 더 많은 데이터를 쏟아붓는다. 출처: JEDEC JESD270-4(2025-04), Tom's Hardware. 조회 2026-06-06.

여기에 한 덩어리를 최대 16층까지 쌓아 용량을 스택당 64GB까지 키웠고, 한 가지 더, 맨 아래에서 GPU와 대화하는 '베이스 다이'를 이제 단순한 D램 공정이 아니라 첨단 로직 공정(파운드리)에서 만듭니다. 메모리 밑바닥에 사실상 작은 두뇌를 깔기 시작한 거예요. 메모리가 단순 저장고를 넘어 점점 '똑똑해지는' 방향으로 가고 있다는 신호입니다.

왜 한국이 이 판의 주인공인가

여기서부턴 투자자분들이 좋아하실 얘기입니다.

이렇게 D램을 정밀하게 쌓아 올려 HBM을 만들 수 있는 회사가 전 세계에 딱 셋뿐이에요. SK하이닉스, 삼성전자, 마이크론. 이 중 둘이 한국 기업이고요. 시장은 SK하이닉스가 60% 안팎으로 압도적 1위, 그 뒤를 삼성과 마이크론이 2위 자리를 놓고 다투는 구도입니다.

그래서 무슨 일이 벌어졌냐면, 5월 말, SK하이닉스와 마이크론이 사상 처음으로 시가총액 1조 달러를 넘기며, 이미 1조 달러 클럽에 있던 삼성과 함께 메모리 3사가 나란히 1조 달러 클럽에 들어갔습니다. 다들 "AI = 엔비디아"만 쳐다보는 사이, 조용히 1조 달러를 넘긴 건 메모리 회사들이었던 거죠.

비유하자면 이렇습니다. AI가 골드러시라면, 엔비디아는 곡괭이를 파는 회사고, HBM 3사는 그 곡괭이에 들어가는 강철을 독점 공급하는 회사예요. 그리고 그 강철을 만들 줄 아는 대장간이 지구에 셋밖에 없는데, 그중 둘이 한국에 있습니다. 삼성이 이번에 엔비디아 관문을 넘었다는 건, 그 둘 다 제대로 가동되기 시작했다는 신호고요.

그래서 우리는 어떻게 하고 있나

이 흐름을 저는 멀리서 구경만 하는 입장이 아닙니다. CommanderOS도 추론을 직접 굴리거든요.

작은 회사라 거대 데이터센터 얘기는 아니지만, 원리는 똑같이 부딪힙니다. 추론을 돌리다 보면 대화 맥락을 담아두는 'KV 캐시'라는 게 계속 메모리를 들락거리는데, 모델이 커질수록 이게 연산보다 메모리(VRAM)를 먼저 잡아먹어요. 그래서 저희는 일마다 칩과 모델을 다르게 씁니다. 제목 달기·요약 같은 가볍고 양 많은 일은 메모리를 적게 먹는 초소형 모델에 떼주고, 진짜 무거운 추론만 큰 GPU로 보내는 식이죠.

오늘 글에서 본 "추론의 천장은 연산이 아니라 메모리"라는 명제를, 규모는 작아도 매일 체감하고 있는 셈입니다. AXyBench로 굳이 초소형 모델까지 한국 실무로 재보는 것도 같은 맥락이에요. "제일 센 모델"이 아니라 "이 일에 딱 맞는, 메모리도 덜 먹고 더 싼 모델"을 찾는 게 1인 기업한테는 생존의 문제거든요.

이런 맥락에서 MoE처럼 expert를 나눠서 추론하는 방식의 모델들도 나오게 된 것입니다. 전체 KV를 다 사용하는 게 아니라, 일부 파라미터만 활성화하는 방식으로 효율적인 추론을 기본으로 하는 모델들이죠.

결론: 무게추가 연산에서 메모리로 넘어갔습니다

오해는 마세요. GPU가 안 중요해진 게 절대 아닙니다. 모델을 처음부터 학습시키는 일에선 여전히 GPU가 1황입니다. 바뀐 건 'AI = 가장 센 칩'이라는 단순한 공식입니다.

이제 AI 한 판은 학습은 GPU, 대량 추론은 전용 칩, 그리고 그 모두의 밑을 HBM이 받치는 구조로 넘어갔습니다. 엔비디아가 삼성에까지 줄을 세워 HBM4를 확보하려는 것도, 메모리 3사가 조용히 1조 달러를 넘긴 것도 전부 이 한 줄로 설명됩니다. 모델한테 진짜 부족했던 건 더 빠른 두뇌가 아니라, 그 두뇌가 기억을 꺼내 쓰는 속도였던 거예요.

앞으로 AI 반도체 뉴스를 보실 땐 "누가 제일 센 GPU를 만들었나"만큼이나 **"누가 제일 빨리 모델을 먹이나"**를 같이 보세요. 그게 지금 이 전쟁의 절반을 차지하는, 잘 안 보이던 진짜 본질이거든요.

자세한 모델 실측 결과는 → AXyBench 전체 결과 보기

공유X Threads