AI 발전의 병목은 GPU가 아니라 메모리였다
AI 연산에서의 병목은 메모리입니다. HBM 다음 카드로 떠오른 HBF, 그리고 샌디스크와 키옥시아가 가는 서로 다른 길을 선택한 이유를 분석합니다.

- AXyNow
- HBF
- HBM
- 메모리
- 샌디스크
- 키옥시아
프리미엄 AI 매거진 AXyNow, 손상윤입니다.
AI 얘기엔 늘 GPU가 주인공이죠. 엔비디아, 연산 능력, 몇 페타플롭스(PFLOPS). 근데 막상 모델을 직접 굴려보면, 발목을 잡는 건 연산이 아니라 메모리일 때가 훨씬 많습니다. GPU는 놀고 있는데 메모리가 모자라서 못 돌리고 있습니다.
그래서 요즘 반도체판의 진짜 화두는 GPU가 아니라 그 옆에 붙는 메모리입니다. 그리고 그 메모리로 가장 핫한 것이 HBM이죠. 그러나 이젠 그 HBM마저 성능 향상과 생산에 병목이 생겼습니다. 그래서 HBM 다음 카드로 HBF라는 게 떠올랐고, 샌디스크와 키옥시아가 서로 다른 길로 달리고 있어요.
GPU는 됐고, 문제는 메모리다
LLM이 답을 만들 때, 앞에서 읽은 내용을 계속 기억해 둬야 합니다. 이 '기억 메모'를 KV 캐시라고 불러요. 대화가 길어지고 문서가 커질수록 이 메모가 눈덩이처럼 불어납니다. 그리고 이건 전부 GPU 바로 옆 초고속 메모리, HBM 위에 올라가 있어야 빠르게 꺼내 쓸 수 있겠죠?
문제는 HBM이 비싸고 작다는 겁니다. 용량을 키우기가 어렵고, 키우면 값이 무섭게 뜁니다. 그래서 긴 문맥, 많은 동시 사용자를 감당하려면 HBM이 금방 꽉 차요. GPU 연산이 남아돌아도, 메모리가 없어서 멈추는 거죠. AI 서비스가 비싸고 가끔 느린 진짜 이유가 여기 있습니다.
실제로 Mac Mini 대란이 생긴 이유, 그리고 5년도 훌쩍 넘긴 오래된 RTX 3090이 여전히 비싼이유 모두 메모리 때문입니다. Mac은 RAM과 VRAM 분리가 되어있지 않은 통합 메모리 시스템이라 로컬에서 소형 AI 모델을 돌릴만한 충분한 용량이 나옵니다(물론 속도나 대역폭은 HBM에 비해 현저히 낮지만요).
또 RTX 3090은 중고가격이 현 시점기준 120만원 선인데, VRAM이 24GB 입니다. 3배 이상 비싼 4090도 24GB, 5배 비싼 5090도 32GB에 불과하니 RTX 3090을 사지 않을 이유가 없죠.
HBM 옆에 낸드를 붙인다, 그게 HBF
그래서 나온 발상이 단순합니다. HBM만큼 빠르진 않아도, 훨씬 싸고 큰 메모리를 바로 옆에 붙이자. 그 후보가 우리가 USB·SSD에서 쓰던 낸드 플래시예요. 이걸 HBM처럼 차곡차곡 쌓아 GPU 옆에 붙인 게 HBF(High Bandwidth Flash), 고대역폭 플래시입니다.
핵심은 '계층'이에요. 메모리를 한 종류로 안 보고, 빠르고 작고 비싼 것부터 느리고 크고 싼 것까지 층을 나눠 쌓는 겁니다.
올해 초 샌디스크와 SK하이닉스가 공개한 1세대 HBF 목표치를 보면 감이 옵니다. 읽기 대역폭 초당 1.6테라바이트, 16장을 쌓아 한 덩이에 512기가바이트. 최고급 SSD보다 50배 이상 빠른데, 같은 부피의 HBM보다 용량은 8배에서 16배 큽니다. 물리적 규격도 차세대 HBM과 똑같이 맞춰서, 지금 HBM이 꽂히던 자리에 그대로 들어가게 설계했어요.
같은 HBF, 다른 두 길
여기서 두 회사가 갈립니다. 같은 'AI 메모리로서의 플래시'를 두고 방향이 달라요.
샌디스크는 HBM을 거의 대체하는 쪽으로 갑니다. 낸드를 HBM처럼 수직으로 쌓아 올려 HBM급 대역폭을 내고, SK하이닉스의 적층 기술을 빌려 규격을 HBM에 딱 맞췄어요. 올해 2월부터는 두 회사가 아예 업계 공용 표준으로 만들겠다며 오픈 컴퓨트 프로젝트(OCP)에서 표준화 작업을 시작했습니다. '모두가 같은 규격으로 쓰는 HBF'를 노리는 거죠. 아키텍쳐 표준을 선점하겠다는 의지가 강력합니다.
키옥시아는 다른 길입니다. HBM 자리를 직접 노리기보다, 플래시 '구슬'들을 직렬로 줄줄이 엮어 큰 용량을 싸게 붙이는 쪽이에요. 시제품이 5테라바이트 용량에 초당 64기가바이트급으로, 주로 엣지 서버처럼 거대 데이터센터가 아닌 현장 쪽을 겨냥합니다. 속도 절대치는 샌디스크 쪽에 못 미치지만, 용량과 단가, 그리고 인터페이스를 빠르게 만드는 기술로 승부를 봅니다.
키옥시아는 일본기업답게 확실히 '기존에 해오던 것을 더 깎겠다'는 의지가 강해보입니다. 쓰기와 읽기속도를 쥐어짜서 깎아내는 것 자체에 소비자들의 체감한계효용이 끝에 달했음에도 그 길을 고수하더니, 결국 메모리 수요 폭증의 대안으로 떠오른 SSD 기반 준메모리화 전략에서도 그 결을 결코 포기하지 않습니다.
정리하면, 샌디스크는 'HBM을 닮은 고급 HBF', 키옥시아는 '싸고 큰 현장용 플래시 메모리'예요. 같은 재료(낸드)로 다른 물건을 만드는 셈입니다.
동맹이자 라이벌
재밌는 건 이 두 회사가 남남이 아니라는 점입니다. 샌디스크와 키옥시아는 일본 요카이치·기타카미에 세계 최대 규모의 낸드 공장을 함께 돌리는 합작 파트너예요. 전 세계 낸드의 약 3분의 1을 둘이 같이 찍어냅니다. 낸드 자체(BiCS)도 같이 개발해 왔고요. 참고로 샌디스크는 작년 2월 웨스턴디지털에서 떨어져 나와 독립 회사가 됐습니다.
그러니까 낸드를 만드는 공장은 한 몸인데, 그 낸드로 만들 AI 메모리에서는 서로 다른 길을 가는 묘한 사이입니다. 제조에선 동맹, 차세대 제품에선 라이벌. 여기에 SK하이닉스(샌디스크 편)와, 아직 발을 늦게 들인 삼성까지 끼면 판이 더 커지죠. 한쪽이 이기는 표준 전쟁이라기보다, 'HBM만으로는 부족하다'는 같은 결론에서 출발한 여러 갈래의 베팅에 가깝습니다. 머지않아 이 쪽 갈래들도 각자 살아남는 쪽과 죽는 쪽이 생기겠죠. 아니면 둘 다 다른 포지셔닝으로 다른 수요를 담당하거나.
그래서 앞으로 어떻게 될 전망인가
이걸 개발/운영자 입장에서 한 발 물러나 보면, 결국 자주 쓰는 건 가까이, 덜 쓰는 건 멀리로 정리할 수 있겠습니다.
하드웨어에선, 메모리에 모든 KV 캐시를 다 올릴 수 없으니 층을 나눕니다. 지금 생성 중인 뜨거운 KV는 HBM에, 자주 참조하는 가중치와 공유 KV는 그 옆 HBF에, 거의 안 건드리는 건 더 멀고 싼 SSD에. 실제로 SK하이닉스도 HBM과 HBF를 한 묶음으로 쓰는 하이브리드 구조를 LLM 추론용으로 제안하고 있어요. 가중치와 미리 계산된 공유 KV는 HBF에, 그때그때 생성되는 KV는 HBM에 두는 식으로요.
소프트웨어에서도 같은 원리가 따라옵니다. 모델을 통째로 다 켜는 덴스(dense) 구조 대신, 필요한 전문가(expert)만 켜는 MoE 구조로 가되, 그 전문가들을 사용자 성향에 따라 배치하는 거죠. 자주 불리는 전문가는 VRAM이나 HBF처럼 가까운 데, 어쩌다 한 번 불리는 전문가는 더 멀고 싼 SSD 쪽에. 하드웨어 계층과 소프트웨어 구조가 같은 모양으로 포개지는 겁니다.
결론: 메모리를 알면 AI 값이 보인다
그래서 HBF 이야기는 사실 반도체 회사들만의 일이 아닙니다. AI가 왜 비싸고 왜 느린지, 그리고 그걸 어떻게 싸게 만들지에 대한 이야기거든요. 우리가 앞 글에서 "비싼 모델을 모든 일에 꽂지 말고 층을 나누라"고 했던 것과 뿌리가 같아요. 자주 쓰는 건 싸고 가까운 데로, 진짜 중요한 것만 비싼 데로. 모델 고르는 일이든 메모리 깔는 일이든, 결국 같은 질문입니다.
두 가지만 남깁니다.
- AI의 병목은 연산보다 메모리인 경우가 많습니다. 새 GPU 소식만큼 HBM·HBF 같은 메모리 소식을 같이 보면, 판이 어디로 가는지 더 정확히 보입니다.
- '자주 쓰는 건 가까이, 덜 쓰는 건 멀리' 이 한 줄이 하드웨어부터 모델 구조까지 관통합니다. AI 비용을 줄이는 거의 모든 설계가 결국 이 계층화로 수렴해요.