국산 NPU 2황, 레니게이드 vs 리벨 100
퓨리오사 레니게이드와 리벨리온 리벨 100. 모놀리식 대 쿼드 칩렛, 180W 대 600W, TSMC 대 삼성. 국산 NPU의 대표 주자들을 탐구해보는 시간.

- AXyNow
- 퓨리오사
- 리벨리온
- RNGD
- REBEL
- NPU
- AI반도체
프리미엄 AI 매거진 AXyNow, 손상윤입니다.
지난 글에서 국산 AI 반도체(NPU)가 올해 처음 데이터센터에 깔리기 시작했다는 소식을 다뤘습니다. 주인공은 퓨리오사AI와 리벨리온, 두 한국 스타트업이었죠. 그 글이 '근황'이었다면, 오늘은 상세 분석글입니다.
둘 다 "학습은 엔비디아로, 추론은 우리 칩으로"를 목적으로 하는 회사인데요. 막상 칩을 뜯어보면 만든 방식이 완전히 정반대입니다. 한쪽은 칩 하나를 작고 야무지게 깎았고, 다른 쪽은 작은 칩 네 개를 칩렛 구조로 붙여 큰 한 장을 만들었어요. 같은 '국산 NPU'라는 단어 안에, 서로 다른 두 철학이 들어 있습니다. 오늘은 그 차이가 어디서 왜 갈렸는지를 끝까지 따라가 보겠습니다.
국산 NPU 2황?
퓨리오사AI는 작년에 크게 화제가 됐던 회사입니다. 빅테크 메타가 인수하겠다고 제안했는데 그걸 거절했거든요. 팔리는 대신 독자 노선으로 2027년 상장을 노립니다. 칩 이름은 RNGD, 읽으면 '레니게이드(반역자)'예요. "엔비디아 H100이 하던 추론을, 전력은 3분의 1만 먹고 해내겠다"로 정리할 수 있겠습니다.
리벨리온은 올해 3월에 4억 달러(약 5,500억 원)를 투자받아 기업가치 약 3조 원을 인정받았습니다. 삼성이 투자자로 들어가 있고요. 칩 이름은 '리벨 100'. "더 큰 모델을 한 장에 통째로 올리겠다"라고 볼 수 있곘죠. 144GB VRAM이나 되니까요.
한마디로 레니게이드는 '작고 효율적인 한 장', 리벨 100은 '크고 강한 한 덩어리'. 이 대비만 기억하고 따라오시면 됩니다.
칩 1개냐 4개냐
가장 먼저 눈에 띄는 차이가 칩을 키우는 방식입니다. 그리고 이게 단순한 취향 차이가 아니라, 물리 법칙에서 갈린 결정이에요.
레니게이드는 653제곱밀리미터짜리 칩 하나를 통으로 찍은 단일 칩입니다. 업계 용어로 '모놀리식'이죠. 리벨 100은 320제곱밀리미터짜리 작은 칩(다이) 네 개를, 큰 받침판(인터포저) 위에 'UCIe'라는 초고속 다리로 이어 붙인 '쿼드 칩렛'이고요.
그럼 리벨은 왜 굳이 쪼개서 붙였을까요. 핵심은 반도체에 '한 번에 찍을 수 있는 크기의 천장'이 있다는 데 있습니다. 칩을 만들 때 빛으로 회로를 새기는데, 이 빛이 한 번에 비출 수 있는 최대 면적이 약 858제곱밀리미터예요. 이걸 레티클 한계라고 부릅니다.
리벨이 노린 체급은 칩렛 네 개를 합쳐 1,280제곱밀리미터입니다. 이건 천장(858)을 한참 넘어서니까, 통짜 한 장으로는 물리적으로 못 찍어요. 그래서 리벨한테 칩렛은 선택이 아니라 필수였습니다. 큰 돌 하나를 깎다 깨먹느니, 잘 만든 벽돌 네 개를 빈틈없이 쌓아 큰 걸 세우겠다는 쪽을 택한 거죠.
반대로 레니게이드의 653은 천장 858 안쪽이라 통짜로 찍을 수 있는 크기입니다. 굳이 비싸고 복잡한 칩렛으로 안 가고, 단순하게 한 장으로 깔끔하게 간 거예요. 한쪽은 안 붙여도 되니까 안 붙인 거고, 한쪽은 붙일 수밖에 없어서 붙인 겁니다.
48GB vs 36GB VRAM x 4
이제 스펙입니다.
| 항목 | 퓨리오사 레니게이드(RNGD) | 리벨리온 리벨 100 |
|---|---|---|
| 칩 구조 | 단일 칩(모놀리식) | 칩 4개 묶음(쿼드 칩렛, UCIe) |
| 다이 크기 | 653mm² 한 장 | 320mm² 네 개(합 1,280mm²) |
| 공정·패키징 | TSMC 5nm | 삼성 4nm + 삼성 패키징 |
| 메모리 | 48GB HBM3 / 1.5TB/s | 144GB HBM3E / 4.8TB/s |
| 전력 | 180W | 최대 600W |
| FP8 연산 | 512 TFLOPS | 2,048 TFLOPS |
| 한 문장 | 같은 추론을 전력 3분의 1로 | 더 큰 모델을 한 장에 |
숫자가 거의 네 배씩 차이 나죠. 리벨의 144GB는 큰 메모리 하나가 아니라, 36GB짜리 타일 네 개를 붙인 합계입니다. 칩을 네 개 묶으니 메모리도 같이 네 배가 된 거예요. 연산도 마찬가지고요. 그러니까 리벨이 레니게이드보다 '네 배 좋다'기보다, 애초에 '네 개를 합친 체급'이라고 보는 게 정확합니다.
그럼 이런 생각 드시죠. "카드 하나가 크면 좋은 거 아냐? 카드 적게 쓰면 전선도 덜 들고." 반은 맞습니다. 근데 추론 현장은 작은 모델을 돌리는 일이 훨씬 많거든요. 작은 모델 하나 돌리는데 144GB 카드를 꽂으면 메모리 절반이 그냥 놉니다. 솔직히 이거 낭비 맞습니다.
저희도 셀프 호스팅으로 Reranker, OCR, Embeddings 등 다양한 서비스를 하나의 GPU에 올려놓고 수십 DP로 복제해서 분산 인프라를 구축했는데요, 그 이유가 바로 '1개의 GPU는 여러 모델을 동시처리를 할 수 없다'는 것 때문이었습니다.
즉, 144GB VRAM에 14.4GB짜리 모델 10개를 탑재할 수 있는게 아니라는 것이죠. 그럼 VRAM이 크면 클 수록, 각종 제반 어댑터나 KV캐싱 용량을 포함해서 80~90%에 가깝게 채우는게 가장 효율이 좋다는 이야기가 됩니다. 근데 이게 어렵죠.
반면에 레니게이드의 48GB 카드면 딱 맞게 잘라 쓰고, 싸고, 기존 서버 슬롯에 그대로 꽂혀서 공냉으로 식습니다. 그래서 레니게이드는 일부러 작게 간 거예요.
참고로 퓨리오사는 '텐서 수축'이라는 유연한 연산을 하드웨어에 깔아서, 모델 모양이 제각각 들어와도 칩 안 빈자리를 덜 남기고 꽉 채웁니다. 그릇을 음식에 맞춰 바꾸는 셈이죠. 작게 만든 칩을 알뜰하게 쓰는 게 이 회사의 효율 비결입니다.
비유하면, 레니게이드는 작은 배달 승합차 여러 대예요. 골목골목 유연하게, 싸게, 아무 주차장에나 댑니다. 리벨은 대형 트레일러 한 대고요. 한 번에 엄청 싣지만 비싸고 전용 도로가 필요하죠. 그래서 레니게이드는 엔비디아 GPU 자리에 그대로 꽂는 표준 카드로, 리벨은 전력 넉넉한 큰 데이터센터 전용으로 갈라선 겁니다.
물론 둘다 데이터센터 전용이 당연하게도 주 타겟이 되는건 맞지만, 레니게이드가 훨씬 유연하며, 다양한 목적과 환경에 대응할 수 있다는 장점이 있다고 볼 수 있겠습니다.
제조는? 타겟은?
만드는 곳과 노리는 시장도 갈립니다.
레니게이드는 TSMC 5나노에서 찍습니다. 노리는 자리는 전력이 빠듯한 추론 현장, 그러니까 전기요금이 곧 비용인 사업장이겠죠? 저희도 집에서 3090을 수십 장 넘게 굴리는데 매달 전기료가 무섭거든요. 데이터센터 규모면 전력 3분의 1은 그냥 무조건 비용이라고 봐야합니다. 올해 양산을 시작했고, 삼성SDS가 이 칩으로 클라우드 AI 서비스를 냈어요. 한국 클라우드 사업자가 NPU를 서비스로 파는 첫 사례입니다. LG CNS도 적용을 시작했고요.
리벨 100은 삼성 4나노 공정에, 네 조각을 붙이는 패키징까지 삼성이 합니다. 설계는 리벨리온, 생산도 삼성, 패키징도 삼성. 공급망이 죄다 국산이에요. 노리는 건 전력 충분한 대형 데이터센터고요. 4월엔 SK텔레콤·Arm과 주권 AI 서버를, 6월엔 KT클라우드가 공공 전용 NPU 서버를 상용화했습니다.
한쪽은 효율로 좁고 깊은 틈새를, 한쪽은 국산 풀스택으로 큰 데이터센터를 파는 거죠. 같은 '국산 NPU'인데 타겟이 미세하게 다릅니다.
그래서 둘 중에 뭘 고를까
자, 결론입니다.
전력이 빠듯하고 추론만 싸게 굴리고 싶다, 그럼 레니게이드. 전력 충분하고 큰 모델을 한 장에 올리고 싶다, 그럼 리벨 100. 깔끔하죠.
근데 두 회사 다 조심해야 할 게 있어요. 퓨리오사가 말하는 '3분의 1'은 추론 한정이고 자사 기준 수치입니다. 모델을 처음부터 학습시키는 무대는 여전히 엔비디아 GPU고요. 리벨리온이 말하는 'H200급'도 아직 회사 발표 기준이에요. 둘 다 독립 벤치마크는 더 쌓여야 합니다.
그래도 방향은 분명합니다. 한쪽은 작게 만들어 불량을 피했고, 다른 쪽은 안 깨먹고 크게 만드는 칩렛 구조를 채택했죠. 접근이 다를 뿐, 둘 다 영리한 건 맞습니다.
'국산 NPU', 이제 시작이다
오늘의 결론은 이겁니다. '국산 NPU'는 영리하고 스마트하게 발전하고 있습니다. 여기에는 삼성 파운드리뿐만 아니라 SK하이닉스희 HBM3 메모리까지 들어가죠.
저는 하드웨어를 직접 만지는 사람으로서 이 경쟁이 반갑습니다. 그동안 국산 AI 칩은 '데모는 멋진데 누가 실제로 쓰냐'는 질문을 못 넘겼는데, 올해 그 질문에 삼성SDS·LG CNS·KT가 처음으로 답을 줬으니까요.
누가 맞았는지는 응원이 아니라, 실제로 굴러가는 데이터센터의 숫자가 정해줄 겁니다. 다음엔 이 칩들 위에서 돌아갈 국산 AI 모델들, 국가대표 서바이벌을 들고 오겠습니다. 지금까지 AXyNow 손상윤이었습니다.