분석·2026-06-25·15분

국산 NPU 2황, 레니게이드 vs 리벨 100

퓨리오사 레니게이드와 리벨리온 리벨 100. 모놀리식 대 쿼드 칩렛, 180W 대 600W, TSMC 대 삼성. 국산 NPU의 대표 주자들을 탐구해보는 시간.

AXyNow
퓨리오사
리벨리온
RNGD
REBEL
NPU
AI반도체

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

지난 글에서 국산 AI 반도체(NPU)가 올해 처음 데이터센터에 깔리기 시작했다는 소식을 다뤘습니다. 주인공은 퓨리오사AI와 리벨리온, 두 한국 스타트업이었죠. 그 글이 '근황'이었다면, 오늘은 상세 분석글입니다.

둘 다 "학습은 엔비디아로, 추론은 우리 칩으로"를 목적으로 하는 회사인데요. 막상 칩을 뜯어보면 만든 방식이 완전히 정반대입니다. 한쪽은 칩 하나를 작고 야무지게 깎았고, 다른 쪽은 작은 칩 네 개를 칩렛 구조로 붙여 큰 한 장을 만들었어요. 같은 '국산 NPU'라는 단어 안에, 서로 다른 두 철학이 들어 있습니다. 오늘은 그 차이가 어디서 왜 갈렸는지를 끝까지 따라가 보겠습니다.

국산 NPU 2황?

퓨리오사AI는 작년에 크게 화제가 됐던 회사입니다. 빅테크 메타가 인수하겠다고 제안했는데 그걸 거절했거든요. 팔리는 대신 독자 노선으로 2027년 상장을 노립니다. 칩 이름은 RNGD, 읽으면 '레니게이드(반역자)'예요. "엔비디아 H100이 하던 추론을, 전력은 3분의 1만 먹고 해내겠다"로 정리할 수 있겠습니다.

리벨리온은 올해 3월에 4억 달러(약 5,500억 원)를 투자받아 기업가치 약 3조 원을 인정받았습니다. 삼성이 투자자로 들어가 있고요. 칩 이름은 '리벨 100'. "더 큰 모델을 한 장에 통째로 올리겠다"라고 볼 수 있곘죠. 144GB VRAM이나 되니까요.

한마디로 레니게이드는 '작고 효율적인 한 장', 리벨 100은 '크고 강한 한 덩어리'. 이 대비만 기억하고 따라오시면 됩니다.

칩 1개냐 4개냐

가장 먼저 눈에 띄는 차이가 칩을 키우는 방식입니다. 그리고 이게 단순한 취향 차이가 아니라, 물리 법칙에서 갈린 결정이에요.

레니게이드는 653제곱밀리미터짜리 칩 하나를 통으로 찍은 단일 칩입니다. 업계 용어로 '모놀리식'이죠. 리벨 100은 320제곱밀리미터짜리 작은 칩(다이) 네 개를, 큰 받침판(인터포저) 위에 'UCIe'라는 초고속 다리로 이어 붙인 '쿼드 칩렛'이고요.

그럼 리벨은 왜 굳이 쪼개서 붙였을까요. 핵심은 반도체에 '한 번에 찍을 수 있는 크기의 천장'이 있다는 데 있습니다. 칩을 만들 때 빛으로 회로를 새기는데, 이 빛이 한 번에 비출 수 있는 최대 면적이 약 858제곱밀리미터예요. 이걸 레티클 한계라고 부릅니다.

리벨이 노린 체급은 칩렛 네 개를 합쳐 1,280제곱밀리미터입니다. 이건 천장(858)을 한참 넘어서니까, 통짜 한 장으로는 물리적으로 못 찍어요. 그래서 리벨한테 칩렛은 선택이 아니라 필수였습니다. 큰 돌 하나를 깎다 깨먹느니, 잘 만든 벽돌 네 개를 빈틈없이 쌓아 큰 걸 세우겠다는 쪽을 택한 거죠.

반대로 레니게이드의 653은 천장 858 안쪽이라 통짜로 찍을 수 있는 크기입니다. 굳이 비싸고 복잡한 칩렛으로 안 가고, 단순하게 한 장으로 깔끔하게 간 거예요. 한쪽은 안 붙여도 되니까 안 붙인 거고, 한쪽은 붙일 수밖에 없어서 붙인 겁니다.

왜 한쪽만 칩렛인가: 레티클 천장 858mm²

레니게이드 653은 천장 안쪽이라 통짜로 찍힌다. 리벨이 노린 1,280은 한 번에 못 찍어서, 천장 안쪽 크기의 칩 네 개로 쪼개 붙였다. 같은 높이(면적)지만 한쪽은 한 덩이, 한쪽은 네 조각인 이유다.

48GB vs 36GB VRAM x 4

이제 스펙입니다.

항목	퓨리오사 레니게이드(RNGD)	리벨리온 리벨 100
칩 구조	단일 칩(모놀리식)	칩 4개 묶음(쿼드 칩렛, UCIe)
다이 크기	653mm² 한 장	320mm² 네 개(합 1,280mm²)
공정·패키징	TSMC 5nm	삼성 4nm + 삼성 패키징
메모리	48GB HBM3 / 1.5TB/s	144GB HBM3E / 4.8TB/s
전력	180W	최대 600W
FP8 연산	512 TFLOPS	2,048 TFLOPS
한 문장	같은 추론을 전력 3분의 1로	더 큰 모델을 한 장에

숫자가 거의 네 배씩 차이 나죠. 리벨의 144GB는 큰 메모리 하나가 아니라, 36GB짜리 타일 네 개를 붙인 합계입니다. 칩을 네 개 묶으니 메모리도 같이 네 배가 된 거예요. 연산도 마찬가지고요. 그러니까 리벨이 레니게이드보다 '네 배 좋다'기보다, 애초에 '네 개를 합친 체급'이라고 보는 게 정확합니다.

그럼 이런 생각 드시죠. "카드 하나가 크면 좋은 거 아냐? 카드 적게 쓰면 전선도 덜 들고." 반은 맞습니다. 근데 추론 현장은 작은 모델을 돌리는 일이 훨씬 많거든요. 작은 모델 하나 돌리는데 144GB 카드를 꽂으면 메모리 절반이 그냥 놉니다. 솔직히 이거 낭비 맞습니다.

저희도 셀프 호스팅으로 Reranker, OCR, Embeddings 등 다양한 서비스를 하나의 GPU에 올려놓고 수십 DP로 복제해서 분산 인프라를 구축했는데요, 그 이유가 바로 '1개의 GPU는 여러 모델을 동시처리를 할 수 없다'는 것 때문이었습니다.

즉, 144GB VRAM에 14.4GB짜리 모델 10개를 탑재할 수 있는게 아니라는 것이죠. 그럼 VRAM이 크면 클 수록, 각종 제반 어댑터나 KV캐싱 용량을 포함해서 80~90%에 가깝게 채우는게 가장 효율이 좋다는 이야기가 됩니다. 근데 이게 어렵죠.

반면에 레니게이드의 48GB 카드면 딱 맞게 잘라 쓰고, 싸고, 기존 서버 슬롯에 그대로 꽂혀서 공냉으로 식습니다. 그래서 레니게이드는 일부러 작게 간 거예요.

참고로 퓨리오사는 '텐서 수축'이라는 유연한 연산을 하드웨어에 깔아서, 모델 모양이 제각각 들어와도 칩 안 빈자리를 덜 남기고 꽉 채웁니다. 그릇을 음식에 맞춰 바꾸는 셈이죠. 작게 만든 칩을 알뜰하게 쓰는 게 이 회사의 효율 비결입니다.

비유하면, 레니게이드는 작은 배달 승합차 여러 대예요. 골목골목 유연하게, 싸게, 아무 주차장에나 댑니다. 리벨은 대형 트레일러 한 대고요. 한 번에 엄청 싣지만 비싸고 전용 도로가 필요하죠. 그래서 레니게이드는 엔비디아 GPU 자리에 그대로 꽂는 표준 카드로, 리벨은 전력 넉넉한 큰 데이터센터 전용으로 갈라선 겁니다.

물론 둘다 데이터센터 전용이 당연하게도 주 타겟이 되는건 맞지만, 레니게이드가 훨씬 유연하며, 다양한 목적과 환경에 대응할 수 있다는 장점이 있다고 볼 수 있겠습니다.

제조는? 타겟은?

만드는 곳과 노리는 시장도 갈립니다.

레니게이드는 TSMC 5나노에서 찍습니다. 노리는 자리는 전력이 빠듯한 추론 현장, 그러니까 전기요금이 곧 비용인 사업장이겠죠? 저희도 집에서 3090을 수십 장 넘게 굴리는데 매달 전기료가 무섭거든요. 데이터센터 규모면 전력 3분의 1은 그냥 무조건 비용이라고 봐야합니다. 올해 양산을 시작했고, 삼성SDS가 이 칩으로 클라우드 AI 서비스를 냈어요. 한국 클라우드 사업자가 NPU를 서비스로 파는 첫 사례입니다. LG CNS도 적용을 시작했고요.

리벨 100은 삼성 4나노 공정에, 네 조각을 붙이는 패키징까지 삼성이 합니다. 설계는 리벨리온, 생산도 삼성, 패키징도 삼성. 공급망이 죄다 국산이에요. 노리는 건 전력 충분한 대형 데이터센터고요. 4월엔 SK텔레콤·Arm과 주권 AI 서버를, 6월엔 KT클라우드가 공공 전용 NPU 서버를 상용화했습니다.

한쪽은 효율로 좁고 깊은 틈새를, 한쪽은 국산 풀스택으로 큰 데이터센터를 파는 거죠. 같은 '국산 NPU'인데 타겟이 미세하게 다릅니다.

그래서 둘 중에 뭘 고를까

자, 결론입니다.

전력이 빠듯하고 추론만 싸게 굴리고 싶다, 그럼 레니게이드. 전력 충분하고 큰 모델을 한 장에 올리고 싶다, 그럼 리벨 100. 깔끔하죠.

근데 두 회사 다 조심해야 할 게 있어요. 퓨리오사가 말하는 '3분의 1'은 추론 한정이고 자사 기준 수치입니다. 모델을 처음부터 학습시키는 무대는 여전히 엔비디아 GPU고요. 리벨리온이 말하는 'H200급'도 아직 회사 발표 기준이에요. 둘 다 독립 벤치마크는 더 쌓여야 합니다.

그래도 방향은 분명합니다. 한쪽은 작게 만들어 불량을 피했고, 다른 쪽은 안 깨먹고 크게 만드는 칩렛 구조를 채택했죠. 접근이 다를 뿐, 둘 다 영리한 건 맞습니다.

'국산 NPU', 이제 시작이다

오늘의 결론은 이겁니다. '국산 NPU'는 영리하고 스마트하게 발전하고 있습니다. 여기에는 삼성 파운드리뿐만 아니라 SK하이닉스희 HBM3 메모리까지 들어가죠.

저는 하드웨어를 직접 만지는 사람으로서 이 경쟁이 반갑습니다. 그동안 국산 AI 칩은 '데모는 멋진데 누가 실제로 쓰냐'는 질문을 못 넘겼는데, 올해 그 질문에 삼성SDS·LG CNS·KT가 처음으로 답을 줬으니까요.

누가 맞았는지는 응원이 아니라, 실제로 굴러가는 데이터센터의 숫자가 정해줄 겁니다. 다음엔 이 칩들 위에서 돌아갈 국산 AI 모델들, 국가대표 서바이벌을 들고 오겠습니다. 지금까지 AXyNow 손상윤이었습니다.

공유X Threads