AI 전용칩, 100만 원부터 46억 원까지 다 뜯어봤습니다
RTX 3090 100만 원부터 GB200 NVL72 46억 원까지, 엔비디아 AI칩 가격을 바닥부터 천장까지 뜯어봤습니다. 1만 명 챗봇 견적, 그리고 같은 블랙웰인데 5090으로는 학습이 안 되는 함정까지.
- 1Claude Opus 4.890.6
- 2GPT-5.589.9
- 3Gemini 3.1 Pro87.7
- 4Claude Sonnet 4.686.5
- 5Gemini 3.5 Flash85.6
- 6GPT-5.4 Mini80.0
- 7Gemma 4 12B79.7
- 8Qwen 3.7 Max79.6
- 9DeepSeek V4 Pro79.6
- 10MiniMax M378.9
- 11Gemma 4 31B78.8
- 12GLM 5.278.7
- 13Gemma 4 26B A4B78.5
- 14Gemini 3.1 Flash Lite77.9
- 15Qwen 3.7 Plus75.6
- 16Tencent Hy3 Preview75.0
- 17Mimo V2.5 Pro74.9
- 18Grok 4.374.5
- 19DeepSeek V4 Flash73.4
- 20GLM 5.172.3
- 21Nemotron 3 Ultra 550B72.2
- 22Step 3.7 Flash71.8
- 23Kimi K2.671.3
- 24Qwen 3.6 27B67.8
- 25EXAONE 4.5 33B61.7
- 26Solar Pro 361.4
- 27Qwen 3.6 35B A3B58.7
- 28HyperCLOVAX SEED Think 32B58.6
- 29Qwen 3.5 9B58.5
- 30Mistral Small 450.5
- 31Kanana 2 30B-A3B Thinking46.2
- 32Gemma 4 E2B44.9
- 33HyperCLOVAX SEED 1.5B32.2
- 34LFM2.5 8B-A1B31.0
- AXyNow
- 엔비디아
- GPU
- H100
- 데이터센터
- AI반도체
프리미엄 AI 매거진 AXyNow, 손상윤입니다.
다들 엔비디아, 엔비디아 합니다. AI 하면 엔비디아 GPU가 가장 먼저 나오죠. 그런데 막상 "그래서 그 칩이 얼만데?" 하고 물으면, 정확히 아는 분이 드뭅니다. 100만 원짜리도 있고, 한 대에 46억 원짜리도 있거든요. 같은 '엔비디아 GPU'라는 이름 안에 그 정도 간격이 있습니다.
그래서 이번 글은 가격표입니다. 책상에 꽂는 100만 원짜리부터, 냉장고만 한 46억 원짜리 랙까지, 엔비디아 AI칩을 바닥부터 천장까지 가격과 스펙으로 줄 세워 봤습니다. 가격을 알면 두 가지가 보입니다. 하나는 AI 산업에 지금 돈이 얼마나 미친 듯이 흐르고 있는지, 다른 하나는 그 가격표만 보고 따라 사면 왜 큰일 나는지입니다.
미리 일러둘 게 하나 있습니다. 데이터센터급 칩은 엔비디아가 공식 정가를 공개하지 않습니다. 그래서 아래 데이터센터 가격은 전부 유통가 기준 시장 추정치예요. 소비자용 카드는 실거래가를, 데이터센터 칩은 추정 범위를 적었습니다. 이 점 감안하고 봐 주세요.
100만 원에서 46억 원까지, 가격 사다리
먼저 전체 그림입니다. 가장 싼 것부터 가장 비싼 것까지 한 줄로 세우면 이렇게 됩니다.
| 단계 | 제품 | 가격 | 비고 |
|---|---|---|---|
| 책상 | RTX 3090 | 중고 100~130만 원 | AI 입문 최저가 |
| 책상 | RTX 5090 | 신품 600~900만 원 | 정가 290만 원의 두 배+ |
| 책상 | RTX PRO 6000 | 2,130~2,285만 원 | 워크스테이션, 96GB |
| 센터 | H100 | 약 3,800~4,700만 원 (추정) | 그 유명한 칩 |
| 센터 | GB200 슈퍼칩 | 약 8,300~9,700만 원 (추정) | CPU+GPU 결합 |
| 센터 | DGX B200 서버 | 약 4~7억 원 (추정) | 칩 8장 완제 서버 |
| 센터 | GB200 NVL72 랙 | 약 46억 원 (추정) | GPU 72장, 1.36톤 |
100만 원과 46억 원. 약 4,000배 차이입니다. 이게 다 '엔비디아 GPU'라는 한 단어로 묶여 있어요. 이제 한 칸씩 올라가 보겠습니다.
책상 위의 칩: 3090, 5090, 그리고 2,200만 원짜리 그래픽카드
사다리 맨 밑은 RTX 3090입니다. 한 세대 전 게이밍 카드인데, 지금도 AI 입문자들이 중고로 제일 많이 찾아요. 이유는 단순합니다. 메모리가 24GB나 되거든요. AI 모델은 이 메모리에 통째로 올라가야 도는데, 24GB를 중고 100만 원 초반에 잡을 수 있는 게 사실상 이 카드뿐입니다. 중고차 한 대 값으로 AI를 시작하는 셈이죠. 대신 한 세대 전이라, 요즘 쓰는 FP8 같은 최신 저정밀 연산은 안 됩니다. 이 'FP'가 뒤에서 중요해지니 기억해 두세요.
한 칸 위가 최신 게이밍 카드 RTX 5090입니다. 메모리 32GB에 성능은 3090과 비교가 안 되죠. 그런데 여기서 좀 황당한 일이 벌어집니다. 이 카드 정가가 290만 원인데, 지금 한국에서 실제로 사려면 600만 원, 심하면 900만 원까지 부릅니다. 정가의 두 배가 넘어요. AI 수요가 터지면서 메모리가 품귀라, 게이밍 카드까지 생산을 줄였거든요. 게임 하나 하자고 나온 카드가, 정가의 두 배를 줘도 못 구하는 물건이 돼 버린 겁니다.
더 위로 가면 워크스테이션용 RTX PRO 6000입니다. 메모리가 무려 96GB예요. 웬만한 큰 모델은 이 한 장에 통째로 올라갑니다. 가격은 약 2,200만 원, 경차 한 대가 그래픽카드 한 장인 셈이죠. 그리고 이 카드, 2026년 6월에 정가가 한 번에 55% 올랐습니다. 출시한 지 1년 만에요. 만들면 팔리니까 부르는 게 값인, 지금 AI 칩 시장 분위기를 그대로 보여줍니다.
| 제품 | 아키텍처 | 메모리 | 소비전력 | 국내가 | FP8 | FP4 | NVLink |
|---|---|---|---|---|---|---|---|
| RTX 3090 | Ampere | 24GB | 350W | 중고 100~130만 | ✗ | ✗ | 2-way |
| RTX 5090 | Blackwell(소비자) | 32GB | 575W | 신품 600~900만 | ○ | △ HW만 | ✗ |
| RTX PRO 6000 | Blackwell(소비자) | 96GB | 600W | 2,130~2,285만 | ○ | △ HW만 | ✗ |
데이터센터로: H100은 한 종류가 아니다
여기까지가 우리가 컴퓨터에 꽂아 쓰는 카드입니다. 이제 진짜 데이터센터로 넘어갑니다. 다들 한 번쯤 들어보셨을 그 칩, 엔비디아 H100이에요. 손바닥만 한 칩 하나가 국내 유통가로 4천만 원 안팎입니다.
그런데 H100을 조금만 파 보면, 이게 단일 제품이 아니라는 것을 알게 됩니다. 폼팩터와 메모리에 따라 갈려요. 가끔 "H100인데 94GB짜리도 있던데?" 하시는 분이 있는데, 그게 바로 이 변형 때문입니다.
| H100 변형 | 메모리 | 메모리 종류 | 대역폭 | 용도 |
|---|---|---|---|---|
| H100 SXM | 80GB | HBM3 | 3.35 TB/s | 데이터센터 주력(DGX·랙에 들어가는 것) |
| H100 PCIe | 80GB | HBM2e | 2.0 TB/s | 일반 서버, 가장 느림 |
| H100 NVL | 94GB ×2 | HBM3 | 3.9 TB/s | LLM 추론 전용(두 장 묶음, 합쳐 188GB) |
94GB짜리는 'H100 NVL'인데, 카드 두 장을 묶어 거대 모델 추론용으로 따로 내놓은 SKU입니다. 70B 모델 하나가 SXM 80GB 한 장엔 안 들어가는데, NVL 한 쌍(188GB)이면 통째로 올라가거든요. 같은 H100이라도 80이냐 94냐가 갈리는 이유는 칩 자체는 96GB까지 가능한데, 수율 때문에 메모리 일부만 켜서 80GB로 파느냐 거의 다 켜서 94GB로 파느냐의 차이입니다.
그 위가 H200입니다. 여기서 재밌는 사실. H200은 H100과 연산하는 칩이 완전히 똑같습니다. 같은 다이예요. 바뀐 건 메모리 하나입니다. HBM3를 HBM3e로 갈아끼우고, 스택당 용량을 키우고 개수를 늘려서 80GB가 141GB로 늘었습니다. 대역폭도 3.35에서 4.8 TB/s로 빨라졌고요. 그러니까 "H200이 더 빠르다"가 아니라 **"더 큰 모델을 더 빠르게 먹인다"**가 정확한 표현입니다. 머리(연산)는 그대로고, 그릇(메모리)만 커진 거죠. 왜 GPU 값의 절반이 메모리인지가 여기서 드러납니다.
그리고 현재 데이터센터 플래그십 B200. 메모리 192GB에, 새로운 FP4 연산을 하드웨어로 돌려 추론 속도가 H100의 다섯 배까지 나옵니다. 다만 여기에도 팩트체크 하나. 이 최신 칩이 모든 면에서 우월하냐면, 아닙니다. 과학계산용 FP64 연산은 오히려 H100보다 약해요. AI 추론에 칩을 몰빵하면서 그쪽을 깎은 겁니다. 최신이라고 무조건 다 좋은 게 아니라는 것, 이게 이 글 전체를 관통하는 메시지이기도 합니다.
| 칩 | 메모리 | 종류 | 대역폭 | 전력 | 가격(추정) |
|---|---|---|---|---|---|
| H100 SXM | 80GB | HBM3 | 3.35 TB/s | 700W | 3,800~4,700만 |
| H200 | 141GB | HBM3e | 4.8 TB/s | 700W | 4,600~5,700만 |
| B200 | 192GB | HBM3e | 8.0 TB/s | ~1,000W | 4,000~6,800만 |
칩을 엮으면: 5억짜리 서버, 46억짜리 냉장고
이런 칩은 한 장씩 안 씁니다. 여러 장을 엮어요. 칩 여덟 장을 한 박스에 넣은 완제 서버가 DGX인데, 한 대에 4억에서 7억 원, 아파트 한 채 값이죠. 그걸 또 묶으면 글 맨 앞에서 말한 그 냉장고, GB200 NVL72 랙이 됩니다.
이 랙 한 대의 스펙이 좀 비현실적입니다. GPU 72장, 무게 1.36톤(중형 SUV 한 대 무게), 소비전력 120kW. 너무 뜨거워서 공기로는 못 식히고 물로 칩을 직접 식힙니다. 가격은 약 46억 원, 여기에 전기와 냉각 인프라까지 깔면 랙 하나에 60억 원이 들어가요.
이게 끝이냐면, 아닙니다. 지금 굴러가는 최신 랙은 GB300인데, 마이크로소프트는 이 50억~60억 원짜리 랙을 4,600대 묶어서 오픈AI를 돌리고 있습니다. GPU만 약 33만 장이에요. 단순 계산만 해도 수조 원입니다. 우리가 챗봇에 질문 하나 던질 때, 그 뒤에서 이런 덩치가 돌아가고 있는 겁니다.
그래서 1만 명 챗봇은 얼마면 되나
여기까지 보면 "AI 서비스 하나 하려면 수십억은 있어야겠네" 싶죠. 그런데 의외입니다. 직접 챗봇 서비스를 한다고 쳐 봅시다. 가입자 1만 명한테 서비스하는 데 랙 한 개가 필요할까요? 랙 한 개도 안 듭니다.
가입 1만 명이 동시에 접속하는 게 아니거든요. 동시 접속을 넉넉히 3%(300명)로 잡으면, 70B 모델 기준 H100 열두 장, 서버 한두 대면 됩니다. 하드웨어로 4~5억 원 정도예요. 물론 적은 돈은 아니지만, 46억짜리 랙과는 자릿수가 다르죠.
| 가정 | 값 |
|---|---|
| 동시 접속(가입 1만의 3%) | 300명 |
| 필요 H100 | 약 12장 |
| 전력 | 약 13kW |
| 하드웨어(추정) | 4~5억 원 |
단, 두 가지를 구분해야 합니다. 이건 만들어진 모델을 돌리는 추론 비용입니다. 그 모델을 직접 학습시키는 건 여기에 0이 몇 개 더 붙어요. 서비스하는 것과 만드는 것은 완전히 다른 게임입니다.
그리고 왜 굳이 비싼 칩을 여러 명이 같이 쓰게 할까요? H100 한 장을 혼자 쓰면 초당 95토큰밖에 못 뽑는데, 같은 카드에 여러 명을 동시에 물리면 초당 1,800토큰까지 뜁니다. 열 배가 넘어요. GPU는 혼자 쓰면 낭비, 꽉 채워 써야 본전인 구조입니다. AI 인프라에 이렇게 큰돈이 흐르는 이유가 여기 있어요.
가격표만 보면 안 되는 이유: 같은 블랙웰, 두 개의 칩
이제 이 글에서 제일 중요한 대목입니다. 앞에서 5090과 B200, 둘 다 '블랙웰' 세대라고 했죠? 그런데 이 둘은 사실 호환이 안 되는 별개의 칩입니다. 이름만 같아요.
게이밍용 블랙웰(5090·PRO 6000)과 데이터센터용 블랙웰(B200·GB200)은 내부 코드가 다릅니다. 그래서 데이터센터용으로 만든 FP4 학습 프로그램이 5090에서는 아예 안 돌아갑니다. "5세대 텐서코어로 FP4 학습 가능"이라는 스펙만 믿고 5090을 사서 모델을 학습시키려 하면, 프로그램이 거부해 버려요. 게다가 게이밍 카드는 여러 장을 묶는 NVLink도 없습니다.
| 소비자 블랙웰 (5090·PRO 6000) | 데이터센터 블랙웰 (B200·GB200) | |
|---|---|---|
| FP4 학습 커널 | 거부됨(돌지 않음) | 네이티브 풀 가속 |
| FP32 누산 | 절반으로 제한(관행) | 풀 레이트 |
| NVLink(멀티카드) | 없음 | 있음 |
그래서 가격표와 스펙표만 보고 따라 사면 안 됩니다. 정리하면 이렇습니다.
- RTX 3090: FP8·FP4 양자화 학습을 하려면 사지 마세요. 추론·임베딩·소규모 LoRA에는 여전히 가성비 최고.
- RTX 4090·5090: 여러 장 묶어 대형 학습을 하려면 사지 마세요. 추론·소규모 튜닝이면 최고 가성비.
- RTX PRO 6000: 96GB라 단일 카드로는 강력하지만, NVLink가 없어 초대형 학습 클러스터에는 안 맞습니다.
결국 내가 추론을 할 거냐 학습을 할 거냐, 한 장이냐 여러 장이냐에 따라 정답이 완전히 달라집니다.
결론: 칩 값을 알면 AI 산업이 보인다
기업이 AI를 자체 서버로 들이려면 이만한 돈이 듭니다. 그래서 칩 가격표는 단순한 견적서가 아니라, AI 산업에 지금 얼마나 큰돈이 흐르고 있는지를 보여주는 지도예요. 책상 위 100만 원짜리부터 데이터센터의 46억짜리 냉장고까지, 그 사다리 전체가 곧 이 산업의 규모입니다. AX is now, AI는 지금 이만한 돈이 실제로 움직이는 산업이라는 뜻이죠.
두 가지만 남기겠습니다.
- '얼마냐'보다 '뭘 할 거냐'가 먼저입니다. 추론이냐 학습이냐, 한 장이냐 여러 장이냐에 따라 같은 가격대에서도 정답이 갈립니다. 가격표는 그다음입니다.
- 이름이 같다고 같은 칩이 아닙니다. 같은 블랙웰, 같은 H100 안에도 80과 94가, 게이밍과 데이터센터가 갈립니다. 스펙표 한 줄만 보고 지르면 커널이 거부합니다.
여기까지는 다들 엔비디아 하니까 엔비디아만 봤습니다. 그런데 엔비디아만 답일까요? 한국에도 퓨리오사 레니게이드, 리벨리온 리벨 100 같은 국산 AI 칩이 있습니다. 가격과 성능이 엔비디아에 어디까지 붙는지는, 다음 글에서 정면으로 비교해 보겠습니다. 그 전에 엔비디아가 GPU 아닌 전체 시스템에 집중하는 이유부터 보시면 흐름이 더 잘 잡힐 거예요.