분석·2026-06-19·11분

AX 하려는데 GPU 뭐 사죠? 중소기업 AI 가속기 TOP 5

스타트업·중소기업이 사내 AI를 시작할 때 어떤 가속기를 사야 할까. VRAM이 왜 1순위인지, 왜 한 장으론 안 되는지, 그리고 예산별 추천 구성 TOP 5를 정리했습니다.

AXyNow
AI가속기
온프레미스
중소기업AX
CommanderOS

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

"우리도 AI 좀 도입해보자"는 회사가 제일 먼저 부딪히는 질문이 있습니다. "그래서 뭘 사야 하는데?" 클라우드 API에 회사 데이터를 다 올리자니 찜찜하고, 사무실에서 직접 돌리자니 GPU 종류가 수십 가지죠. 스타트업·중소기업이 온프레미스(사내 자체 구축) AI를 시작할 때 어떤 가속기를 사야 하는지, 기준부터 추천 구성까지 정리했습니다.

한 줄. 1순위는 코어 수도 브랜드도 아닌 VRAM(메모리 용량)입니다. 그리고 실무에선 그 VRAM이 한 장으로 안 끝나요. 모델·멀티모달·KV 캐시·임베더·리랭커까지 올리고 나면, AX는 '제일 좋은 카드 한 장 사기'가 아니라 '필요한 만큼을 여러 장으로 묶는' 게임이 됩니다.

1순위는 VRAM, 그것도 한 장으론 모자란다

AI 모델은 통째로 메모리(VRAM) 위에 올라가야 작동합니다. 메모리가 모자라면 아예 안 돌거나, 디스크로 흘러넘쳐 기어가요. 그래서 스펙시트에서 제일 먼저 볼 숫자는 연산 성능이 아니라 메모리 용량입니다.

그런데 함정이 있습니다. 실무에서 VRAM을 먹는 건 모델 가중치 하나가 아니에요. 한 대에 실제로 쌓이는 걸 다 적어보면 이렇습니다.

모델 가중치: 70B를 4비트로 압축해도 수십 GB. 세게 줄여도 20GB대입니다.
멀티모달 인코더: 이미지·문서를 같이 읽히려면 비전 모듈이 몇 GB 더 붙습니다.
KV 캐시: 프롬프트가 길수록, 동시에 쓰는 사람이 많을수록 비례해서 커집니다. 이게 진짜 변수예요. 혼자 테스트할 땐 작지만, 팀이 같이 붙으면 순식간에 불어납니다.
임베더·리랭커: 사내 자료 검색(RAG)을 외부 API 없이 온프레미스로 돌리려면, 검색용 임베딩 모델과 결과 재정렬용 리랭커도 같은 장비에 올라가야 합니다. 또 몇 GB.

이걸 다 더하면, 32GB짜리 카드 한 장으론 모델 하나 올리기도 빠듯하고 실서비스는 어림없습니다. 그래서 현실의 AX는 "제일 좋은 카드 한 장"이 아니라 "필요한 만큼의 VRAM을 여러 장으로 묶는" 문제가 됩니다. 수십에서 수백 GB를요.

갈림길 하나: 속도냐, 데이터만 안 나가면 되냐

필요한 VRAM을 확보한다는 전제에서 다음 질문은 속도입니다. 그리고 여기서 길이 둘로 갈려요.

속도가 진짜 중요하면 정통 엔비디아 데이터센터 GPU로 가야 합니다. 호퍼(H200, 단일 카드 141GB)나 블랙웰(B200), 그리고 올 하반기 나오는 루빈 계열이죠. 수백 명이 동시에 붙고 파인튜닝까지 돌리는 진짜 프로덕션이면 답이 여기뿐입니다. 대신 장당 수천만원이고, 전기와 냉각도 만만치 않습니다.

반대로 "추론이 좀 느려도 되고, 데이터만 회사 밖으로 안 나가면 된다"면 길이 완전히 달라집니다. 요즘 뜨는 LPDDR 통합 메모리 박스들이에요. CPU와 GPU가 메모리를 통째로 나눠 쓰는 구조라, 콘센트 하나 꽂은 미니 PC에 100GB가 넘는 모델을 올릴 수 있습니다. 속도는 데이터센터 GPU보다 한참 느리지만(예: 70B 모델이 초당 14단어 수준), 개인정보·금융·의료처럼 데이터가 밖으로 새면 안 되는 회사엔 이 "느려도 사내에서 돈다"가 정답일 때가 많습니다. 이런 박스는 2대 이상 묶어 메모리를 더 키우기도 해요(DGX Spark는 2대로 405B급까지).

갈림길 둘: 단순 LLM이냐, 전사 일체화냐

쓰임새에 따라 사야 할 규모가 또 갈립니다.

정말 한 명이 쓰는 챗봇 수준이면 카드 한두 장으로 됩니다. 그런데 팀이 같이 쓰는 사내 서비스만 돼도, 위에서 본 이유(동시 접속·RAG 스택)로 이미 여러 장이에요. 거기서 더 나아가 공장, 물류, ERP, 운영까지 회사 시스템 전체를 AI로 묶으려 하면 GPU만으로는 안 됩니다. 예전에는 파일은 NAS에, 연산은 따로 두는 식으로 쪼갰지만, 이제는 CPU·RAM·SSD·GPU(또는 NPU)를 한 박스에 통합한 'AI 서버'가 있어야 합니다. 데이터를 쌓는 곳, 연산하는 곳, 업무가 도는 곳이 한 몸이어야 실시간으로 굴러가는 업무 시스템이 되거든요. 그래서 전사 AX는 "그래픽카드 사기"가 아니라 "서버 갖추기" 문제로 커집니다.

2026 중소기업 AX 가속기 TOP 5

위 기준을 깔고, 단일 카드가 아니라 예산·목적별 '구성' 단위로 다섯 가지를 추렸습니다.

구성	합산 메모리	대략 예산	누구에게
중고 RTX 3090 ×8	192GB	본체 합쳐 1,000만원대	가성비 끝판. 직접 꾸릴 수 있는 팀
라이젠 AI Max+ 395 ×2 / DGX Spark ×2	256GB 통합	약 600만~1,300만원	저전력·조용, 데이터 절대 안 나감
RTX 5090 ×2~4	64~128GB	약 1,000만~2,400만원	속도와 VRAM 균형, 다중 사용자
RTX PRO 6000 블랙웰 ×1~2	96~192GB	약 1,850만~3,700만원	케이블·전력 단순한 워크스테이션
데이터센터 H200·B200 + 통합 서버	141GB~	수천만원~억대	수백 명 동시, 전사 통합

핵심은 "한 장"이 아니라 "몇 장을 어떻게 묶느냐"입니다. 시작이라면 위쪽 두 줄로 충분해요. 중고 3090 여덟 장이면 모델에 임베더·리랭커까지 다 올리고도 남고, 라이젠 AI Max나 DGX Spark는 콘센트 하나로 거대 모델을 사무실 안에서 굴리는 가장 쉬운 길입니다. 그 위, 속도가 생명인 단계로 가면 그때 블랙웰 워크스테이션이나 데이터센터 GPU와 통합 서버로 넘어가면 됩니다.

저도 사무실에 3090을 여러 장 물려 직접 돌리는데, 한 장은 모델, 다른 한 장은 임베더와 리랭커 식으로 역할을 나눠야 실서비스가 돕니다. "제일 똑똑한 카드"보다 "내 스택이 메모리에 다 올라가느냐"가 훨씬 중요하더군요. 한 가지, AI 수요로 메모리값이 뛰면서 위 가격은 모두 오르는 추세입니다. 실제 구매 전 시세는 꼭 다시 확인하세요.

(메모리만 보고 단순하게 가고 싶다면, 애플 맥 스튜디오 M4 울트라가 통합 메모리 512GB로 클러스터 없이 405B·671B급까지 한 대에 올립니다. 다만 엔비디아 CUDA 생태계가 아니라 호환성은 따로 따져야 합니다.)

그런데, 하드웨어는 시작일 뿐입니다

여기까지가 '몸'을 고르는 얘기입니다. 그런데 가속기를 사도 그건 빈 그릇이에요. 모델을 깔고, 사내 데이터를 연결하고, 세무·물류·CS 같은 실제 업무 흐름에 물리고, 운영·업데이트·보안까지 해야 비로소 'AX'가 됩니다. 진짜 비용과 진짜 어려움은 하드웨어가 아니라 여기에 있어요. 그리고 대부분의 중소기업엔 이걸 직접 할 사람이 없습니다.

그래서 저는 CommanderOS를 만들고 있습니다. 하드웨어가 몸이라면, CommanderOS는 그 위에서 회사를 실제로 굴리는 두뇌, 그러니까 AX 운영체제입니다. 수천만원짜리 서버 위에서 돌리든 클라우드로 가볍게 시작하든, 중소기업이 'AI로 일하는 회사'가 되는 데 필요한 운영 레이어를 월 3.9만원에 제공합니다. 수천만원어치 하드웨어 고민의 결과물을 월 3.9만원짜리 소프트웨어로 압축한 셈이죠.

가속기는 거들 뿐입니다. AX의 본체는 그 위에서 회사가 어떻게 일하느냐고요. 거기까지가 저희가 풀고 있는 문제입니다.

공유X Threads