분석·2026-06-09·12분

제일 비싼 AI, 제일 똑똑한 게 아니라고?

한국 직무·생활 11개 영역을 종합해보니, 가장 비싼 AI가 1등도 아니었습니다. 에르메스가 가장 퀄리티 좋은 가방이 아닌 것처럼 말이죠.

AXyNow
AXyBench
AI비용
가성비
모델선택
운영

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

앞선 글들에서 어떤 AI가 한국을 잘 아는지를 봤죠. 근데 매달 AI에 돈을 내는 입장에선 질문이 하나 더 붙습니다. "그래서, 제일 비싼 걸 써야 하나?" 많은 분이 그냥 제일 유명하고 제일 비싼 모델을 켜둡니다. 비싼 게 제일 똑똑할 거라고 믿으니까요.

그래서 이번엔 똑똑함이 아니라 값을 같이 놓고 봤습니다. 한국 직무·생활 11개 영역을 종합한 점수에, 그 모델이 한 번 답하는 데 드는 실제 비용을 나란히 붙인 거예요.

결과가 좀 배신감 듭니다. 가장 비싼 모델이 1등도 아니었고, 종합 점수의 9할을 10분의 1 값에 주는 모델이 따로 있었습니다.

비싼 게 1등도 아니다

먼저 종합 점수 최상위권부터 보시죠. 11개 영역을 평균 낸 겁니다. (2026.06.08 기준)

한국 세무·법무·노무·마케팅·주식·부동산·교통사고 등 11개 직무·생활 영역을 종합한 점수. 상위권이 85~90점으로 촘촘히 붙어 있다.

우리가 보통 '제일 센 모델'이라 부르는 GPT-5.5는, 한 번 묻는 데 평균 0.16달러가 듭니다. 이 표 안에서 가장 비싸요. 그런데 점수는 1등이 아닙니다. 오히려 그 절반 값(0.08달러)인 Claude Opus 4.8이 종합 점수는 더 높죠. 더 비싼 걸 더 똑똑하다고 믿고 켜둔 거라면, 그 믿음부터 틀린 겁니다.

9할을 10분의 1 값에

진짜 이야기는 그 아래에 있습니다. 위 그래프에서 Gemini 3.5 Flash 보이시죠? 종합 85.5점. GPT-5.5(89.8)의 약 95% 수준입니다. 그런데 값은 0.016달러. GPT-5.5의 딱 10분의 1이네요.

같은 질문, 한 번 답하는 값

GPT-5.5 · 종합 89.8점에 한 번 약 0.16달러. 이 비교군에서 제일 비싼 모델

Gemini 3.5 Flash · 종합 85.5점에 한 번 약 0.016달러. 성능평가는 약 95%, 값은 10%

점수 차이는 4점 남짓인데, 값 차이는 열 배다. 대량으로 굴리면 이 4점이 비용으로 돌아온다.

4점 더 받으려고 열 배를 더 내는 게 맞는 일일까요? 답은 '경우에 따라'입니다. 변호사 검토용 계약서 한 장이면 4점이 답을 가르니 비싼 쪽이 무조건 맞겠죠. 근데 하루에 수백 수천번 반복되어야 하는 요약·분류·초안 작업이라면, 다른 선택이 필요합니다.

'충분히 좋은' 70점대, 중소기업 AX 타겟 모델군

한 단계 더 내려가 보면 더 셉니다. 종합 78~80점대, 그러니까 '웬만한 일은 무난히 해내는' 구간이 GPT-5.5의 1%도 안 되는 비용에도 존재합니다.

GPT-5.5에 한 번 묻는 값(약 0.16달러)으로 같은 질문을 각 모델에 몇 번 던질 수 있는지. Gemma 4 31B는 181번이다. 종합 점수는 78.8점, GPT의 약 88% 수준이다.

GPT-5.5에 한 번 물어볼 값이면, Gemma 4 31B한테는 181번 물어볼 수 있습니다. 그 Gemma의 종합 점수가 78.8점, GPT의 약 88%예요. DeepSeek V4 Pro(79.7점)는 33번, MiniMax M3(78.9점)는 63번. 점수는 한 단계 낮지만, 값 차이는 점수 차이와 비교가 안 됩니다.

모델	11개 영역 종합	한 번 값	GPT-5.5 대비
Claude Opus 4.8	90.6	$0.076	절반 값
GPT-5.5	89.8	$0.163	기준
Gemini 3.1 Pro	87.8	$0.018	9분의 1
Gemini 3.5 Flash	85.5	$0.016	10분의 1
DeepSeek V4 Pro	79.7	$0.005	33분의 1
MiniMax M3	78.9	$0.003	63분의 1
Gemma 4 31B	78.8	$0.0009	181분의 1

그래서, 값은 점수와 다른 축이다

여기서 본질을 짚어야 합니다. 우리는 모델을 '점수' 한 줄로 줄 세우는 데 익숙한데, 값은 점수와 다른 축이에요. 점수만 보면 GPT·Opus가 위지만, 점수를 값으로 나누면 순위가 통째로 뒤집힙니다.

그러면 어떻게 골라야 할까요? 업무의 중요도와 호출 빈도예요.

중요도 높고 빈도 낮은 일(계약서 최종 검토, 세무 판단): 4점이 답을 가르니 비싼 모델. 어차피 가끔 부르니까 값은 문제가 안 됩니다.
중요도 낮고 빈도 높은 일(요약, 분류, 1차 초안): 점수 78점이면 충분하고, 하루 수백 번이니 값이 전부입니다. 싼 모델.

어떤 일에 어떤 모델을 꽂나

같은 모델도 일에 따라 자리가 다르다. 중요하고 가끔 하는 일엔 비싼 모델, 안 중요하고 자주 하는 일엔 제일 싼 모델. 이 둘만 제대로 갈라도 비용이 절반 아래로 떨어진다.

대부분의 사람들은 이걸 안 나누고 모든 일에 제일 비싼 모델 하나를 꽂아 둡니다. 그게 가장 비싼 실수예요. 똑똑함이 필요 없는 일에까지 똑똑함의 값을 내고 있는 거니까요. 반대로 모든 일에 싼 모델만 쓰는 것도 위험합니다. 진짜 판단이 걸린 칸에서 4점이 돌이킬 수 없는 사고로 돌아오거든요.

참고로 위 표에 일부러 안 넣은 게 있어요. 직접 서버에 올려 돌리는 오픈소스 모델들은 호출당 값이 사실상 0에 수렴합니다(대신 GPU·전기 값을 본인이 냅니다). 민감 정보를 외부에 안 보내면서 대량으로 굴려야 한다면, 이 자체 운영이 또 다른 답이 됩니다. 저희 CommanderOS도 이런 고객께는 온프레미스로 세팅해 드리고요.

결론: AI에 돈을 낼 때

이런 이유로 저는 CommanderOS를 개발할 때, 저희 자체 메인 모델만 고집하지 않았습니다. Opus 4.8이나 GPT 5.5와 같은 SOTA부터 Gemini 3.5 Flash 와 같이 더 비용효율적인 모델도 '선택해서' 사용하실 수 있도록 해두었죠.

들어온 일을 중요도와 빈도로 나누고, 싼 모델로 먼저 처리하고 까다로운 판단만 비싼 모델로 올려보냅니다. 같은 일을 더 싸게, 진짜 중요한 데만 비싸게. 1인 기업한테 이건 취향이 아니라 생존이에요. 매달 청구서가 달라지니까요.

그래서 여러분께도 두 가지만 부탁드립니다.

'제일 비싼 모델 하나'를 모든 일에 꽂아 두지 마세요. 비싼 게 1등도 아니고, 대부분의 일엔 78~85점이면 충분합니다.
일을 중요도/난도 vs 빈도로 나누세요. 비싼 모델은 가끔 부르는 어려운 판단에만, 자주 부르는 일은 싸고 충분한 모델로. 그 둘을 섞는 순간 값이 절반 아래로 떨어집니다.

11개 영역의 모델별 점수와 비용은 AXyBench 전체 결과에서 볼 수 있습니다.

공유X Threads