벤치·2026-06-03·9분

구글의 Gemma4, Dense 31B vs MoE 26B-A4B 비교

구글의 오픈소스 Gemma 4 듀오, MoE 26B-A4B 모델과 Dense 31B를 AXyBench로 측정했습니다. 평균은 78.5 대 78.6 동점인데, 세무는 작고 싼 모델이 이기고 빽빽한 문서는 큰 모델이 이깁니다. MoE와 Dense가 어디서 갈리는지 응답 원문으로 짚었습니다.

AXyNow
Gemma
구글
MoE
AXyBench
소형모델

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

모델 이름에 붙은 숫자를 보면 우리는 본능적으로 이렇게 생각하죠. "큰 게 더 똑똑하겠지." 같은 가족이면 더더욱요. 31이 26보다 크니까, 31B가 26B보다 모든 면에서 한 수 위일 거라고요.

그런데 구글 Gemma 4 형제를 한국 실무로 직접 재보니, 그 상식이 깨졌습니다. 더 작고 더 싼 쪽이 세무에서 큰 형을 10점 차로 이겼거든요. 대신 큰 형은 빽빽한 문서를 읽는 일에서 동생을 15점 차로 따돌립니다. 같은 가족, 같은 학습 레시피인데 성격이 정반대로 갈린 겁니다. 오늘은 이 둘이 왜 이렇게 다른지를 응답 원문까지 까보면서 얘기해보려고 합니다.

같은 가족, 다른 몸: 희소냐 조밀이냐

먼저 둘의 몸 구조부터 봐야 얘기가 됩니다. 이름은 비슷하게 생겼는데, 안을 열어보면 전혀 다른 설계입니다.

Gemma 4 26B·A4B는 희소(MoE) 모델입니다. 전체 파라미터는 26B를 다 갖고 있는데, 토큰 하나를 처리할 때마다 그중 약 4B만 골라서 켭니다. 작은 라우터가 "이번 질문엔 이 전문가들이 필요하겠네" 하고 필요한 부분만 불러 쓰는 구조예요. 그래서 지식의 총량은 26B급인데 실제로 도는 속도와 비용은 4B급입니다. 싸고 빠른 비결이 여기 있죠.

이 모델은 '추론'에서 효율적이라고 알려져 있고, 특히 추론 컴퓨팅 파워가 중요해지는 요즘 각광을 받고 있습니다. 왜냐면 4B짜리 전문가만 활성화되니 decode 과정뿐만 아니라 전반적으로 컴퓨팅 자원을 적게 먹기 때문입니다.

Gemma 4 31B는 조밀(dense) 모델입니다. 31B 전부가 토큰마다 항상 켜집니다. 골라 쓰는 게 없어요. 느리고 비싸지만, 한 번에 머리에 띄울 수 있는 용량이 그만큼 큽니다. 즉, 일부 전문가로 라우팅할 필요가 없이 항상 '전부 대가리 박아'를 할 수 있다는 것이죠.

희소(MoE)는 라우터가 전문가 일부만 켜서 싸고 빠르다. 조밀(dense)은 전부 항상 켜져 느리고 비싼 대신, 한 번에 드는 용량이 크다.

쉽게 말하면, MoE 모델은 필요할 때마다 전문가를 호출하는 프리랜서 팀이에요. 짧고 명확한 일이면 딱 맞는 사람만 불러서 싸게 끝냅니다. Dense 모델은 전 직원이 늘 출근해 있는 회사고요. 인건비는 많이 나가지만, 한 화면에 표·각주·그래프를 동시에 펼쳐놓고 교차검증해야 하는 무거운 일을 끝까지 버팁니다.

가격을 보면 이 차이가 그대로 드러납니다.

모델	구조	토큰당 활성	입력 $/1M	출력 $/1M
Gemma 4 26B·A4B	희소(MoE)	약 4B	0.07	0.34
Gemma 4 31B	조밀(dense)	31B 전부	0.13	0.38

출처: OpenRouter(deepinfra/fp8) 직결, 조회 2026-06-03.

입력 단가는 작은 쪽이 정확히 절반이고, 토큰마다 켜지는 두뇌는 8분의 1 수준이라 실제 서빙은 더 쌉니다. 자, 그럼 이 싸고 빠른 동생이 비싼 형보다 점수도 낮을까요. 여기서 반전이 시작됩니다.

AXyBench로 직접 재보면, 거의 동점입니다

구글이 내건 자랑은 늘 영어 벤치입니다. 한국 비즈니스 실무에서는 몇 점일까요. AXyNow가 직접 측정하는 AXyBench로 재봤습니다.

AXyBench 점수는 모델의 "절대 지능"이 아니라 한국 비즈니스 실무 + 고난도 변별 순위입니다. 일부러 어려운 함정을 깔아 변별을 만들고, 한국 도메인(세무·법무 등)을 무겁게 가중합니다. 그래서 글로벌 코딩·에이전트 벤치의 명성과 이 점수는 다른 것을 잽니다.

평균은 비전을 뺀 한국 실무 카테고리들의 교차 평균입니다. 비전(문서·시각자료 이해)은 이미지를 읽을 수 있는 모델끼리만 따로 줄 세우기 때문에, 평균에는 넣지 않고 뒤에서 따로 떼어 봅니다.

항목	Gemma 4 26B·A4B	Gemma 4 31B
세무	82.4	72.8
코드	76.0	72.4
노무	82.6	83.0
마케팅	80.8	81.6
주식	77.0	80.0
부동산	80.4	82.8
생활법률	72.0	78.0
평균(전체)	78.5	78.6

평균을 먼저 보세요. 78.5 대 78.6. 측정한 한국 실무 카테고리를 전부 합쳐 평균을 내면 두 모델의 차이가 0.1점입니다. 사실상 동점이에요. 비싼 형이라고 평균이 높은 게 아닙니다.

그런데 항목별로 내려가 보면 점수가 위아래로 춤을 춥니다. 세무·코드는 작은 동생이 위에 있고, 주식·부동산·생활법률은 큰 형이 위에 있어요. 평균은 같은데 잘하는 과목이 정반대인 겁니다. 이게 오늘 글의 핵심이고요.

AXyBench 항목별 점수: Gemma 4 26B·A4B(시안) vs 31B(Wood). 세무·코드는 작은 쪽이, 주식·생활법률·비전은 큰 쪽이 앞선다. 평균은 거의 같은데 봉우리가 서로 엇갈린다.

세무에선 작은 쪽이 이깁니다

가장 놀란 건 세무입니다. 작고 싼 26B·A4B가 82.4점, 비싼 31B가 72.8점. 10점 가까이 동생이 앞섭니다. 보통 가장 정밀해야 할 계산 영역에서, 더 큰 모델이 더 헤맸다는 거예요.

이유를 응답에서 찾아봤더니 명확했습니다. 법인세 계산 문항에서 Dense 모델이 조금 실수가 컸습니다.

세무사 시점. 문제 어디에도 없는 미지급배당 100만 원을 31B가 스스로 만들어내, 그걸 익금산입으로 잡고 과세표준을 통째로 틀렸습니다. 또 다른 문항에서는 만 8세 미만으로 오인해 자녀세액공제 함정을 놓쳤고요. 반면 작은 26B·A4B는 과세표준 1억 3,750만 원, 세율 9%, 소득처분, 신고기한까지 깔끔하게 맞혔습니다.

여기서 희소 모델의 강점이 드러납니다. 세무 계산은 "주어진 숫자를 정해진 규칙에 넣어 한 덩이로 풀어내는" 일이에요. 라우터가 세무 담당 전문가만 정확히 호출해 그 안에서 답을 만들면 됩니다. 켜진 4B로 충분한 일이죠. 오히려 큰 모델은 전부 켜져 있다 보니, 없는 항목을 그럴듯하게 끼워 넣는 과잉을 부린 셈입니다. 코드에서도 비슷했어요. 작은 쪽(76.0)이 까다로운 전제 함정을 정확히 정정하고 완주한 반면, 큰 쪽(72.4)은 요구한 부수효과를 주석 처리 스텁으로 비워두고 넘어갔습니다.

빽빽한 문서 앞에서는 정반대로 갈립니다

그럼 큰 형은 어디서 진가를 보일까요. 비전, 그러니까 문서와 시각자료를 읽어내는 일입니다. 31B가 91.7점, 26B·A4B가 76.9점. 이번엔 큰 쪽이 15점 차로 압도합니다.

재밌는 건 쉬운 문항에서는 둘 다 만점에 가깝게 붙어 있었다는 거예요. 표 한 칸을 읽거나 각주 하나를 찾는 정도는 작은 모델도 거뜬합니다. 격차가 벌어진 건 딱 한 종류, 2단으로 빽빽하게 짜인 기술 논문을 던졌을 때였습니다.

검수자 시점. 같은 논문 그림을 두고, 작은 26B·A4B는 로그축 눈금 3,200을 10,000으로 잘못 읽고, 히트맵 실제 값(52·58·61)을 34·38·42로 통째로 지어냈습니다. 표에 없는 단가까지 날조했고요. 큰 31B는 같은 문항에서 흔들리긴 해도 끝까지 버티며 뒤 문항에서 완전히 회복했습니다.

저는 일본 기계회사에서 도면과 기술문서를 직접 다뤘던 사람입니다. 그래서 이 장면이 무슨 의미인지 체감이 와요. 2단으로 빽빽한 문서를 읽는다는 건, 표와 각주와 축 눈금을 머릿속에 동시에 띄워놓고 서로 맞춰보는 일이거든요. 사람한테도 제일 피곤한 작업입니다. 이때 필요한 건 특정 전문가 하나가 아니라, 한 화면을 통째로 들고 있을 용량 그 자체예요. 토큰마다 4B만 켜는 희소 모델은 이 지점에서 용량이 달려서, 비는 칸을 그럴듯한 숫자로 메워버립니다. 모르면 모른다고 해야 하는데, 자신 있게 지어내는 거죠. 큰 dense 모델은 31B를 다 켜고 있으니 그 무게를 끝까지 듭니다.

세무에서 작은 쪽을 이기게 했던 바로 그 구조가, 빽빽한 문서 앞에서는 정반대로 작용한 겁니다. 희소는 한 덩이 계산에 강하고, 조밀은 빽빽한 한 화면에 강하다. 이 한 줄이 두 모델의 성격을 가릅니다.

둘 다 한국은 아직 못 미더운 건 똑같습니다

그렇다고 한쪽이 한국 실무에서 완전히 믿을 만하냐. 그건 또 아닙니다. 생활 법률을 물어보면 둘 다 한국 법조문을 자신 있게 틀려요.

Gemma4 26B-A4B는 음주운전 특별교통안전교육을 받아도 면허정지 일수가 자동 감경되지 않는다고 단언했는데, 실제로는 50일이 감경됩니다. 큰 31B는 그건 맞혔지만, 다른 문항에서 실제 30만 원 이하 벌금인 사안에 "2년 이하 징역 또는 2,000만 원 이하 벌금"이라는 없는 형량을 만들어 붙였고요. 둘 다 영어 능력은 멀쩡한데, 한국 법조문 같은 로컬 사실 앞에서는 환각을 냅니다.

이게 제가 지난 한국어는 하는데, 한국을 모른다는 글에서 짚었던 그 패턴입니다. 한국어 문장을 매끄럽게 쓰는 것과, 한국의 세금·법·제도를 정확히 아는 건 전혀 다른 능력이에요. 두 Gemma 모두 후자가 약하고, 학습 시점도 지나 있습니다. 그래서 어느 쪽을 쓰든 한국 실무에 붙이려면 사실을 한 번 걸러주는 검증 레이어가 반드시 필요합니다.

그래서 우리는 어떻게 쓰나

이 비교가 저한테는 남 얘기가 아닙니다. 에디터인 제가 직접 운영하는 CommanderOS도 추론을 직접 굴리는 입장이라, 작업 종류에 따라 모델을 다르게 쓰거든요.

제목 달기, 짧은 요약, 분류처럼 양 많고 가벼운 일은 작고 싼 모델에 떼줍니다. 반대로 빽빽한 문서를 통째로 이해해서 정확히 뽑아내야 하는 무거운 일은 더 큰 모델로 보내고요. 오늘 본 Gemma 4 형제는 바로 그 선택을 한 가족 안에서 그대로 보여주는 사례예요. 세무 계산이나 코드 한 덩이처럼 명확한 일이면 싸고 빠른 26B·A4B로 충분하고, 여러 페이지짜리 문서를 읽혀야 한다면 돈을 더 주고 31B를 쓰는 게 맞습니다.

"제일 큰 모델"을 기본값으로 깔아두는 게 항상 답은 아니라는 거죠. 편의점 알바를 뽑는데 우주공학 박사를 앉힐 필요가 없는 것처럼, 일의 무게에 맞는 모델을 고르는 게 1인 사장 입장에서는 곧 비용입니다.

결론: 작은 형은 '한 덩이 지식', 큰 형은 '빽빽한 한 화면'

정리하면 이렇습니다. Gemma 4의 두 형제는 평균 점수가 78.5 대 78.6으로 사실상 같습니다. 큰 게 무조건 낫다는 공식은 여기선 안 통해요.

대신 잘하는 자리가 정확히 갈립니다. 세무·코드처럼 답이 한 덩이로 떨어지는 일이라면, 더 싸고 빠른 26B·A4B가 충분히 AXy합니다. 비싼 형을 쓸 이유가 없어요. 반대로 여러 페이지짜리 문서와 차트를 통째로 읽어 교차검증해야 하는 일이라면, 15점을 더 주고도 31B가 충분히 AXy합니다. 작은 쪽은 그 무게를 못 들고 숫자를 지어내거든요.

다만 둘 다 한국 법·세무 같은 로컬 사실에서는 아직 못 미덥습니다. 어느 쪽을 쓰든 한국 실무에 그대로 맡기긴 이르고, 사실을 걸러주는 한 겹이 꼭 붙어야 합니다. 모델을 고를 때 "몇 B냐"보다 "이 일이 한 덩이 계산이냐, 빽빽한 한 화면이냐"를 먼저 물어보세요. 그게 같은 가족 안에서도 정답을 가릅니다.

자세한 벤치마크 결과는 → AXyBench 전체 결과 보기

공유X Threads