벤치·2026-06-05·10분

재능이 정반대인 두 소형 모델, Gemma 4 12B vs Qwen3.5-9B

구글 Gemma 4 12B와 알리바바 Qwen3.5-9B를 한국 실무 11개 분야와 문서·도표 판독으로 측정했습니다. 결과가 완벽한 데칼코마니입니다. Gemma는 글은 잘 쓰는데 VL이 약하고, Qwen은 차트 판독은 톱티어인데 한국 세무·노무·생활법률만 나오면 무너집니다.

AXyNow
AXyBench
Gemma
Qwen
구글
알리바바
소형모델
모델비교

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

모델 이름 뒤에 붙은 숫자가 작으면 우리는 보통 한 칸에 묶어버리죠. "9B든 12B든, 작은 모델이야 다 고만고만하게 떨어지겠지." 큰 모델의 열화판, 싼 맛에 쓰는 엣지디바이스 전용.

그런데 구글의 Gemma 4 12B와 알리바바의 Qwen3.5-9B를 나란히 놓고 재보니, 둘은 고만고만하긴커녕 정반대 방향으로 잘하고 정반대 방향으로 못했습니다. 한쪽은 똑똑한데 눈이 어둡고, 한쪽은 눈은 밝은데 지식이 부족하네요. 점수표를 위아래로 뒤집으면 서로의 얼굴이 되는, 거의 완벽한 데칼코마니입니다.

둘 다 제가 저희 서버 그래픽카드에 직접 올려서 돌려본 모델입니다. 클라우드 API로 받아쓴 게 아니라, 같은 조건에서 같은 문항을 직접 던지고 답을 읽었어요.

한쪽이 잘하는 자리에서 다른 쪽이 무너진다. 두 소형 모델의 성적표는 포개면 어긋나고, 뒤집으면 맞아떨어지는 거울상이었다.

한국 비즈니스 실무에서는 몇 점일까요. AXyNow가 직접 측정하는 AXyBench로 재봤습니다.

AXyBench 점수는 모델의 "절대 지능"이 아닙니다. 도구도 검색도 없이 한 번 물었을 때, 한국 실무자가 그대로 써도 되는 답을 내는지를 분야별로 잰 순위입니다. 같은 90점이라도 세무의 90과 마케팅의 90은 난도가 다르고, 점수는 분야 안에서의 변별로 읽어야 합니다.

거울상, 숫자로 보기

먼저 전체 그림입니다. 한국 실무 11개 분야 평균과, 문서·도표를 눈으로 읽어내는 판독 점수를 따로 뒀습니다.

영역	Gemma 4 12B	Qwen3.5-9B
한국 실무 텍스트 (11개 평균)	79.7	58.5
세무·회계	80.4	56.0
인사·노무	82.4	44.0
법무·계약	80.4	61.8
마케팅·콘텐츠	82.4	77.0
코드·개발	80.0	72.8
부동산	82.6	56.0
생활 법률	75.6	42.0
문서·도표 판독 (시각자료)	57.0	93.0

평균만 보면 Gemma가 한참 위입니다. 그런데 맨 아랫줄, 차트와 도표를 눈으로 읽는 자리에서 숫자가 통째로 뒤집힙니다. 텍스트 1등이 도표 판독 꼴찌, 텍스트 꼴찌가 도표 판독 1등.

앞쪽 다섯 분야는 텍스트, 맨 오른쪽 하나는 시각자료 판독. 글에서 앞서던 Gemma의 막대가 마지막 칸에서만 무너지고, 거기서 Qwen이 홀로 솟는다. 봉우리가 정확히 엇갈린다.

Gemma 4 12B: 글은 잘 쓰는데, 눈이 어둡습니다

Gemma의 텍스트 성적표는 봉우리 하나가 튀는 게 아니라 전 영역이 고르게 단단합니다. 세무 80, 노무 82, 부동산 82, 생활 법률 75. 한국 지식이 필요한 자리에서 자신 없이 흔들리는 구간이 거의 없어요.

특히 함정 문항에서 강했습니다. 노무 상담에서 월급 320만 원 직원에게 두루누리 사회보험료 지원을 권할 수 있느냐는 문제가 있었는데, 지원 기준이 월 270만 원 미만이라 이 직원은 대상이 아니라는 점을 정확히 걸러냈습니다. 권고사직 문항은 더 인상적이었고요.

노무사 시점. 회사가 권고한 사직이라 실업급여 수급이 가능하다는 점, 피보험단위기간 180일 요건, 그리고 이직확인서의 퇴직 사유 코드가 상실신고서와 일치해야 한다는 실무 디테일까지 짚었습니다. 사유 코드가 어긋나면 근로자가 급여를 못 받고 회사는 허위신고 조사를 받는다는 위험까지 잡았네요? 바로 이 문항에서 Qwen은 정반대로 답합니다.

상속 문항에서도, 2024년 4월 헌법재판소가 형제자매의 유류분 조항을 폐지한 최신 판단을 정확히 반영했습니다. 한국 법령의 결을 따라 읽는 능력이 이 작은 모델 안에 꽤 촘촘하게 들어 있다는 뜻이에요.

문제는 눈, 비전 능력입니다.

글자는 또렷하게 읽는데, 그래프 앞에만 서면 초점이 풀린다. Gemma의 약점은 지식이 아니라 눈금과 기울기를 읽는 것.

차트와 그래프를 읽히자 점수가 57점으로 주저앉았습니다. 측정한 모델 가운데 꼴찌입니다. 흥미로운 건 무너지는 지점이 일정하다는 거예요. 표 형태로 깔끔하게 정렬된 손익계산서 같은 자료는 잘 읽습니다. 중첩된 헤더와 병합된 셀이 있는 재무제표에서 구독 매출 비중과 영업이익률을 정확히 뽑아냈으니까요.

그런데 눈금 사이를 보간하거나, 로그 축에서 점의 위치를 읽거나, 곡선의 기울기를 판단하는 진짜 '그래프 읽기'에서는 손을 놓습니다. 로그 축 그래프에서 6개월 차 사용자 수를 1만 명으로 읽었는데 실제는 3,200명이었고, 막대그래프의 데이터 라벨 하나도 58로 잘못 읽었습니다. 실제 값은 72였죠. 데이터가 아직 들어오지 않아 빈칸으로 둔 자리에는 없는 숫자 22%를 만들어 채워 넣기도 했습니다.

정리하면 Gemma 12B는 글을 또렷하게 읽는 모범생인데, 그림 앞에서는 초점이 풀리는 쪽입니다. 한국 지식이 머릿속에 잘 정리돼 있고 한 번 물으면 차분하게 풀어내는데, 눈으로 들어오는 시각 정보 앞에서만 약해져요.

사실 이건 예견된 일이었습니다. Gemma4 12B는 다른 모델들과 다르게 인코더가 없습니다. 보통 멀티모달 모델들은 별도의 encoder를 둡니다. 그래서 음성, 이미지 등을 인코더를 통해 분해해서 어텐션을 거쳐 LLM이 이해하게 하죠. 그래서 성능은 보장되지만, 12B가 아니라 18~20B 수준으로 필요 파라미터 수가 늘어나게 됩니다.

이번에 구글에서는 다른 E2B, E4B, 26B-A4B, 31B 모델들과 다르게 12B 모델에서는 특별히 인코더를 제외하고 네이티브 멀티모달로 파격적인 시도를 했죠. 그래서 그랬을까요? 아쉽게도 비전 능력에 하자가 발생했습니다. 물론 이걸 알면서도 내놓은 이유는, 구글은 이런 시도를 주저하지 않는 실험정신이 있는 회사이기 때문입니다. (제가 구글을 사랑하는 이유이기도 하죠)

Qwen3.5-9B: 눈썰미는 톱티어인데, 한국 실무는 깜깜합니다

Qwen은 정확히 반대편 끝에 서 있습니다. 문서·도표 판독 93점. 텍스트 성적이 더 좋은 큰 모델들도 자주 헛디디는 문제를 이 9B 모델이 통과합니다.

가장 까다로운 셀이 로그 축 그래프 판독이었거든요? 앞서 Gemma가 "1만 명"이라고 해서 틀린 그 문항에서, Qwen은 "약 3,000명"이라고 로그 축 위치를 정확히 읽었습니다. 다른 여러 모델이 선형 축으로 착각해 5,500쯤으로 틀린 함정을 피해간 거죠. 빽빽한 2단 공학 논문에서 3단계 추론이 필요한 문항도 다섯 개 전부 맞혔고, 문서에 없는 정보를 물으면 지어내지 않고 "자료에 없다"며 거부했습니다. 눈썰미와 환각 저항이 동시에 좋다는 건 작은 모델에서 흔치 않습니다.

시력은 2.0인데, 정작 한국어 법전은 한 번도 펴보지 않은 천재. Qwen의 눈은 톱티어였지만 한국 실무 지식은 비어 있었다.

그런데 한국 실무 텍스트로 넘어오면 같은 모델이 맞나 싶습니다. 평균 58.5. 노무 44, 생활 법률 42로 바닥이 뚫립니다. 단순히 모르는 게 아니라, 모르는 걸 자신 있게 틀린다는 점이 위험해요.

노무사 시점. 앞서 Gemma가 정확히 맞힌 그 권고사직 문항에서, Qwen은 "권고사직은 자발적 이직으로 간주되어 실업급여를 받을 수 없다"고 단정합니다. 사실과 정반대예요. 한술 더 떠 사직서에서 '권고사직'이라는 표현을 빼라고 조언합니다. 그대로 따르면 근로자가 받을 수 있는 실업급여를 스스로 걷어차게 만드는 답변이었습니다.

생활 법률은 더 아슬아슬했습니다. 전세보증금을 떼이지 않으려 임차권등기명령부터 걸어야 하느냐는 질문에, 그건 보증금 반환과 무관하다며 질문의 전제를 정면으로 부정했습니다. 실제로는 이사를 나가도 대항력과 우선변제권을 지키기 위해 반드시 먼저 해야 하는 절차인데도요. 상속 문항에서는 가족 관계 자체를 잘못 읽은 데다, Gemma가 정확히 맞힌 그 헌재 판단을 정반대로 뒤집고 사건번호까지 지어냈습니다.

질문 한 달 전에 실제 출시된 5세대 실손보험을 두고는 "그건 마케팅 용어일 뿐 존재하지 않는다"고 잘라 말하기도 했습니다. 모르는 정보를 모른다고 하는 게 아니라, 없는 일이라고 우기는 쪽이라 더 까다롭습니다. 여기에 한국어 마케팅 카피를 만들다가 본문이 통째로 중국어로 새어 나오는 글리치도 곳곳에서 보였고요.

AXyBench가 알려주는 것

이 비교에서 제가 챙긴 건 점수 두 줄이 아니라, "작은 모델은 다 비슷하다"는 게으른 전제를 버려야 한다는 사실입니다. 9B와 12B, 비슷한 체급의 두 모델이 이렇게까지 다른 방향으로 잘하고 못합니다. 크기가 아니라 무엇에 자원을 몰아넣었느냐가 성격을 결정해요. Qwen은 눈, Gemma는 한국어 지식 쪽에 베팅한 셈입니다.

공통 약점도 하나 있습니다. 둘 다 학습 시점이 2024년에 묶여 있어서, 예금자 보호 한도 1억 원 상향이나 5세대 실손처럼 최근에 바뀐 한국 사실은 놓칩니다. 다만 여기서도 결이 갈려요. Gemma는 "논의는 계속되지만 아직 시행 단계는 아니다"라며 어정쩡하게라도 방향을 인지하는데, Qwen은 그냥 없는 일이라고 단언합니다. 틀릴 때 머뭇거리느냐 자신 있느냐의 차이가 실무에서 매우 중요하죠.

결론: 평균이 아니라 봉우리를 보세요

이번 비교의 교훈은 단순합니다. 모델을 고를 때 평균 점수 한 줄을 보면 안 됩니다. 내가 시킬 그 업무가 그 모델의 봉우리에 있는지 골짜기에 있는지를 봐야 해요. 평균 79.7의 Gemma에게 차트를 던지면 57점짜리 답이 오고, 평균 58.5의 Qwen에게 도표를 맡기면 93점짜리 답이 옵니다. 평균만 보면 안 된다는 것이죠.

판정하자면, 둘 다 파라미터 크기를 고려하면 조건부로 AXy하다고 볼 수 있습니다. 약점 영역을 모른 채 아무거나 던지면 권고사직 조언처럼 사람을 다치게 하는 답이 나오니까요. 하지만 각자의 봉우리만 골라 역할을 나눠 주면, 비전은 Qwen에 텍스트는 Gemma에 맡기는 무료 로컬 조합은 충분히 AXy합니다. 또한, 이정도 사이즈면 Lora를 통한 파인튜닝으로 tool use도 최적화할 수 있을 겁니다. 50인 이하 소기업에서 충분히 자체 온프레미스로 운영 가능한 모델이라고 생각합니다. 작다고 무시할 모델들이 아니라, 쓰는 사람이 봉우리와 골짜기를 알고 배치해야 하는 모델들이라는 사실만 유념한다면 말이죠.

자세한 벤치마크 결과는 → AXyBench 전체 결과 보기

영상으로도 보기

VideoEmbed — src 또는 youtube 필요

공유X Threads