분석·2026-06-18·12분

한 달 만에 11점 오른 GLM 5.2, 5.1에서 무엇이 바뀌었나

오픈웨이트 1위로 올라선 GLM 5.2. 크기는 5.1과 똑같은데 AA 지능지수는 11점 올랐습니다. 과학적 추론과 토큰 효율성에서 큰 향상폭을 보였네요.

AXyBench
GLM 5.2
모델조명
효율
세무
노무
마케팅

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

실어나르지 않고 직접 굴려보는 저희 스타일, 다들 아실 겁니다. 이번엔 한 달 사이에 버전이 한 칸 올라간 모델을 잡았습니다. 중국 Z.ai의 GLM 5.2. 5.1이 나온 지 한 달 만에 5.2가 나왔는데, 여러모로 분석할게 많아서 간만에 즐거웠네요.

GLM 5.2는 5.1을 '더 크게' 만든 게 아니라 '더 영리하게' 만든 모델입니다. 외부 지능 저울에선 11점이 뛰었고, 한국 세무·노무·마케팅에선 점수가 오르면서 동시에 답을 만드는 데 쓰는 토큰이 4분의 1 줄었습니다. 빨라지고, 가벼워지고, 똑똑해졌습니다.

1. 같은 덩치, 다른 머리

GLM 5.2는 총 744B 파라미터 중 40B만 활성화되는 MoE 구조입니다. 정확히는 Z.ai가 공식 스펙으로 파라미터 수를 밝히지 않았고, 외부 측정 기관 Artificial Analysis가 744B(활성 40B)로 집계했습니다. 일부 보도는 753B로 적었는데, 어느 쪽이든 핵심은 같습니다. 5.1과 크기가 동일하다는 것. 라이선스는 MIT 오픈웨이트라 가중치를 그대로 받아 쓸 수 있고, 컨텍스트는 5.1의 20만 토큰에서 100만 토큰으로 다섯 배 늘었습니다.

가격은 입력 100만 토큰당 1.4달러, 출력 4.4달러. 이건 5.1과 완전히 동일합니다. 흔히 신버전이 나오면 값이 오르거나, 반대로 '더 싸졌다'고 홍보하는데, GLM 5.2는 가격이 그대로네요. 참고로 이 단가는 GPT-5.5의 약 6분의 1 수준입니다.

2. Z.ai가 말하는 "달라진 점"

먼저 만든 쪽 주장부터 봅니다. Z.ai가 내세운 건 거의 전부 장기 코딩입니다.

SWE-bench Pro: 58.4에서 62.1로. 이 점수로 GPT-5.5(58.6)를 넘겼습니다.
Terminal-Bench 2.1: 81.0. 공개 가중치 모델 중 1위.
FrontierSWE(긴 호흡의 작업 완수 측정): 74.4%로 GPT-5.5(72.6)를 앞서고, Claude Opus 4.8(75.1) 턱밑까지 붙었습니다.

Z.ai 본인들의 설명이 흥미롭습니다. 이 향상이 파라미터를 키워서가 아니라 학습 데이터, 컨텍스트 처리 방식, 그리고 'thinking(사고)' 프레임워크에서 나왔다고 밝혔습니다. 특히 사고량을 High와 Max로 조절하는 단계를 새로 넣었다고 합니다. 모델이 문제를 만나면 얼마나 깊이 생각할지를 스스로 또는 사용자가 조절한다는 거죠. 이 대목, 뒤에서 다시 나옵니다.

3. 벤치마크로 검증된 성능 향상

만든 쪽 자랑은 늘 후하게 들립니다. 그래서 독립 측정 기관 Artificial Analysis(AA)의 종합 지능지수를 봅니다.

Artificial Analysis Intelligence Index v4.1. GLM 5.2는 51점으로 공개 가중치 모델 1위, 전체 모델 중에서도 4위에 올랐다.

40점에서 51점, 한 달 만에 11점입니다. 이 점수로 GLM 5.2는 공개 가중치 모델 1위, 전체 순위로도 4위에 올라섰습니다. 코딩만 오른 게 아닙니다. 세부 항목을 보면 향상의 폭이 더 분명합니다.

AA 세부 항목	5.1에서 5.2	성격
CritPt (과학 추론)	5에서 21로 (+16)	어려운 추론
HLE	28에서 40으로 (+12)	고난도 종합
tau3 (뱅킹 업무)	12에서 27로 (+15)	업무 시뮬
AA-LCR (긴 글 추론)	62에서 71로 (+9)	롱컨텍스트
GPQA Diamond	86에서 89로 (+3)	대학원 과학

향상이 가장 큰 칸이 전부 어려운 추론 쪽이라는 점을 기억해 두시기 바랍니다. 쉬운 칸(GPQA Diamond)은 이미 높아서 3점밖에 못 올랐고, 어려운 칸일수록 두 자릿수로 뛰었습니다.

그리고 AA 측정에서 한 가지 더. GLM 5.2는 같은 문제를 풀 때 토큰을 더 씁니다. 태스크당 평균 출력이 5.1의 2만 6천 토큰에서 5.2의 4만 3천 토큰으로 늘었습니다(그중 3만 7천이 사고 토큰). 더 깊이 생각하느라 말이 길어진 겁니다. 이게 왜 중요한지는 우리 측정과 정반대라서 그렇습니다.

4. 그래서 한국 실무는? 직접 굴려봤다

AA 지능지수는 글로벌 추론 능력입니다. 제가 보는 건 다릅니다. 한국 세무사, 노무사, 마케터의 책상에서 이 모델이 통하느냐. 똑같은 조건(시스템 프롬프트 없음, 도구 없음, 사고량 중간 단계 고정)으로 5.1과 5.2를 한국 실무 세 영역에서 테스트를 진행했죠.

직무 영역	GLM 5.1	GLM 5.2	변화
세무·회계	62.4	72.2	+9.8
인사·노무	71.6	78.2	+6.6
마케팅·콘텐츠	83.8	85.8	+2.0

세 영역 모두 꽤나 유의미한 향상폭이 있었어요. 이미 강하던 마케팅(+2.0)보다 약하던 세무(+9.8)에서 더 크게 올랐습니다. AA에서 본 패턴(어려운 칸일수록 크게 향상)이 한국 실무에서도 그대로 반복됩니다. 거대 모델이 한 세대 올라갈 때, 잘하던 걸 더 잘하기보다 못하던 구멍을 메우는 쪽으로 큰다는 신호입니다.

진짜 흥미로운 건 여기부터입니다. 이상하게, 저희 AXyBench에서는 비용은 거꾸로 내려갔습니다.

같은 15개 문항, 5.1에서 5.2로

답 한 번에 쓰는 출력 토큰 · 평균 5,184에서 3,871로. 약 25퍼센트 감소, 15개 문항 전부 줄었습니다

한 문항 답하는 시간 · 117초에서 80초로. 약 31퍼센트 단축

한 번 묻는 실비 · 0.021달러에서 0.017달러로. 단가는 동일, 토큰을 덜 써서 싸진 것

단가표는 그대로. 같은 답을 더 짧게 내놓으니 실비와 시간이 함께 내려갔다.

오해 없으시길 바랍니다. GLM 5.2가 5.1보다 단가가 싼 게 아닙니다. 토큰당 가격은 똑같습니다. 다만 같은 질문에 더 짧고 빠르게 답하니, 실제로 한 번 굴리는 데 드는 돈과 시간이 줄어든 겁니다. 하루에 수백 수천 번 반복되는 업무라면 이 차이가 통째로 비용으로 돌아옵니다. 1인 사장 입장에선 천편일률적인 단가표보다 이 '실비'가 더 중요하죠.

5. Adaptive Thinking의 성공적인 구현

여기서 3번과 4번이 정면으로 부딪칩니다. AA 측정에선 토큰이 65퍼센트 늘었는데(2.6만에서 4.3만), 한국 실무 측정에선 25퍼센트 줄었습니다(5,184에서 3,871). 같은 모델이 한쪽에선 말이 길어지고 한쪽에선 짧아진다. 모순처럼 보이지만, 사실 이게 GLM 5.2의 정체를 가장 잘 보여줍니다.

AA의 문제들은 frontier 과학과 수학, 긴 호흡의 추론입니다. 어려우니까 더 생각합니다. 반면 한국 세무 신고나 주휴수당 계산은 정답이 정해진 지식 인출형입니다. 어렵지 않으니 덜 생각합니다. Z.ai가 2번에서 자랑한 '사고량 조절 단계', 그게 마케팅 문구가 아니라 실제로 작동한다는 걸 두 측정이 교차로 증명한 셈입니다. 문제 난이도에 맞춰 비용을 쓴다. 어려운 문제엔 아낌없이, 쉬운 문제엔 인색하게. 무조건 빠른 게 아니라, 빨라야 하는 분야에서만 빠릅니다.

이게 한 세대 모델 진화에서 제일 보기 좋은 그림입니다. 점수만 오르고 비용이 같이 오르면 '돈으로 산 향상'이고, 점수는 그대로인데 싸지면 '효율 튜닝'입니다. GLM 5.2는 점수가 오르면서 한국 실무에선 비용까지 내려간, 두 마리를 다 잡은 경우입니다.

물론 만능은 아닙니다. 세무·회계가 9.8점이나 올랐어도 아직 70점대고, 법인세율 같은 한국 전문가 영역의 함정은 여전히 밟습니다. 오픈웨이트라 API로 쓰면 데이터가 중국 서버를 지난다는 점도 업무 도입 전 따져야 할 부분이고요. 그래도 '크기를 안 키우고 머리만 바꿔서 여기까지 왔다'는 사실은, 다음 세대 한국형 모델들이 어디를 손봐야 하는지 분명하게 가리킵니다. 파라미터 경쟁이 아니라, 난이도에 비용을 맞추는 영리함이라는 것을요.

공유X Threads