분석·2026-06-04·9분

GLM-5.1, Kimi-k2.6, 코딩은 잘하지만 그 외엔 실망스러워

글로벌 오픈웨이트 최상위권인 GLM-5.1과 Kimi K2.6가, AXyBench 한국 실무에선 18·20위 수준입니다. 세무·금융·생활법률 쪽에선 더욱 형편이 없습니다. Anthropic의 증류 주장과 함께 그 이유를 분석해봤습니다.

AXyNow
GLM
Kimi
중국 LLM
증류
에이전트
AXyBench

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

벤치 점수가 높으면 일도 잘하겠지. 우리는 보통 이렇게 믿습니다. 글로벌 리더보드 상단에 박힌 모델이면 한국 사무실에 데려와도 똑똑할 거라고요. 특히 글로벌 벤치 상위권 모델이라면 더더욱 그렇겠죠.

그런데 중국산 두 모델, GLM-5.1과 Kimi K2.6를 한국 실무로 직접 검사해보니 그 믿음이 깨졌습니다. 벤치마크라는 것이 그렇습니다. 이 둘은 글로벌 오픈웨이트 최상위권인데, 한국 비즈니스 실무 종합에서는 18위와 20위로 주저앉았거든요. 같은 모델인데 어떻게 한 곳에선 세계 상위권이고 다른 곳에선 바닥일까요. 오늘은 이 두 얼굴이 왜 생기는지를 우리 데이터와 공개된 정황으로 짚어보려고 합니다.

Artificial Analysis 벤치마크에선 잘했는데

먼저 글로벌 쪽 성적표를 봅시다. 가장 권위 있는 외부 집계인 Artificial Analysis의 종합지능 지수에서 Kimi K2.6는 오픈웨이트 모델 중 1위, GLM-5.1도 바로 그 옆자리입니다. 닫힌 프런티어인 Claude·GPT를 바짝 쫓는, 세계가 인정하는 오픈 모델이라는 거죠.

모델	AA 종합지능	AXyBench 한국 실무 종합
GLM-5.1	51.4	72.3 (18위)
Kimi K2.6	53.9 (오픈웨이트 1위)	71.3 (20위)
(참고) Claude Opus 4.7	57.3	89.7 (3위)
(참고) GPT-5.5	60.2	89.9 (2위)

출처: Artificial Analysis 종합지능 지수(조회 2026-05-15) + AXyBench(2026-06).

코딩은 멀쩡합니다. 무너지는 건 '한국 비즈니스 팩트'

여기서 많은 분들이 이렇게 짐작할 겁니다. "에이전트랑 코딩에 특화된 모델이니까 코딩 빼고 다 못하나 보다." 저도 처음엔 그렇게 의심했는데, 카테고리를 까보니 정반대였습니다.

코딩·문서·마케팅은 80점대로 멀쩡하다. 무너지는 건 세무·금융·생활법률, 즉 '한국 제도 사실'을 묻는 카테고리다.

보시는 대로 코딩은 둘 다 80점으로 멀쩡합니다. 문서 정리도, 마케팅 카피도 80점대예요. 정작 바닥을 친 건 세무(62점, 55점), 금융·가계(56점, 52점), 생활법률(61점, 50점)입니다. 하나같이 한국의 세법·금융제도·생활법규처럼 "확실하게 정해진 사실을 알고 있느냐"를 묻는 카테고리예요.

그러니까 이 모델들이 못하는 건 '코딩'이 아니라 '한국'입니다. 한국어 문장은 그럴듯하게 뽑아내는데, 한국의 부가세 면세 항목이나 임차권등기, 반의사불벌죄의 경계 같은 제도 지식 앞에서 자신 있게 틀린 답을 내놓습니다. 머리는 좋은데 한국 교과서를 안 읽고 온 교환학생 같달까요.

학습한 코퍼스에 한국이 없다

여기서 한 가지 정황을 짚고 가야 합니다. 조심스러운 영역이라 사실관계는 보도된 것만, 출처와 함께 옮기겠습니다.

올해 2월, Anthropic은 여러 중국 AI 랩이 가짜 계정 약 2만 4천 개를 동원해 Claude를 대규모로 긁어 자사 모델 학습에 썼다고 주장했습니다(TechCrunch·NBC News·SCMP 보도). 특히 Moonshot(Kimi 제작사)에 대해서는 약 340만 건의 대화를 "에이전트 추론, 도구 사용, 코딩, 데이터 분석, 컴퓨터 조작"에 집중해 추출했고, 나중엔 Claude의 사고 흔적까지 재구성하려 했다고 적시했습니다. GLM 쪽도 결이 비슷합니다. 지난해 12월 MIT 연구진은 GLM 계열이 특정 방식으로 물으면 자기를 "Claude, Anthropic이 만든"이라고 절반쯤 답한다고 기록했고, 증류(distillation) 정황으로 해석했습니다.

물론 반론도 있습니다. Moonshot은 "사전학습에 인터넷 코딩 데이터를 많이 넣었더니 거기에 'Claude'라는 토큰이 자주 붙어 있었을 뿐"이라고 반박했고, Zhipu(GLM)는 확인도 부인도 하지 않았습니다. 증류는 업계 전반의 회색지대라는 게 중론이고요. 그러니 여기서 "베꼈다"고 단정하진 않겠습니다. 그치만 핵심은 의도가 아니라 결과의 모양입니다.

만약 누군가의 학습 재료가 에이전트·도구사용·코딩 대화에 쏠려 있다면, 그 능력은 프런티어 모델 수준으로 빨아들이겠죠. 글로벌 코딩 벤치에서 이들이 보여준 그대로요. 하지만 그 코퍼스 어디에도 한국 양도소득세율이나 예금자보호 한도 같은 건 들어있지 않습니다. 강한 곳과 약한 곳의 모양이, 학습 재료가 어디에 쏠렸는지를 그대로 닮아 있다는 겁니다. 코딩은 글로벌급, 한국 제도는 백지. 우연이라기엔 너무 일관됩니다.

왜 이렇게 갈릴까 (2): 에이전트는 '여러 번', 우리는 '한 번'

두 번째 이유는 측정 방식 자체에 있습니다. 그리고 이건 제가 직접 겪은 얘기예요.

제가 운영하는 CommanderOS에서 저는 작업 종류에 따라 모델을 다르게 씁니다. 코드를 짜고 테스트를 돌려보고 에러를 보고 다시 고치는, 도구를 여러 번 호출하며 굴러가는 일이라면 이런 에이전트형 모델이 정말 빛납니다. 한 번 틀려도 다음 턴에 만회할 기회가 계속 주어지니까요. 글로벌 에이전트 벤치의 높은 점수는 바로 이 "여러 번 시도하는 작업대(하네스)" 위에서 나옵니다.

그런데 AXyBench는 정반대 조건입니다. 시스템 프롬프트도, 도구도, 멀티턴도 다 끄고 1~3회 물어서 나온 답으로 채점합니다. "이 거래가 부가세 면세 대상이냐"를 한 방에 묻는 거예요. 작업대가 받쳐주지 않으니 모델이 가진 지식의 민낯이 그대로 드러납니다. 에이전트로서 도구를 잘 쓰는 재주와, 1~3회의 실제 업무 챗봇 스타일에서 한국 제도를 정확히 아는 능력은 완전히 다른 영역이라는 거죠.

검색과 계산기를 손에 쥐여주면 시험 잘 보는 학생과, 아무것도 없이 구술시험을 잘 보는 학생은 다른 사람인 것처럼 말이죠. 글로벌 에이전트 벤치는 전자를 재고, AXyBench는 후자를 잽니다. 한국 사무실에서 직원에게 "이거 면세야 아니야"를 물을 때 우리가 기대하는 건 후자고요.

결론: 글로벌 코딩 에이전트 성능과 실제 한국 비즈니스 실무는 다른 평가 기준이 필요

음, 사실 GLM-5.1과 Kimi K2.6는 매우 좋은 모델입니다. 에이전트 작업대 위에서 도구를 여러 번 굴리는 일이라면 Claude·GPT와 겨룰 만한, 그것도 입력 100만 토큰당 3~5달러 안팎의 싼값에 겨루는 무서운 모델입니다. 심지어 코딩 IDE로 유명한 Cursor에서도 자사의 코딩 전용 모델인 Composer 의 baseline을 kimi k2.5, k2.6으로 잡고 파인튜닝과 강화학습을 했었죠.

하지만 한국 직원에게 한 번 물어 바로 믿을 답을 받는 용도라면, 이 둘은 아직 AXy하지 않습니다. 세무·금융·생활법률에서 50점대를 자신 있게 내놓는 모델을 검수 없이 한국 실무에 앉힐 수는 없으니까요.

벤치마크는 자기가 보도록 만들어진 것만 봅니다. 에이전트 벤치는 작업대 위의 재능을 보고, AXyBench는 한 번 물었을 때의 한국 사실성을 봅니다. 어느 쪽이 당신의 일에 맞는지를 아는 것. 그게 점수표 한 줄보다 훨씬 중요합니다.

자세한 벤치마크 결과는 → AXyBench 전체 결과 보기

공유X Threads