본문으로 건너뛰기
AXyNowAX IS NOW
분석·2026-06-29·16

[국가별 AI] 세계 2위 Made In China AI Models

메이드인 차이나는 더이상 가성비란 뜻이 아닙니다. 중국 6대 AI 모델의 성능을 리뷰했는데요, 미국 SOTA 모델들 턱 밑까지 추격했습니다.

[국가별 AI] 세계 2위 Made In China AI Models
  • AXyNow
  • 국가별AI
  • 중국AI
  • GLM
  • DeepSeek
  • Seed

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

국가별 AI 모델을 리뷰하는 시간입니다. 나라별로 지금 AI 모델 근황이 어떤지 한 편씩 정리하는 코너고요. 첫 회는 요즘 제일 시끄러운 중국편입니다. "중국 AI가 미국 이겼다"는 말, 여기저기서 들리죠. 수치로 한번 들어가봅니다.

한 줄. 중국 최강 모델도 글로벌 점수로는 아직 미국 프런티어 한 끗 아래입니다. 진짜 위협은 추월이 아니라 가격이고요. 같은 일을 7분의 1에서 25분의 1 값에 합니다. 그리고 소문만 무성한 한 모델(seed 2.1 pro)은, 중국 서버에만 있어서 우리가 잴 수조차 없습니다.


1. 선수 소개: 중국 6대 모델

먼저 누가 누군지 짧게 보겠습니다. 살펴 볼 중국 모델은 여섯입니다.

  • GLM 5.2 · Z.ai(즈푸)가 만든 오픈웨이트 모델. 라이선스가 MIT라 회사가 가져다 써도 부담이 적습니다. 이번 비교에서 중국산 1등입니다.
  • Qwen 3.7 Max · 알리바바 플래그십. 여섯 중 유일하게 폐쇄형이고 값도 제일 셉니다.
  • MiniMax M3 · 미니맥스. 오픈웨이트인데 값이 압도적으로 쌉니다.
  • DeepSeek V4 Pro · 그 유명한 딥시크. 오픈웨이트 가성비 카드.
  • MiMo v2.5 Pro · 샤오미가 만든 효율형 모델. 토큰을 덜 쓰고 같은 일을 한다는 게 셀링포인트입니다.
  • Kimi K2.7 Code · 문샷의 코드 특화 모델.
중국 6대 AI 모델 라인업과 AA 인덱스: GLM 5.2 51.1, Qwen 3.7 Max 46.0, MiniMax M3 44.4, DeepSeek V4 Pro 44.3, MiMo v2.5 Pro 42.2, Kimi K2.7 Code 41.9
이번에 똑같은 기준(AA 인텔리전스 인덱스 v4.1)으로 비교한 중국 6대 모델. 점수는 바로 뒤에서 자세히 봅니다.

2. "미국 이겼다"는 진짜일까

말로 하면 끝이 안 나니 숫자를 봅니다. 아래는 AA(아티피셜 애널리시스)가 매기는 인텔리전스 인덱스입니다. 모델의 종합 지능을 한 점수로 보여주는 글로벌 표준 지표예요. 중요한 건 이번에 모은 값이 전부 같은 버전(v4.1), 같은 날 받은 거라 나란히 비교해도 안전하다는 점입니다.

AA 인텔리전스 인덱스 v4.1. 2026년 6월 29일 같은 시점 수치. 위 4칸 중 셋이 미국·구글 모델이고, 중국산 1위 GLM 5.2가 4등으로 끼어든 그림.

보시면 중국산 1등 GLM 5.2가 51.1점입니다. 분명 잘합니다. 그런데 그 위가 전부 미국과 구글이에요. GPT-5.5가 54.8, 앤트로픽 Opus 4.8이 55.7, 제일 센 Fable 5가 59.9. 심지어 구글의 가벼운 모델인 제미나이 3.5 플래시(50.2)와도 턱밑 차이입니다.

그럼 "중국이 90점 넘겼다, 미국 제쳤다" 같은 말은 뭐냐. 두 가지 착시입니다. 하나는 벤더가 자기 모델 발표할 때 내놓는 자체 점수고요. 또 하나는 옛날 시험 점수입니다. AA가 올해 시험을 확 더 어렵게 갈았거든요. 옛 버전은 점수가 후하게 나왔는데, 그 후한 점수와 지금의 빡센 점수를 섞어 놓고 "추월"이라 부르는 겁니다. 똑같은 기준으로 비교하면, 중국 최강도 아직 한 칸 아래입니다.

3. 진짜 무기는 점수가 아니라 가격

자 그럼 중국 모델이 별거 아니냐. 절대 아닙니다. 진짜 무서운 건 점수 옆에 붙은 가격표예요.

출력 100만 토큰당 단가(달러). 같은 일을 시켰을 때 Fable 5는 50달러, GPT-5.5는 30달러인데, GLM 5.2는 4.4달러, MiniMax M3는 1.2달러.

출력 100만 토큰 기준으로 Fable 5는 50달러, GPT-5.5는 30달러입니다. 같은 일을 GLM 5.2한테 시키면 4.4달러, 그러니까 7분의 1이고요. MiniMax M3는 1.2달러, 무려 25분의 1입니다. 심지어 딥시크의 가벼운 플래시 모델은 출력 0.28달러까지 내려갑니다. Fable 5로 치면 거의 100분의 1이에요. 점수는 한 칸 아래인데 값은 자릿수가 다릅니다.

이게 한국 기업한테 진짜 위협인 지점입니다. 최상급 1점을 더 받자고 25배를 더 낼 회사가 몇이나 될까요. 고객 상담 수천 건, 문서 정리 수만 건처럼 대량으로 돌리는 일이라면, 90점짜리 비싼 모델보다 85점짜리 싼 모델이 훨씬 합리적입니다. 중국의 카드는 "우리가 제일 똑똑하다"가 아니라 "거의 비슷한데 훨씬 싸다"예요. 그게 더 무섭습니다.

4. 근데도 SOTA는 아직 아니네요?

SOTA와의 차이는 구체적으로 어디서 날까요. 시험 과목을 쪼개 보면 재밌습니다.

먼저 GPQA라는 시험이 있습니다. 대학원 수준 과학 지식을 묻는 단답형인데, 여기선 중국 모델도 88점에서 93점 사이로 미국 프런티어와 거의 동률입니다. 즉 외워서 답하는 지식 단답은 이미 따라잡았어요. 이 영역은 변별이 거의 안 됩니다.

진짜 격차는 다른 데서 납니다. 아래는 타우2 뱅킹이라는 시험인데, 은행 업무를 주고 여러 번 주고받으며 도구를 직접 써서 일을 끝내게 하는, 실무에 제일 가까운 평가입니다.

타우2 뱅킹. 여러 턴을 주고받으며 도구를 써서 실무를 끝내는 능력. 단답 시험과 달리 여기선 격차가 크게 벌어진다.

GPT-5.5가 31.3점인데, 중국 모델은 위로 GLM과 딥시크가 25점대로 그나마 붙고, 알리바바 Qwen(10.9)이나 샤오미 MiMo(8.7)는 한참 아래로 떨어집니다. 외워서 답하는 단답은 따라잡았는데, 여러 번 생각하고 도구를 직접 굴려야 하는 진짜 일을 시키면 아직 손이 빠지는 거죠. 한마디로 시험은 잘 보는데 일은 아직, 입니다.

5. 정체가 불분명한 친구, 바이트댄스 Seed 2.1 Pro

요즘 중국에서 제일 시끄러운 모델 하나가 이 표에 없습니다. 바이트댄스(틱톡 모회사)의 Seed 2.1 Pro인데요. 6월 23일에 발표했고, 품질 좋다는 소문이 자자합니다.

Seed 2.1 Pro 측정 불가 상태: AA 미등재, 글로벌 오픈라우터 미제공, 중국 화산엔진 전용
Seed 2.1 Pro는 AA에도 오픈라우터에도 없고, 중국 화산엔진에서만 돌아갑니다. 같은 조건으로 줄 세울 방법이 없습니다.

문제는 못 잰다는 겁니다. AA에도 없고, 우리가 흔히 쓰는 오픈라우터에도 안 풀렸어요. 오직 중국 화산엔진 서버에서만 돌아갑니다. 그러니 우리가 같은 조건으로 줄 세울 방법이 없습니다.

있는 건 바이트댄스가 자기 입으로 발표한 점수뿐입니다. 과학 코딩 시험에서 GPT를 넘었다고 주장하고요. 그런데 여기에 함정이 있습니다. 자기들이 잰 GPT 점수가, 우리가 같은 시험으로 잰 GPT 점수와 10점이나 차이 납니다. 시험 이름은 같은데 채점 방식이 다른 거예요. 자기 시험장에서 자기가 매긴 점수라, 남의 점수표와 그대로 비교할 수가 없습니다. 그나마 사람들이 블라인드로 직접 비교 투표하는 아레나에선 오푸스 4.6 바로 아래까지 올라와 있긴 합니다. 벤더가 자기 입으로 매긴 점수보다는 이쪽이 믿을 만하고요. 그래도 우리가 직접 돌려서 한국 실무까지 확인할 길은 여전히 막혀 있습니다.

결론: 중국은 가성비, 그리고 다음은 한국편

정리하면 이렇습니다. 중국 AI는 글로벌 추론 점수로는 아직 미국 SOTA 바로 아래입니다. 대신 가격이 어마어마하게 쌉니다. 미국 기업들도 딥시크 활용하는 업체 굉장히 많을 정도죠. 단답 지식은 따라잡았지만, 도구 쓰고 여러 번 주고받는 실무에선 격차가 남아 있고요. 제일 센 소문의 주인공은 아예 검증 바깥에 있습니다. "추월"이라는 단어보다, "가성비로 치고 들어온다"가 지금 중국을 더 정확히 설명합니다.

그런데 여기 점수들, 전부 글로벌 영어 추론 기준이라는 걸 기억해야 합니다. 한국 세무, 노무, 계약 실무에서 이 모델들이 진짜 쓸 만한지는 AA가 못 잽니다. 그건 제가 AXyBench로 직접 재야 나오고요. 이미 GLM 5.2와 MiniMax M3는 한국 실무로 재봤는데, 글로벌 점수와는 또 다른 그림이 나왔습니다(그 둘은 따로 다룬 글이 있습니다). 나머지 모델도 풀리는 대로 직접 잴 생각입니다.

다음 편 국가별 AI는 한국편입니다. 우리 국가대표 모델들은 같은 기준으로 비교하면 어디쯤 서는지, 그리고 한국 실무에선 또 어떤 그림이 나오는지 가져오겠습니다.

영상으로도 보기

VideoEmbed — src 또는 youtube 필요
공유XThreads