한국 LLM, 세계 몇 등일까? 그 질문이 틀린 이유
한국 직무 벤치 32개 모델을 줄 세우면 한국 1등은 고작 23등입니다. 그런데 이 순위가 재는 '지식 정확성'은, 사실 기본 모델의 가치가 아닐 수도 있습니다.

- AXyNow
- AXyBench
- 국산AI
- 데이터주권
- 온프레미스
- 국가AI
프리미엄 AI 매거진 AXyNow, 손상윤입니다.
댓글로 제일 많이 받는 질문이 이겁니다. "그래서 한국 LLM은 세계 몇 등인데요?" 자존심 걸린 질문이죠. 그래서 이번엔 피하지 않고 정면으로 답해봤습니다. 한국 직무·생활 11개 영역을 종합해 우리가 측정한 32개 모델을 그냥 점수순으로 줄 세운 거예요.
냉정하게 말하면, 한국 최고 모델이 23등이었습니다.
냉정한 순위표
우리 벤치는 한국 세무·법무·노무·주식·부동산처럼 한국 사람이 실제로 겪는 문제를 냅니다. 그러니까 오히려 한국 모델에 유리해야 정상이죠. 그런데도 결과는 이렇습니다.
한국 최고인 EXAONE 4.5가 61.7점으로 우리가 잰 32개 중 23등, 세계 1위(90.6)와는 약 29점 차이입니다. Solar Pro 3가 바로 뒤, 하이퍼클로바X와 카나나 2는 더 아래예요. 미국·중국 프론티어가 위를 거의 다 채웁니다.
여기까지만 보면 "역시 한국은 멀었다"로 끝나죠. 근데 그렇게 닫으면 제일 중요한 걸 놓칩니다. 이 순위표가 정확히 무엇을 재고 있는지를요.
저희 AXyBench 뿐만 아니라 전세계에서 더 공신력있는 Artificial Analysis 벤치마크에서 역시도 격차는 거의 유사합니다.
이 순위가 재는 건 '지식의 양'이다
이 점수는 모델이 머릿속에 한국의 사실(세율, 한도, 조문, 판례)을 얼마나 정확히 담고 있느냐를 잰 겁니다. 그런데 '지식을 많이 담은 모델'이 곧 '좋은 기본 모델'이냐, 저는 여기에 동의하지 않아요.
이유는 학습이라는 방식 자체의 한계에 있습니다.
그래서 모델이 가진 지식의 진짜 가치는 '얼마나 많이 아느냐'가 아니라 '새로운 걸 만났을 때 다룰 줄 아느냐'에 있다고 봅니다. 사람이 똑똑하다는 게 백과사전을 통째로 외운 게 아니라, 처음 보는 정보를 만났을 때 이게 새로운 건지, 믿을 만한 건지 가려내고, 분석하고, 검증하는 감각인 것처럼 말이죠. 모델에 필요한 지식도 바로 그 판단과 검증을 수행하기 위한 지식입니다. 사실 데이터베이스가 아니라요.
'데이터 주권'의 본질
이렇게 보면 요즘 다들 말하는 데이터 주권의 의미도 달라집니다. 핵심은 "한국이 거대한 지식 모델을 갖느냐"가 아니에요. 어떤 지식이든 가져와서, 검증하고, 넣고 빼고 고칠 줄 아는 기본 역량을 우리가 통제하느냐입니다. 지식은 바깥(웹 검색, 사내 문서, RAG, 그래프)에서 그라운딩해 가져오면 됩니다. 모델은 그걸 잘 다루는 엔진이면 되고요.
지난 글에서도 봤듯, 지금 국가대표 AI 경연대회에 나온 모델들도 방향이 비슷합니다. 지식을 더 많이 담기보다, 지식을 판단하고 검증하는 엔진으로 가는 쪽이죠. 정보는 끝없이 변하니, 지식의 양으로 승부 보는 건 애초에 이길 수 없는 게임이거든요.
그래서 한국 모델의 자리는
이 관점에서 보면 61점짜리 한국 모델의 쓸모가 다시 보입니다. 그 점수는 '지식 시험' 점수지, '검증 엔진으로서의 쓸모' 점수가 아니에요. 그리고 현실에서 진짜 필요한 건 후자입니다.
여기에 하드웨어 현실이 붙습니다. 지금은 수천만 원짜리 GPU 한 대로도(예를 들어 96GB 메모리를 얹은 워크스테이션 카드 한 장이 1500만 원대; 2026.06.08 다나와 기준) 웬만한 소규모 조직은 자기 서버 안에서 모델을 돌릴 수 있어요. 조금 더 투자해 GPU 몇 장을 묶으면, 그 조직만을 위한 AX 시스템을 외부에 데이터 한 줄 안 흘리고 세울 수 있습니다. 저도 로컬에선 온프레미스로 운영하고요.
이 그림에서 국산 기본 모델의 역할이 보입니다. 거대한 만능 지식 모델일 필요가 없어요. 각 기업·조직이 자기 지식을 얹어 굴릴 토대, 그 위에 RAG와 검증 시스템을 올릴 단단한 베이스면 됩니다. 그래서 저는, 국가가 추진하는 방향도 결국 '모두를 위한 하나의 천재'가 아니라 각자가 자기 위에 쌓아 올릴 기본 모델을 제공하는 그림에 가깝지 않을까 추정합니다.
결론: '몇 등'이 틀린 질문인 이유
그래서 "한국 LLM 세계 몇 등?"은 당연히 궁금하지만, 이것으로 '쓸모'를 판단하기는 한계가 있습니다. 지식 시험으로 줄 세우면 23등이 맞아요. 하지만 그 시험은 시간이 지나면 누구든 옛 답을 들고 있게 되는, 애초에 끝이 없는 시험이거든요. 진짜 물어야 할 건 새 지식을 검증하고 다룰 엔진으로서 쓸 만한가, 내 조직 안에서 안전하게 굴릴 수 있는가입니다.
그래서 두 가지만 남깁니다.
- 국산 모델을 '지식 시험 등수'로만 평가하지 마세요. 등수가 낮아도, 검증 도구를 붙여 내 데이터 위에서 돌리는 용도라면 충분히 제 몫을 합니다.
- 어떤 모델을 쓰든, 지식은 모델 밖에서 그라운딩하세요. 모델 머릿속 지식은 늙습니다. 검색·문서·RAG로 '지금'을 대주는 시스템이 모델 등수보다 중요합니다.
11개 영역의 모델별 전체 점수는 AXyBench 전체 결과에서 볼 수 있습니다.