분석·2026-05-29·9분

한국어는 하는데, 한국을 모른다. 국산 LLM 4종 실무 벤치마크

LG EXAONE 4.5·4.0, Upstage Solar Pro 3, Kakao Kanana 2를 한국 실무로 직접 재봤다. 한국어는 매끄러운데 한국 제도의 최신 사실에서 무너진다. AXyBench로 본 국산 LLM의 진짜 자리.

AXyNow
국산LLM
EXAONE
Solar
Kanana
AXyBench

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

국산 LLM 얘기가 나올 때마다 깔리는 기대가 있습니다. "한국 회사가 만들었으니 한국어는 더 잘하겠지." "우리 정서, 우리 상식은 미국 모델보다 낫겠지." 마침 최근 몇 주 사이에 LG·Upstage·Kakao가 새 모델을 줄줄이 풀었죠? 그래서 뜨거운 국뽕의 마음을 내려놓고, 차분하게 그냥 한국 실무 책상 위에 올려서 재봤습니다.

측정 대상은 네 개입니다. LG EXAONE 4.5 33B, LG EXAONE 4.0 32B, Upstage Solar Pro 3, Kakao Kanana 2 (Thinking). 모두 같은 조건(시스템 프롬프트 없음, 도구 없음, 웹검색 없음, 단발 호출)으로 한국 비즈니스·개인 의사결정 11개 영역을 테스트 돌렸습니다.

먼저, 어디에 서 있나

결론부터 볼까요?

AXyBench 점수는 모델의 "절대 지능"이 아니라 한국 실무 + 고난도 변별 순위입니다. 일부러 어려운 함정을 깔고, 한국 도메인(세무·법무·가계금융 등)을 무겁게 가중합니다. 그래서 글로벌 영어·코딩 벤치의 명성과 이 점수는 서로 다른 것을 잽니다.

평균은 채점이 끝난 11개 영역(세무·법무·노무·마케팅·코드·문서·주식·부동산·가계금융·차사고·생활법률)의 평균입니다. 같은 조건에서 측정한 전체 모델을 한 줄에 세웠습니다.

AXyBench 11개 영역 평균: 한국 실무 종합. 국산 3강(Solar·EXAONE 4.5·4.0)은 59~61점에 모여 있고, SOTA(GPT-5.5 89.9)와는 약 28점, 주력 중국 오픈소스(GLM·Kimi 71~72)와도 약 10점 차다.

두 가지를 인정하고 시작해야 공정합니다.

첫째, 국산 3강은 한 군집에 몰려있습니다. Solar Pro 3 61.4, EXAONE 4.5 61.2, EXAONE 4.0 59.5로 모두 1점 안쪽에 모여 있어요. 측정 모델 중 하위권입니다. SOTA(Claude Opus 4.8 90.6, GPT-5.5 89.9, Gemini 3.1 Pro 87.7)와는 약 29점, 이 정도면 챌린저랑 플래티넘 티어 차이입니다.

둘째, 더 뼈아픈 건 비교 대상입니다. 같은 오픈소스 진영에서 중국 모델 GLM 5.1(72.3)·Kimi K2.6(71.3)·DeepSeek V4 Flash(73.4) 가 국산 3강보다 10점 이상 위예요. "외산 플래그십이야 그렇다 치고"가 아니라, 누구나 받아서 온프레미스로 돌릴 수 있는 오픈 모델 싸움에서도 뒤처져 있다는 뜻입니다. (다만 중국 소형 모델 Qwen 3.6 36B-A3B 는 58.7로 국산 군집 안에 있으니, "모든 중국 모델보다 아래"는 과장입니다. 주력급에서 밀린다는 게 정확한 표현이에요.)

그리고 Kakao Kanana 2는 46.2로 측정 풀의 최하위권입니다. 이건 뒤에서 따로 다룰 이유가 있습니다.

강한 곳과 무너지는 곳은 정해져 있다

평균만 보면 "그냥 다 못한다"로 읽히지만, 영역별로 쪼개면 윤곽이 또렷합니다.

국산 3강의 영역별 점수. 마케팅·문서·코드 같은 '형식·구조' 업무는 70점대로 받쳐주지만, 세무·노무 같은 '한국 제도' 업무에서는 50점 안팎으로 주저앉는다.

패턴이 보이시나요. 마케팅(70~~74), 문서(67~~75), 코드(59~73)는 70점대로 단단합니다. 카피를 쓰고, 표·슬라이드 구조를 잡고, 코드를 짜는 것들은 형식/구조와 관련된 업무죠. 이건 영어 글로벌 벤치가 이미 잘 길들여 놓은 영역이고, 국산 모델도 여기선 제값을 합니다.

그런데 세무(50~~57), 노무(52~~56)로 가면 50점 언저리로 폭삭 주저앉습니다. 감가상각 한도, 4대보험 요율, 연차 산정 같은 한국 제도의 구체적 숫자와 최신 개정이 걸린 영역입니다. 여기가 무너진다는 건 단순히 "어렵다"가 아니라, 국산 모델의 진짜 해자가 있어야 할 자리에서 오히려 가장 약하다는 뜻이라 뼈아픕니다. 한국어를 매끄럽게 쓴다는 것과, 한국 제도를 정확히 안다는 것은 완전히 다른 능력이거든요.

이게 이번 측정의 한 줄 요약입니다. 국산 LLM은 한국어는 하는데, 한국을 모릅니다. 어디서 그게 드러났는지 세 장면만 보여드리겠습니다.

장면 1: 미국 세금을 한국 주식에 매긴다

주식 영역 첫 질문은 단순합니다. "보유 중인 국내 상장주식을 일부 매도하려는데 세금이 어떻게 되나." 한국 개인투자자에게 상장주식 소액주주의 매매차익은 비과세입니다. 게다가 금융투자소득세(금투세)는 폐지됐죠. 정답은 "양도세 걱정 안 하셔도 됩니다"여야 합니다.

그런데 네 모델 전부가 미국식 양도소득세를 한국 개미에게 매겼습니다. EXAONE 4.5는 "양도세 22%, 1년 미만 보유 시 과세", Solar Pro 3는 "양도세 10%, 보유 1년 미만", EXAONE 4.0은 "보유 1년 이상/미만 룰"을 그대로 적용했어요. 영어 데이터로 학습한 미국 capital gains tax 상식이, 한국 제도 위에 그대로 덧씌워진 겁니다. 금투세 폐지라는 최신 변경은 누구도 반영하지 못했습니다.

개인투자자: "비상금·세금계좌 우선순위 설명은 또렷한데, 상장주식 양도세를 미국식으로 헷갈린다." (EXAONE 4.5에 대한 채점 코멘트)

세무 신고를 이 답변대로 했다가는, 내지 않아도 될 세금을 계산하거나 엉뚱한 신고를 하게 됩니다. 형식은 그럴듯한데 한국 제도 사실이 틀린, 가장 위험한 종류의 오답이죠.

장면 2: '생각을 더 한' 모델이 더 자신 있게 틀린다

가계·금융 영역에서 흥미로운 역설이 나왔습니다. 같은 LG의 형제 모델인데, 추론(thinking)을 켠 신형 EXAONE 4.5가, 추론을 안 하는 구형 EXAONE 4.0보다 최신 사실에서 더 크게 틀렸습니다.

예금자보호 한도. 2025년 9월부터 5,000만 원에서 1억 원으로 올랐습니다. EXAONE 4.0은 "1억으로 상향됐다"고 맞혔어요. 그런데 EXAONE 4.5는 "5,000만 원이 맞고, 1억은 미국 FDIC와 혼동한 오해"라며 정답을 자신 있게 부정했습니다.
연금 세액공제 한도. 통합 900만 원입니다. Solar Pro 3는 정확히 900만 원, EXAONE 4.0도 자릿수는 정상이었는데, EXAONE 4.5는 "IRP+연금저축 합계 1.8억"이라며 한도를 180배 부풀렸습니다.
5세대 실손보험. 2026년 5월 출시됐는데, EXAONE 4.5는 "5세대는 존재하지 않는다, 4세대가 최신"이라 단정했어요. 4.0은 신세대 도입을 인정했고요.

세 번 다 같은 구도입니다. 지식이 컷오프에서 멈춘 건 모든 모델의 숙명이지만, 문제는 모르는 걸 모른다고 안 하고, "그건 네가 잘못 안 거다"라며 정답을 적극적으로 반박했다는 점이에요. 추론을 길게 돌리는 모델이 오히려 자기 오답을 정교하게 합리화한 셈입니다.

금융상담사: "예금자보호 1억 상향을 'FDIC 혼동'이라 부정하고, 세액공제 한도를 1.8억이라 적는다." (EXAONE 4.5)

금융상담사: "1억·900만·스트레스DSR 1.5%p 최신 수치를 다 맞히고, 실손 질문에만 영어로 답이 새어 나온다." (Solar Pro 3 26년 03월 버전)

여기에 thinking 모델 공통의 또 다른 문제가 겹칩니다. 가장 어려운 질문에서 생각의 루프에 빠져 토큰 한도까지 답을 못 내고 멈추는 현상입니다. Kanana 2는 부동산·차사고의 최난도 문항에서 3만 토큰을 추론으로 다 쓰고도 답안을 한 글자도 내지 못했습니다. "더 생각하게 했더니 답을 안 한다"는 건, 실무는커녕 개인 카톡에서도 쓸 수 없는 수준입니다.

장면 3: 답이 한국어를 벗어난다

가장 당혹스러운 장면은 Kanana 2였습니다. 답변 언어 자체가 무너졌습니다. 하!!!

주식 질문에 답변 전체가 중국어(韩国投资者…红利除息日…)
신용점수 질문에 통째로 일본어
음주운전 처벌 질문에 통째로 태국어
차량보험 손익분기 질문에 일본어, 게다가 수리비 200만 원을 "20만 원"으로 10배 오독

한국 회사가 만든 한국어 모델이, 정작 한국어로 묻는데 중국어·일본어·태국어로 답하는 겁니다. 게다가 다른 문항에선 "예금자보호 한도가 1기관당 100만 원"(실제 1억)처럼 핵심 숫자를 100배 단위로 날조했어요. 46.2점이라는 바닥 점수는 이 때문이기도 합니다.

개인투자자: "삼성전자 대응을 통째로 중국어로 답하고, 배당락일을 기준일과 같다고 단정한다." (Kanana 2)

Solar Pro 3도 정도는 약하지만 비슷한 실수가 있었습니다. 까다로운 문항 몇 개에서 "The user writes in Korean, asking…"으로 시작하는 영어 메타추론이 답변에 그대로 새어 나오기도 했습니다. 속으로는 영어로 생각하다가, 한국어로 정리해 내보내는 마지막 단계를 놓친 흔적입니다. 결론 내용은 멀쩡한데 한국어 응답이라는 기본 요구를 못 지킨 거죠.

결론,'한국어'가 아니라 '한국 제도'를 알아야 국산 AI다

정리하겠습니다. 이번 측정의 핵심은 점수 순위가 아니라 약점의 위치입니다.

국산 LLM 4종은 마케팅 카피, 구조화 문서, 코드 초안 같은 형식·구조 업무에서는 70점대로 충분히 쓸 만합니다. 비용 민감한 사내 반복 업무, 1차 초안, 온프레미스 데이터 주권이 필요한 자리라면 후보가 됩니다. 특히 EXAONE 4.5는 "진단서가 있으면 폭행이 아니라 상해죄이고 반의사불벌이 아니다" 같은 고난도 법무 함정을 정확히 통과하는 등, 확실히 선두주자 답게 잘 하는 부분은 분명히 있어요.

문제는 세무·가계금융·생활법률처럼 한국 제도의 최신 사실이 걸린 자리입니다. 여기서 국산 모델은 미국 세금을 한국에 매기고, 바뀐 제도를 "그건 네가 틀렸다"며 부정하고, 최악의 경우 답을 외국어로 내놓습니다. 국산 모델을 쓰는 가장 큰 명분이어야 할 '한국 특화'가, 측정해보니 가장 약한 고리였다는 게 이번 결과의 역설입니다.

그래서 실무 결론은... 국산 LLM에게 한국어 문장을 쓰게 하는 건 괜찮지만, 한국 제도의 사실 판단을 맡길 때는 반드시 최신 자료로 검증하는 레이어를 한 겹 더 두세요. "한국어를 잘한다"는 인상과 "한국을 안다"는 능력은 다릅니다. 진짜 해자는 매끄러운 문장이 아니라, 바뀐 제도를 틀리지 않고 따라잡는 정확성에 있습니다.

자세한 영역별 점수는 → AXyBench 전체 결과 보기

공유X Threads