한국이 만든 AI가, 한국을 제일 몰랐다
네이버·LG·업스테이지·카카오가 만든 국산 AI에 한국 금융·법률 문제를 물었습니다. 정작 한국을 제일 모르는 건 한국이 만든 AI였습니다. 충격적입니다.

- AXyNow
- AXyBench
- 국산AI
- 하이퍼클로바
- EXAONE
- 예금자보호
프리미엄 AI 매거진 AXyNow, 손상윤입니다.
지난 글에서 한국 돈 문제를 미국과 중국 AI한테 물었더니, SOTA 조차도 예금자보호 한도부터 틀렸습니다. 그래서 이번엔 반대로 가봤어요. "한국 특화"를 내세운 국산 AI라면, 적어도 한국 돈·법은 더 잘 알지 않을까?
네이버 하이퍼클로바X, LG EXAONE, 업스테이지 Solar Pro, 카카오 Kanana. 우리 기업이 "한국에 최적화했다"며 만든 네 모델한테, 똑같은 한국 생활 질문을 던졌습니다.
결과는 좀 뼈아팠습니다. 한국이 만든 AI가, 한국을 제일 몰랐습니다. 그리고 한국을 제일 잘 안 건, 미국이 만든 GPT와 클로드였습니다.
국산 넷, 전부 바닥이었다
먼저 점수부터 보시죠. 주식·부동산·예금·교통사고·생활법률, 한국 사람이 진짜 겪는 다섯 가지를 평균 낸 겁니다.
솔직히 이정도면 한 번 의심해볼 만합니다. "측정을 외산에 유리하게 짠 거 아냐?" 그런데 질문이 예금자보호 한도, 음주 정식재판, 한국 주식 양도세 같은 겁니다. 유리해야 한다면 오히려 한국 특화 모델 쪽이죠. 한국 데이터로 학습했다는데, 한국 질문에서 30점이 뒤집힌 거예요.
못하는 건 '한국어'가 아니다
여기서 흔히 오해합니다. "국산이 작아서 한국어가 어눌한가 보다." 아니에요. 문장은 멀쩡합니다. 셋 다 매끄러운 한국어로 술술 답해요. 문제는 그 매끄러운 문장에 담긴 내용이 틀렸다는 거죠.
한국어를 한다는 것과 한국을 안다는 것은 다른 능력입니다. 앞엣것은 문장의 결이고, 뒤엣것은 사실의 정확성이에요. 국산 모델은 앞은 통과했는데 뒤에서 무너진 겁니다.
틀리는 방향이 하필...
더 따져볼 대목은 어떻게 틀리느냐입니다. 그냥 "모른다"가 아니라, 헷갈리는 순간 자꾸 바깥으로 새요.
| 국산 모델 | 무엇을 물었나 | 무엇이라 답했나 |
|---|---|---|
| EXAONE 4.5 | 예금자보호 한도 (2025년 1억) | 1억은 미국 FDIC와 혼동이라며 5천만 고수 |
| 카나나 2 | 한국 실적쇼크 종목 대응 | 답변이 통째로 중국어로 붕괴 |
| EXAONE 4.5 | 한국 소액주주 주식 양도세 | 미국식 22% 양도세를 한국에 적용 |
| 하이퍼클로바X | 음주 정식재판 청구 | 한국 형사소송법의 형종 상향 금지 누락 |
패턴이 보이시죠. 한국 특화를 내세운 모델이, 정작 막히면 미국 세법으로, 중국어로 새버립니다. "한국에 최적화"라는 간판과 정반대 방향이에요.
왜 이럴까요. 본질은 세 가지라고 봅니다.
- 규모. 국산은 다 32B 안팎의 작은 모델입니다. 미국 프론티어는 그 수십 배예요. 드물고 디테일한 사실(특정 조문, 최근 시행일)을 붙들고 있으려면 결국 덩치가 좌우합니다.
- 최신성. 예금자보호 1억은 2025년 9월에 바뀌었어요. 학습 시점이 그 전이면 옛 값이 남죠. 외산도 여기서 미끄러지지만(지난 글의 제미나이), 국산은 더 심하게, 그리고 옛 값을 '확신'하며 틀립니다.
- 유창성은 사실성이 아니다. 한국어 코퍼스로 학습하면 문장은 매끄러워집니다. 그게 최신 법령·제도를 정확히 안다는 보장은 전혀 아니에요. 두 능력은 따로 큽니다.
- 백지에서 키운 모델로 보긴 어렵다. 카나나 2는 30B 중 3B만 켜는 MoE 구조(이른바 30B-A3B)인데, 이건 카카오가 직접 성능 비교 대상으로 내세운 중국 Qwen3와 같은 체급, 같은 방식입니다. 어디서부터 어떻게 가져왔는지까지는 공개되지 않았지만, 적어도 완전히 처음부터 만든 모델로 보긴 어려워요. 게다가 한국어·영어만이 아니라 중국어를 포함한 여러 언어로 학습됐고요. 그래서 한국 주식처럼 까다로운 질문에서 막히면, 학습에 섞인 중국어 쪽으로 미끄러지는 게 아닐까 싶습니다.
그럼 국산은 버려야 하나?
성급하면 안 됩니다. 여기서 "거봐 국산 쓰지 마ㅋㅋ"로 가면 그것도 틀린 결론이에요.
국산이 맞는 자리가 분명히 있습니다. 민감한 고객·금융 정보를 외부 API에 안 넘기고 내 서버 안에서 돌려야 할 때(데이터 주권), 망분리·규제 대응이 필요할 때, 한국어 특유의 존대·뉘앙스가 중요한 대화일 때. 이런 자리에선 국산이나 소형 온프레미스 모델이 정답입니다. 저희 Commander OS 역시도 온프레미스를 원하시는 고객에게는 고객의 GPU 센터에 맞게 세팅을 해드립니다. 저 역시도 로컬에서 그렇게 쓰죠.
핵심은 "한국산"의 가치를 어디에 두느냐예요. 적어도 지금 이 측정이 말하는 건, 한국산의 강점은 '한국 사실 정확성'이 아니라는 겁니다. 사실 정확성은 국적이 아니라 규모와 최신성이 정하고, 그 줄에선 미국 프론티어가 더 앞서 있어요. 국산은 주권·통제·톤이라는 다른 줄에서 값을 합니다. 두 줄을 섞으면 판단이 꼬입니다.
결론: '한국 AI'를 고를 때
그래서 부탁이 하나 있어요. "Made in Korea"로 고르지 말고, "지금 한국을 아는가"로 고르세요. 만든 나라랑 아는 나라는 다른 문제거든요.
저는 CommanderOS를 굴리면서 이렇게 나눕니다. 한국의 숫자·법·제도가 걸린 판단은 프론티어 모델에 웹 검색과 법령 검색 도구를 붙여서 보냅니다. 국적이 아니라 '지금'을 맞추려고요. 반대로 민감 정보를 다루거나 정형화된 반복 작업은 국산·소형 모델을 온프레미스로 돌리되, 사실이 걸리면 반드시 도구로 한 번 더 받칩니다.
현재 국가대표 AI 경연대회가 한창인데요, 현재 참여중인 모든 모델들은 애초에 지식을 담기보다는 지식을 판단하는 엔진의 기능에 충실하게 구현하려는 것 같습니다. 정보는 시시각각 변하는데, 지식의 정확도로 접근하다보면 끝도 없기 때문이죠.
차라리 웹검색, 파일검색, RAG 시스템, Graph 시스템을 통해 실체적인 정보를 그라운딩하여 이를 '활용'하는 방식을 기본으로 잡고 개발하고 있는 것으로 보여지네요. 저희 Commander OS 역시 그런 시스템입니다.
정리하면 이렇습니다.
- 사실·숫자가 걸린 일이면, 만든 나라보다 최신성을 보세요. 한국어를 잘한다고 한국 제도를 정확히 아는 건 아닙니다.
- 국산을 쓸 거면 사실 검증 도구를 꼭 같이 거세요. 유창한 오답이 가장 위험합니다.
다섯 도메인의 모델별 전체 점수는 AXyBench 전체 결과에서 볼 수 있습니다.