분석·2026-06-07·10분

전세·세금·교통사고, AI한테 한국 돈 문제를 물어봤다

GPT·클로드·제미나이에게 한국 사람이 진짜 겪는 돈 질문 5개를 시켰습니다. 종합 1등 AI도 예금자보호 한도부터 자신있게 틀렸습니다.

AXyNow
AXyBench
AI비교
개인의사결정
예금자보호
부동산
세금

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

사람들이 AI한테 제일 많이 묻는 게 뭘까요? "GPT랑 클로드 중에 뭐가 더 똑똑해?" 같은 거죠. 그런데 저는 좀 다른 질문이 더 중요하다고 봅니다. "내 돈 걸린 일에서도 똑똑한가?"

그래서 한국 사람이 살면서 진짜 겪는 돈 걸린 질문 5개를 골라, 지금 종합 순위 SOTA급 TOP 3에게 그대로 시켜봤습니다.

아쉽게도 예금자보호 한도부터 자신있게 틀렸습니다. 영어 시험은 만점이어도 "최근 바뀐 한국 규칙"에선 옛날 답을 당당하게 내놓습니다.

무엇을, 누구한테 물었나

주식(실적 쇼크 난 종목 어떻게 할지), 부동산(첫 집 서울 빌라 vs 경기 신축), 예금·대출(목돈 4억 어디에 나눠 넣을지), 교통사고(고속도로 추돌 났을 때 대응), 생활 법률(음주 약식명령 받았을 때). 이렇게 다섯 가지입니다.

여기에 답할 선수는 지금 종합 점수 1·2·3위인 GPT-5.5 · Claude Opus 4.8 · Gemini 3.1 Pro. 셋 다 똑같은 조건(한 번 질문, 웹 검색 없이, 별도 설정 없이)으로 답하게 했습니다. 사람들이 챗봇 창에 그냥 묻는 그 상황 그대로요.

먼저 다섯 도메인을 합친 평균부터 보면, 셋이 거의 붙어 있습니다. 다 90점 안팎이에요. 여기까지만 보면 "그래, 비싼 1등 아무거나 쓰면 되겠네" 싶죠. 근데 진짜 이야기는 이 평균 안쪽에 있습니다.

주식·부동산·예금·교통사고·생활법률 다섯 도메인을 합친 평균. 셋 다 90점 안팎으로 막상막하다. 문제는 이 평균이 가린 한 칸이다.

충격은 예금자보호에서 터졌다

"현금 4억을 한 곳에 두기 불안한데 어디에 얼마씩 나눠 넣을까요? 예금자보호 한도가 최근 바뀌었다는데 정확히 얼마죠?"

이 질문에서 셋이 갈렸습니다.

"예금자보호 한도가 얼마죠?"

GPT-5.5 · Claude Opus 4.8: 1억 원이라고 답했습니다 (2025년 9월 1일 상향, 1인당·금융회사별 원금+이자 합산). 정답

Gemini 3.1 Pro: 현재 5천만 원이라고 답했습니다. 옛 한도. 헷지 없이 그대로 답하고 다음으로 넘어감

한국의 예금자보호 한도는 2025년 9월 1일부터 5천만 원에서 1억 원으로 올랐다. 같은 질문에 종합 3위 모델이 옛 한도를 "현재"라고 답했다.

'현금 4억을 예금자보호 한도에 맞춰 나눠 넣어라'는 한 문항의 점수. 종합으로는 셋 다 90점 안팎인데, 시점이 걸린 이 한 칸에서 종합 3위 모델이 67점으로 주저앉았다.

패턴: "최근 바뀐 한국 규칙"에서 무너진다

예금자보호만의 일이 아닙니다. 5개 질문을 통과시켜 보니 공통점이 보였어요. 최근 1~2년 사이에 바뀐 한국 제도에서 반복적으로 틀립니다.

음주 운전: 약식명령에 불복해 정식재판을 청구하면 벌금이 더 늘 수 있는지(형종 상향 금지 원칙)
상속: 유류분 중 형제자매 몫에 대한 헌법재판소 결정(2024년)
대출: 스트레스 DSR 단계 적용으로 달라진 한도
전세: 전세보증보험 가입 기준(공시가 대비 비율)

전부 "시점이 핵심인" 한국 고유 규칙입니다. 글로벌 영어 코딩·수학 시험은 만점에 가까운 모델도, 이런 건 학습 시점(cutoff) 이후에 바뀌었으면 옛날 값을 그대로 자신있게 말하기 쉽습니다. 똑똑함의 문제가 아니라 '한국의 지금'을 아느냐의 문제예요.

흥미로운 건, 같은 다섯 도메인에서 셋의 점수가 전부 80~90점대인데도 일관되지 못하다는 겁니다. 종합 1등이 모든 칸에서 1등이 아니에요.

도메인	GPT-5.5	Opus 4.8	Gemini 3.1 Pro
주식	90	89	87
부동산	94	89	89
예금·가계	93	91	85
교통사고	89	90	91
생활 법률	89	89	86

표를 칸칸이 보면, 부동산은 GPT가, 예금은 Opus가, 교통사고는 Gemini가 제일 낫습니다. 종합 1등이 모든 칸에서 1등인 게 아니에요. 점수 차가 1~5점이라 막대로 그리면 다 비슷해 보이지만, '내 일'에 걸리는 그 한 칸에선 이 작은 차이가 답이 맞고 틀리고를 가릅니다.

그래서 '종합 90점'을 그대로 믿으면 안 됩니다

"제일 똑똑한 AI 하나"는 없습니다. 그리고 종합 90점이라는 숫자는 평균이라, 예금자보호처럼 "내 돈이 진짜 걸린 한 칸"이 60점대로 꺼져 있어도 다른 칸들이 메워서 90으로 보입니다.

같은 모델(Gemini 3.1 Pro)의 평균과 한 칸. 평균은 87.7로 멀쩡한데, 정작 내 4억이 걸린 칸은 67이다. 평균만 보면 이 구멍이 안 보인다.

저희가 AI를 한 덩어리 점수로 안 보고 세무·부동산·교통사고처럼 하나씩 쪼개서 재는 이유가 바로 이것이죠. 시청자에게도, 본인에게도 진짜 필요한 답은 "어떤 AI가 제일 세냐"가 아니라 "내 이 일에는 어떤 AI가 맞냐"인 것 아니겠습니까.

결론: AI한테 한국 돈 문제를 물을 때

저는 CommanderOS를 직접 굴리면서, 종합 1등을 모든 일에 꽂지 않아요. 오히려 웹 검색 도구, 법령 검색 도구 등 Tool을 적극적으로 활용할 수 있는 시스템을 구축하고, 가벼운 일엔 작고 싼 모델, 진짜 까다로운 판단만 비싼 모델에 보냅니다. "제일 센 모델"이 아니라 "이 일에 맞는 모델"을 고르는 게 1인 기업한테는 비용이자 정확도 문제라서요.

그래서 여러분께도 두 가지만 부탁드립니다.

최근 바뀐 숫자(한도·세율·금리·기준)는 AI 답을 그대로 믿지 말고 1차 출처로 한 번 더 확인하세요. AI는 '지금'보다 '학습된 과거'를 말할 때가 많거든요.
AI가 단호하게 답한다고 맞는 게 아닙니다. 오히려 가장 단호하게 틀릴 때가 위험합니다.

다섯 도메인의 모델별 전체 점수는 AXyBench 전체 결과에서 볼 수 있습니다.

공유X Threads