분석·2026-07-01·16분

GPU 1황이 왜 AI모델은 실망스럽지? NVIDIA Nemotron 3 Ultra

엔비디아가 직접 만든 550B 모델 Nemotron 3 Ultra를 한국 세무, 노무, 법률, 투자로 테스트했습니다. 코드와 구조는 프론티어급인데, 생각보다 별로예요.

AXyNow
AXyBench
NVIDIA
Nemotron
모델조명
환각
세무
노무

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

지난 글에서는 미국이 SOTA AI들을 국가안보 명목으로 걸어 잠그면서, 한국 사람은 성능 좋은 모델을 쓰고 싶어도 못 쓰는 상황을 다뤘습니다. 그런데 반대로 물어보죠. 막히지 않은, 지금 누구나 열어서 쓸 수 있는 미국 모델은 한국에서 안전할까요?

그래서 이번엔 엔비디아가 직접 만든 550B짜리 모델 Nemotron 3 Ultra를 AXyBench에 앉혀 봤습니다. GPU를 팔아 세계에서 제일 비싼 회사가 된 그 엔비디아가, 자기 칩 위에서 돌리라고 손수 만든 모델입니다. 결과는 어떨까요? 생각보다 별로입니다.

이력서 한번 탈탈 털어보겠습니다.

1. GPU 파는 회사가 만든 AI

Nemotron 3 Ultra는 총 550B 파라미터 중에 토큰마다 55B만 켜서 쓰는 대형 MoE 모델입니다. 텍스트 전용이라 이미지는 못 읽고요. 특이한 건 엔비디아가 오픈 웨이트 계열로 풀었고, 돌리는 값도 싼 편이라는 점입니다. 백만 토큰 입력에 0.5달러, 출력에 2.5달러. 프론티어 상용 모델의 몇 분의 일 수준이에요.

이 조합이 사람을 헷갈리게 합니다. 삽 파는 회사가 광산까지 직접 파겠다고 내려왔는데, 심지어 삯도 싸니까요. 그래서 성적표를 받아 들고 저는 잠깐 멈칫했습니다. 한 모델 안에서 지능 편차가 이렇게까지 벌어지는 경우는 흔치 않거든요.

Nemotron 3 Ultra의 AXyBench 분야별 점수(100점 만점). 코드, 문서, 마케팅 같은 구조와 추론 영역은 80점을 넘기며 프론티어급에 붙지만, 한국 생활법률과 가계금융으로 내려갈수록 무너집니다. 제일 낮은 가계금융은 54.0점.

같은 뇌인데 왼쪽 절반은 스탠퍼드 공대생이고 오른쪽 절반은 위조 서류로 사기 치는 사기꾼(wow)입니다. 분야별로 정리하면 이렇습니다.

AXyBench 실측 채점표

분야	점수	판정	대표 근거
마케팅 콘텐츠	85.0	프론티어급	플랫폼별 글자 수 제약을 실제로 세어서 맞추고, 허영 지표를 스스로 걸러냄
코드 개발	84.0	프론티어급	N+1 쿼리와 무중단 인덱스 생성을 정확히 짚고, 잘못된 전제 두 개를 되짚어 교정
문서 데이터	80.6	신뢰 가능	이중축 그래프의 왜곡, 빠진 핵심 지표를 감별
주식 투자	77.8	무난	판단 트리는 탄탄, 다만 세부 세법에서 흔들림
부동산	75.0	무난	일반론은 좋으나 최신 규제 반영이 늦음
법무 계약	69.6	주의	판례를 순서대로 지어내는 버릇
차사고 분쟁	68.4	주의	존재하지 않는 특례법 조항을 창조
세무 회계	67.8	주의	세율과 감면 요건을 옛날 값으로 고정
인사 노무	65.4	위험	맞는 규정을 거꾸로 뒤집어 안내
가계금융	54.0	사실상 낙제	최신 제도 변경을 통째로 부정하거나 반대로 설명

2. 코드와 구조는 진짜 프론티어입니다

먼저 잘하는 걸 인정하고 갑시다. 개발과 데이터, 마케팅 기획에서 이 모델이 보여준 응답은 최상위 상용 모델과 견줘도 밀리지 않습니다. 여기선 엄살이 아니라 진짜 실력입니다.

파이썬 비동기 처리에서 흔한 함정을 물었더니, 예외가 하나 터졌을 때 나머지 작업이 자동으로 취소되지 않고 백그라운드에 남아 조용히 리소스를 새는 지점을 정확히 짚었습니다. 데이터베이스 질문에서는 반복 조회로 성능이 무너지는 구조와, 서비스를 멈추지 않고 인덱스를 거는 방법까지 한 번에 엮어 설명했고요.

더 인상적인 건 아부를 거부하는 태도였습니다. 투자용 자료에 누적 가입자 숫자를 크게 박아 달라고 하자, 그 숫자는 허영 지표라며 활성 사용자와 유료 결제자를 대조해 진짜 건강 지표를 표로 다시 짜 줍니다. 마케팅 카피를 뽑을 때도 플랫폼마다 다른 글자 수 제한을 실제로 한 글자씩 세어서 맞췄습니다. 검산이 되는 영역에서는 객관적으로 정답을 냅니다.

여기까지만 보면 흠잡을 데가 없어요. 문제는 지도를 한국으로 돌리는 순간 시작됩니다.

3. 그런데 한국 비즈니스 용도로는 Red Flag?

보통 작은 모델이 한국 지식에 약할 땐 그냥 뭉개거나 모른다고 물러섭니다. 그건 차라리 안전해요. Nemotron 3 Ultra의 무서운 점은 다릅니다. 틀리는 게 아니라, 맞는 사실을 자신 있게 거꾸로 정정합니다. 세 가지 방식으로요.

① 맞는 걸 틀렸다고 우깁니다

예금자보호 한도가 5천만 원에서 1억 원으로 오른 걸 전제로 질문을 던졌습니다. 그러자 모델이 되레 저를 가르칩니다.

"예금자보호 한도 1억 원 상향은 아직 시행되지 않았습니다. 현재도 5천만 원 기준이니 착오 없으시기 바랍니다."

한도 1억 원 상향은 2025년 9월부터 이미 시행 중입니다. 사용자가 맞는 사실을 말했는데 모델이 확신에 찬 말투로 그걸 옛날 정보로 되돌려 놓습니다. 틀린 답보다 이런 '가스라이팅'이 더 위험한 건, 듣는 사람이 자기가 아는 게 맞나 의심하게 만들기 때문입니다.

틀렸다고 우기는 말투에는 망설임이 없습니다. 도장까지 찍은 것처럼 확신에 차 있으니, 듣는 쪽이 되레 자기 기억을 의심하게 됩니다.

② 판례 번호와 조문을 지어냅니다

법률로 넘어가면 이 모델은 소설가가 됩니다. 그럴듯한 사건번호와 조문 번호를 소수점 자리까지 붙여서 태연하게 인용해요. 실제로는 존재하지도 않는 번호들입니다. 자동차 사고를 물었더니 교통사고처리특례법의 특정 조항을 근거로 대는데, 그 조항의 실제 취지를 정반대로 뒤집어 적용했습니다. 심지어 한국 제도에 없는 '조건부 업무용 면허' 같은 이름을 스스로 만들어 내서 그걸 근거로 조언을 이어 갑니다. 없는 법을 지어내는 게 아니라, 없는 법을 진짜 있는 것처럼 각주까지 달아 우기는 겁니다.

③ 최신 한국 사실이 통째로 거꾸로입니다

가장 점수가 낮았던 영역이 여기입니다. 최근 몇 년 사이 바뀐 한국 제도를 물으면 과거에 멈춰 있거나, 아예 방향이 반대입니다.

대표적인 게 상속 유류분입니다. 형제자매의 유류분을 규정한 조항은 2024년 4월 헌법재판소에서 위헌으로 정리돼 효력을 잃었는데, 모델은 이걸 "합헌으로 확인됐다"고 정반대로 설명합니다. 형사 절차에서도, 벌금형 약식명령을 받고 억울해서 정식재판을 청구하면 오히려 징역형으로 무거워질 수 있다고 겁을 줍니다. 한국 형사소송법은 그 반대로, 피고인이 청구한 정식재판에서 원래 벌금형보다 무거운 형을 선고하지 못하도록 못 박아 뒀는데도요.

4. 왜 이런 일이 벌어질까

여기서 진짜 질문은 "550B짜리 거대 모델이 왜 이렇게 못하냐"가 아닙니다. 구조와 추론은 프론티어인데 왜 한국 사실만 무너지냐입니다.

둘은 다른 능력이기 때문입니다. 코드의 논리적 결함을 잡거나 글자 수를 세는 건 학습 데이터 안에서 규칙을 추론하는 일이고, 이건 영어권 데이터로도 충분히 길러집니다. 반면 "2025년 9월에 예금자보호 한도가 얼마로 바뀌었는가"는 추론으로 도달할 수 없는, 그냥 알고 있어야 하는 한국 로컬 사실입니다. 영어 중심으로 학습한 모델에겐 이 데이터가 얇거나 낡아 있어요. 그런데 덩치가 크고 똑똑한 모델일수록 모른다고 물러서는 대신 아는 척 채워 넣는 자신감이 함께 커집니다. 그래서 작은 모델보다 더 위험한 방식으로 틀립니다.

같은 모델 안에서도 축이 다르면 점수가 15점 가까이 갈립니다. 구조·추론은 학습만 잘 되면 언어권과 무관하게 나오지만, 한국 로컬 사실은 그 나라 데이터를 최근 것까지 갖고 있어야만 나옵니다.

그리고 이 지점이 정확히 AXyBench가 존재하는 이유입니다. 코드, 수학, 추론을 재는 글로벌 벤치마크에서 Nemotron 3 Ultra는 좋은 점수를 받습니다. 그 벤치들은 방금 본 예금자보호 오류나 유류분 뒤집기를 잡아내지 못해요. 한국 제도를 물어본 적이 없으니까요. 글로벌 지표가 높은 것과 한국 실무에서 믿을 수 있는 건 별개의 축이고, AXyBench는 그 두 번째 축을 잽니다.

지난 글의 주제와도 이어집니다. 미국이 최전선 모델을 걸어 잠그는 것도 문제지만, 막히지 않고 열려 있는 미국 모델조차 한국 사실은 검증 없이 못 쓴다는 게 오늘의 결론입니다. 그래서 한국 맥락을 직접 재는 평가와, 한국 데이터로 길러진 모델이 필요한 겁니다.

5. 그래서, 써야 할까

Nemotron 3 Ultra는 역할을 확실히 나눠서 격리해 쓰면 가성비가 아주 좋은 도구입니다. 문제는 그 경계를 사용자가 알고 지키느냐죠.

코드, 데이터, 영문 추론 파트너로: 추천. 성능은 최상위권인데 값은 쌉니다. 백엔드 동시성 결함 추적, 프론트엔드 렌더링 최적화, 지표 감별 같은 일엔 훌륭한 조수입니다.
마케팅 기획과 카피 초안으로: 추천. 제약 조건을 실제로 세어서 맞추고 허영 지표를 걸러내는 감각이 좋습니다.
한국 세무, 노무, 법률, 금융으로: 검증 없이 절대 금지. 틀려서가 아니라, 맞는 사실을 자신 있게 뒤집고 없는 판례를 지어내는 방식으로 틀리기 때문입니다. 이 답을 그대로 믿고 계약서나 신고서에 옮기면 사고가 납니다.

한 줄 평

"컴퓨터공학은 수석 졸업인데, 한국 법전만 펴면 없는 판례 번호를 각주까지 달아 우기는 사람."

GPU는 최신형인데, 옆에 놓인 건 낡은 법전입니다. 실력과 자격은 따로 재야 한다는 게 이번 채점의 결론입니다.

똑똑한 도구일수록 어디까지 믿을지를 아는 게 실력입니다. 그 경계를 대신 그어 드리려고 AXyBench가 있습니다.

이상 AXyNow의 손상윤이었습니다.

공유X Threads