분석·2026-06-17·10분

국산 오픈 AI가 'GPT-5급'? 솔라 오픈2, AA벤치 44.4점의 진실

업스테이지가 솔라 오픈2 프리뷰를 'GPT-5, 소네트 4.6 수준'이라며 공개했습니다.

AXyNow
업스테이지
솔라오픈2
국가대표AI
오픈웨이트

지난 1월, 업스테이지가 '솔라 오픈 100B'를 내놨을 때 저는 솔직히 시큰둥했습니다. 회사 발표는 "딥시크를 넘었다"였는데, 정작 해외 평가기관(Artificial Analysis)의 일반 추론 점수는 오픈 모델 중에서도 중위권이었거든요.

그런데 이번 6월에 나온 '솔라 오픈2' 프리뷰는 좀 다릅니다. 다만 "GPT-5급"이라는 표현은 약간 과장된 점이 없진 않네요. 들여다보죠.

무슨 일이 있었나: '업스테이지 컴퍼니'와 솔라 오픈2

6월 중순, 업스테이지는 포털 '다음'과 AI 에이전트 플랫폼 '타임리'를 품고 '업스테이지 컴퍼니'를 출범한다고 발표했습니다. 누적 7,300억원을 투자받아 1조원 기업가치 유니콘에 올랐고, 그 절반 이상을 GPU 인프라에 쏟겠다고 했죠.

Upstage의 AI모델이름은 Solar 였습니다. 그리고 그것이 발전을 거듭하며, 정부의 '독자 AI 파운데이션 모델' 프로젝트에 참전하였고, 이번 글에서 다루고자 하는 것은 솔라 오픈2입니다. 정식 공개는 6월 말, 한 달 뒤인 7월 말에는 최대 100만 토큰을 처리하는 상용 모델 '솔라 프로 4'가 발표 예정입니다.

여기서 중요한 건 두 가지입니다. 첫째, 솔라 오픈2는 가중치를 공개하는 '오픈웨이트' 모델입니다. 누구나 받아서 직접 돌릴 수 있다는 뜻이죠. 둘째, 업스테이지는 챗GPT 같은 별도 소비자용 챗봇을 안 만들겠다고 못 박았습니다. 모델을 '다음'(주간 1,000만 이용자)과 '타임리'(600여 지자체·공공기관) 안에 녹여서 에이전트로 쓰겠다는 겁니다. 모델은 무기고, 진짜 승부처는 플랫폼이라는 판단이죠.

44.4점이 무슨 숫자냐: 절반은 진짜, 절반은 영업

자, 핵심 숫자입니다. 업스테이지가 공개한 솔라 오픈2 프리뷰의 아티피셜 애널리시스 지능지수(AAII)는 44.4점. 회사는 이걸 두고 "GPT-5, 클로드 소네트 4.6 수준"이라고 표현했습니다. 이 문장을 곧이곧대로 믿으면 안 되고, 그렇다고 무시해도 안 됩니다. 같은 잣대 위에 다른 모델들을 올려놓고 보면 진실이 보입니다.

아티피셜 애널리시스 지능지수(AAII) 비교. 솔라 오픈2 수치는 업스테이지가 공개한 프리뷰 기준이고, 소네트 4.6은 비추론 모드 점수입니다. 추론 모드를 켜면 비교군이 달라질 수 있어 직접 비교에는 주의가 필요합니다.

먼저 "진짜인 부분".

솔라 오픈2의 44.4점은 클로드 소네트 4.6의 44점과 사실상 같은 자리입니다. 글로벌 상위 모델과 같은 칸에 국산 오픈 모델이 들어온 건 처음입니다. 놀라운 것은 향상 폭이에요. 불과 다섯 달 전 솔라 오픈 100B가 받던 점수가 15점 안팎이었는데, 그게 44.4까지 올라왔습니다. 같은 회사가 같은 지표에서 반년 만에 세 배 가까이 끌어올린 겁니다. 이건 마케팅으로 만들 수 있는 숫자가 아닙니다. 실제로 모델이 좋아진 거죠.

이번엔 "영업인 부분". GPT-5 계열은 이 지표에서 60점대에 있습니다(GPT-5.5가 60점). 44.4와 60은 같은 급이 아닙니다. 한 티어 차이가 분명히 납니다. 그러니 "GPT-5 수준"은 부풀림이고, 정확히는 "소네트 4.6 비추론 모드와 동급"이 맞는 표현입니다.

에이전트 능력을 보는 타우2-벤치에서 98%를 받아 딥시크 V4 프로(96.2%)를 앞섰다는 주장도 함께 나왔습니다. 숫자만 보면 화려한데, 단일 벤치 하나로 "에이전트가 더 낫다"고 단정하긴 이릅니다. 에이전트는 도구를 쓰다 한 번 삐끗하면 전체 작업이 무너지는 영역이라, 한 시험지 점수보다 여러 실무에서의 안정성이 훨씬 중요하거든요.

AAII가 못 보는 것: 한국 실무는 아직 숙제

그런데 제가 이 44.4점을 보면서 가장 하고 싶은 말은 따로 있습니다. AAII는 영어 중심의 일반 추론과 지식, 코딩, 수학을 봅니다. 글로벌 잣대로는 더없이 공정하죠. 하지만 우리가 진짜 궁금한 건 다른 축입니다. 이 모델이 한국 세무, 전세 계약, 교통사고, 상속처럼 '한국에서 돈과 권리가 걸린 문제'를 정확히 푸느냐입니다.

업스테이지는 솔라 오픈2를 "가장 한국적이면서 세계적인 AI"라고 부르고, 한국 문화 이해도와 한국어 지식 벤치마크에서 강하다고 강조합니다. 충분히 그럴 수 있습니다. 한국어 데이터로 처음부터 학습한 모델이니까요. 그런데 '한국어를 잘한다'와 '한국 제도를 안 틀린다'는 다른 문제입니다. AXyBench를 돌리면서 제가 반복해서 본 패턴이 있어요. 한국어는 유창한데, 예금자보호 한도나 바뀐 세법 같은 사실 앞에서는 자신 있게 틀리는 모델이 많았습니다. 유창함과 정확함은 별개의 능력이거든요.

그래서 솔라 오픈2의 진짜 성적표는 AAII 44.4가 아니라, 정식 가중치가 공개된 뒤 한국 실무 문항을 직접 던져봐야 나옵니다. 그건 정식 공개 후 제가 직접 채점해서 다음 글로 가져오겠습니다. 지금 시점에 "한국 실무도 GPT-5급"이라고 말하는 건 누구도 데이터 없이 하는 말입니다. 저도 안 합니다.

그래서, AXyNow에서는 이렇게 판단합니다

솔라 오픈2는 국산 오픈 모델 중 처음으로 글로벌 상위 모델의 문턱(소네트 4.6 동급)을 실제로 건드린 모델입니다. "GPT-5급"은 과장이지만, "이번엔 진짜 올라왔다"는 사실입니다.

첫째, 데이터를 밖으로 못 내보내는 환경(공공, 금융, 의료, 사내 보안)이라면 오픈웨이트인 솔라 오픈2는 어쩌면 온프레미스 AX 엔진으로 검토할 수 있습니다. 직접 받아서 우리 서버에서 돌릴 수 있고, 한국어가 강하며, 라이선스가 상업적 사용을 허용합니다. 폐쇄형 API에 데이터를 넘길 수 없는 곳일수록 가치가 커집니다.

둘째, 그냥 가장 똑똑한 모델로 일을 끝내야 하는 일반 업무라면, 아직은 프론티어 폐쇄 모델이 한 티어 위에 있습니다. 44.4와 60의 격차는 어려운 추론과 긴 에이전트 작업에서 체감됩니다. 애국심으로 그 갭을 메울 순 없습니다.

마지막으로, 국산 AI에 대한 평가는 이제 "한참 멀었다"에서 "저점은 올라왔다"로 바뀌어야 맞습니다. 그래도 중국의 GLM, Kimi, MiMo, Qwen, MiniMax 같은 모델들을 따라가기에는 역부족이지만요. 솔라 오픈2가 정식으로 풀리면, 저희 AXyBench로 직접 검증해보겠습니다.

공유X Threads