VibeThinker-3B가 정말 671B 모델을 따라잡았나요?

수학(AIME 2026 94.3점)과 코딩(LeetCode 96.1% 합격)처럼 정답이 또렷한 과제에 한해서는 6,710억 파라미터 모델과 같은 수준입니다. 다만 지식을 많이 요구하는 과제(GPQA-Diamond)에서는 대형 모델에 뒤처집니다.

VibeThinker-3B를 회사 업무에 바로 쓸 수 있나요?

정답이 또렷한 추론·코딩 잡일에는 적합하지만, 한국 세무·노무·계약처럼 최신 한국 지식이 필요한 일에는 무리가 있습니다. 만든 웨이보 팀도 지식 집약 과제와 외부 자료 활용에 약하다고 직접 밝혔습니다.

어느 정도 사양이면 돌릴 수 있나요?

모델 용량이 6.7GB라 중고 그래픽카드 한 장이나 게이밍 노트북 수준에서도 구동됩니다. 라이선스도 MIT라 회사가 비용 없이 가져다 쓸 수 있습니다.

작은 모델이 어떻게 큰 모델을 따라잡았나요?

웨이보 팀은 지식을 더 욱여넣는 대신 정답까지 가는 '푸는 요령'을 집중 훈련했습니다. 다양한 풀이 경로를 학습시키고 강화학습으로 다듬는 방식으로, 추론력은 지식의 양과 다른 능력이라는 가설을 실증했습니다.

분석·2026-06-20·8분

3B짜리 AI가 671B 모델을 따라잡았습니다

웨이보가 30억 파라미터 모델로 6,710억 모델의 수학·코딩 점수를 따라잡았습니다. 노트북에서도 도는 이 작은 추론 모델이 정말 우리 회사 일까지 잘할지, AXyBench 관점으로 짚어봤습니다.

AXyNow
VibeThinker
소형모델
추론
온프레미스
오픈소스

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

AI는 클수록 똑똑하다고 생각하는 경우가 많습니다. 파라미터가 많을수록, 학습에 돈을 더 부을수록 더 좋은 모델이 나온다는 것은 뭐 당연한 스케일링의 법칙이었죠. GPT도 클로드도 제미나이도 다 그렇게 덩치를 키워왔으니, 의심할 이유가 없었습니다.

그런데 지난주, 이 공식에 정면으로 도전장을 내민 모델이 나왔습니다. 그것도 빅테크가 아니라 중국 웨이보(Weibo)의 AI 연구팀에서 말이죠. 모델 이름은 VibeThinker-3B. 이름 그대로 파라미터가 딱 30억(3B)입니다. 요즘 거대 모델들이 수천억을 우습게 넘기는 걸 생각하면, 거의 장난감 수준이죠. 그런데 이 장난감이 수학 올림피아드 문제에서 6,710억짜리 모델과 같은 점수를 받았습니다. 진짜일까요. 그리고 진짜라면, 그게 우리 회사 일에는 무슨 의미가 있을까요.

30억짜리가 올림피아드를 풀었습니다

먼저 숫자부터 보시죠. VibeThinker-3B가 받아 든 성적표는 이렇습니다.

과제	VibeThinker-3B (30억)	비교
수학 (AIME 2026)	94.3	DeepSeek V3.2(6,710억)와 동점
코딩 (LiveCodeBench v6)	80.2	비교한 대형 모델들 상회
최신 코딩 콘테스트 (LeetCode)	96.1% 합격	GPT-5.2·Kimi K2.5보다 높음
과학 지식 (GPQA-Diamond)	72.9	대형 모델에 뒤처짐

출처: VibeThinker-3B 기술보고서(arXiv 2606.16140)·VentureBeat, 조회 2026-06-20.

윗줄 세 개가 핵심입니다. 미국 수학 경시대회(AIME)에서 94.3점은 올해 풀린 거대 모델 중에서도 최상위권 점수입니다. 그걸 30억짜리가, 200배가 넘는 덩치의 DeepSeek와 똑같이 받았습니다. 코딩 쪽은 어떨까요? 처음 보는 LeetCode 최신 콘테스트 문제를 96.1% 풀어내면서, GPT-5.2 같은 상용 모델까지 소위 따라잡았습니다.

리그 오브 레전드(LOL)로 치면 플래티넘 티어 선수가 챌린저들 사이에 끼어서, 적어도 수학·코딩 한정으로는 같이 1등을 다툰 겁니다. '라인전'만큼은 챌린저급, '한타'만큼은 챌린저급. 심지어 이 모델은 6.7GB짜리예요. 게이밍 노트북 한 대, 중고 그래픽카드 한 장이면 내 책상 위에서 돌아갑니다. 라이선스도 MIT라 회사가 그냥 가져다 써도 됩니다. 공짜로요.

같은 AIME 94.3점을 내는 두 모델의 크기. VibeThinker는 DeepSeek V3.2의 200분의 1도 안 됩니다. 그런데 점수는 같습니다. 출처: arXiv 2606.16140, 2026-06.

어떻게 30억으로 이게 되나?

여기서 당연한 의문이 듭니다. 아는 게 적은 작은 모델이 어떻게 거대 모델을 따라잡죠.

웨이보 팀의 대답이 흥미롭습니다. 그들은 논문에서 '파라미터 압축-커버리지 가설'이라는 걸 내놓는데, 쉽게 말하면 이겁니다. 추론을 잘하는 건 '많이 아는 것'과 다른 문제다. 머릿속에 든 지식의 양이 아니라, 정답까지 가는 길을 얼마나 잘 찾아가느냐가 핵심이라는 거죠.

생각해보면 우리 주변에도 그런 사람 있잖아요. 외운 건 많지 않은데 문제만 주면 기가 막히게 풀어내는 사람, 반대로 아는 건 많은데 막상 새 문제 앞에선 헤매는 사람.

지능도 보면 예컨대 우리나라식 주입식 교육으로 치면 '알고 있는 지식이 많은가' 그리고 그걸 '제한된 시간 안에 빨리 풀어내는가' 라면, 이 3B짜리 모델은 '아는 것은 없는데, 뭔가 하나를 물고 늘어지면 놀라운 분석과 결론에 이른다.'

웨이보는 작은 모델한테 지식을 욱여넣는 대신, '푸는 요령'만 집중적으로 가르친 셈입니다. 다양한 풀이 경로를 잔뜩 만들어 보여주고, 강화학습으로 정답까지 가는 길을 계속 다듬는 식으로요.

이게 처음도 아닙니다. 웨이보는 작년에 이미 15억짜리 전작(VibeThinker-1.5B)을 내놨는데, 그 모델 사후 학습에 들어간 돈이 7,800달러였습니다. 빅테크가 모델 하나에 수천억을 쏟는 시대에, 천만 원 수준으로 만든 모델이 그 유명한 DeepSeek R1(6,710억)을 수학에서 꺾었던 겁니다. 이번 30억 모델은 그 노선을 한 단계 더 밀어붙인 결과고요.

그러니까 이건 단순히 "중국이 또 싼 모델 냈네" 하고 넘길 뉴스가 아닙니다. 덩치로만 밀어붙이던 AI 경쟁에, '작게 만들어도 된다'는 다른 길이 열리고 있다는 신호죠.

"벤치마크 1등"이라는 말의 함정

자, 여기까지가 박수 칠 대목입니다. 이제 제 직업병이 발동할 차례고요(ㅋㅋ).

VibeThinker가 발표되자마자 해외에선 또 한바탕 논쟁이 붙었습니다. 한 외신은 대놓고 "이 작은 모델이 AI 업계를 또 벤치마크 싸움으로 끌고 갔다"고 썼어요. 왜겠어요. 벤치마크 점수가 높다는 게, 실제로 일을 잘한다는 뜻과 항상 같지는 않거든요.

여기엔 결정적인 함정이 하나 있습니다. VibeThinker가 1등을 한 수학과 코딩은 정답이 또렷하게 정해진 과제입니다. 답이 42면 42고, 코드가 통과하면 통과인 겁니다. 채점이 깔끔하니까, 그 길만 집요하게 파고들어 훈련하면 작은 모델도 만점에 가까워질 수 있어요. 문제는 우리 회사 일이 그렇게 안 생겼다는 데 있습니다.

그리고 이건 제 추측이 아니라, 웨이보 팀이 논문에서 직접 인정한 약점입니다. 위 표 맨 아랫줄을 다시 보시면, 과학 지식을 묻는 GPQA에서는 이 모델이 큰 모델들한테 눈에 띄게 밀립니다. 지식이 많이 필요한 일에는 약하고, 외부 자료를 찾아 쓰는 능력이 부족해서 범용 모델을 대체할 수 없다고요. 추론력과 지식은 완전히 다른 능력이라는 걸, 만든 사람들이 먼저 명확하게 밝혔습니다.

이 지점이 저희가 AXyBench를 운영하면서 매번 확인하는 패턴과 정확히 겹칩니다. 저희는 작은 모델, 심지어 초소형 모델까지 굳이 한국 비즈니스 실무로 직접 재보는데요. 거기서 거의 공통된 그림이 나옵니다. 수학·코드·논리처럼 정답이 또렷한 일은 곧잘 하는데, 한국 세무나 노무처럼 '최신 한국 지식'을 묻는 순간 자신 있게 틀립니다. 그것도 모른다고 하는 게 아니라, 아주 그럴듯한 표정으로 오답을 내놓거든요. 회사 입장에선 이게 제일 위험한 종류의 실수죠.

그러니까 질문을 이렇게 바꿔야 합니다. "이 모델 벤치마크 몇 점이야?"가 아니라, "이 모델이 내가 시킬 그 일을, 한국에서, 정확히 해내?"

그래서 우리 회사엔 어떻게 쓰나

오해는 마세요. 약점을 짚었다고 이 모델이 별로라는 얘기가 절대 아닙니다. 오히려 반대예요. 쓸 자리를 정확히 알면, 이만큼 가성비 좋은 무기가 없습니다.

저희는 CommanderOS를 직접 운영하는 입장이라 작은 모델을 매일 굴립니다. 그러면서 배운 게 하나 있어요. 회사에서 AI가 하는 일은 생각보다 '정답이 또렷한 잡일'이 많다는 겁니다. 문서에서 항목 뽑아내기, 글 분류하기, 코드 짜기, 데이터 정리하기. 이런 일에 제일 비싼 범용 모델을 갖다 쓰는 건, 편의점 알바 뽑는데 NASA 출신 엔지니어를 앉히는 것과 같아요. VibeThinker 같은 추론 특화 소형 모델은 바로 이 자리를 위해 태어난 셈입니다.

게다가 6.7GB라는 숫자가 결정적입니다. 이건 회사 데이터를 클라우드에 안 올리고, 사무실 안 그래픽카드 한 장에서 통째로 돌릴 수 있다는 뜻이거든요. 앞서 중소기업 AX 하드웨어 글에서 "데이터가 밖으로 안 나가는 게 중요하면 작은 모델이 답"이라고 말씀드렸는데, VibeThinker가 딱 그 예시입니다. 세무 같은 한국 지식이 필요한 무거운 일은 큰 모델이나 외부 자료에 맡기고, 정답이 또렷한 추론 잡일은 이런 작은 모델한테 떼주는 식으로 역할을 나누는 거죠.

결론: 책상 위에선 AXy할 수 있어요, 다만 실무 적용엔 무리가 있습니다.

정리하겠습니다. VibeThinker-3B는 'AI는 클수록 똑똑하다'는 공식을 멋지게 흔든 모델입니다. 수학·코딩·논리처럼 정답이 또렷한 일에서는, 30억짜리가 6,710억과 어깨를 나란히 합니다. 노트북에서 돌고, 공짜고, 데이터도 안 샙니다. 이 영역에서는 충분히 AXy합니다.

다만 한국 세무, 계약, 노무처럼 최신 한국 지식이 필요한 일까지 이 모델 하나로 해결하려 한다면, 아직 AXy하지 않습니다. 그건 이 모델이 못나서가 아니라, 추론력과 지식이 애초에 다른 능력이기 때문이에요. 만든 사람들도 인정한 부분이고요.

작은 모델들의 이런 약진을 볼 때마다 저는 같은 생각을 합니다. 진짜 경쟁력은 "제일 센 모델"을 쓰는 게 아니라, "이 일에 딱 맞는 가장 저렴한 모델"을 골라 쓰는 안목이라고요. 그 안목을 키우시라고, 저희가 굳이 작은 모델까지 한국 실무로 일일이 재서 보여드리는 거고요.

자세한 모델 실측 결과는 → AXyBench 전체 결과 보기

자주 묻는 질문

VibeThinker-3B가 정말 671B 모델을 따라잡았나요?: 수학(AIME 2026 94.3점)과 코딩(LeetCode 96.1% 합격)처럼 정답이 또렷한 과제에 한해서는 6,710억 파라미터 모델과 같은 수준입니다. 다만 지식을 많이 요구하는 과제(GPQA-Diamond)에서는 대형 모델에 뒤처집니다.
VibeThinker-3B를 회사 업무에 바로 쓸 수 있나요?: 정답이 또렷한 추론·코딩 잡일에는 적합하지만, 한국 세무·노무·계약처럼 최신 한국 지식이 필요한 일에는 무리가 있습니다. 만든 웨이보 팀도 지식 집약 과제와 외부 자료 활용에 약하다고 직접 밝혔습니다.
어느 정도 사양이면 돌릴 수 있나요?: 모델 용량이 6.7GB라 중고 그래픽카드 한 장이나 게이밍 노트북 수준에서도 구동됩니다. 라이선스도 MIT라 회사가 비용 없이 가져다 쓸 수 있습니다.
작은 모델이 어떻게 큰 모델을 따라잡았나요?: 웨이보 팀은 지식을 더 욱여넣는 대신 정답까지 가는 '푸는 요령'을 집중 훈련했습니다. 다양한 풀이 경로를 학습시키고 강화학습으로 다듬는 방식으로, 추론력은 지식의 양과 다른 능력이라는 가설을 실증했습니다.

공유X Threads