GPT가 갑자기 셋으로 쪼개졌습니다: 솔·테라·루나
GPT 5.6 Preview

- AXyNow
- GPT-5.6
- OpenAI
- 솔테라루나
- 모델조명
- 가격
프리미엄 AI 매거진 AXyNow, 손상윤입니다.
오늘은 모델 하나를 집중 해부합니다. 바로 GPT 5.6인데요. 솔, 테라, 루나. 무려 셋으로 쪼개져 나왔습니다. 그래서 질문이 생깁니다. 왜 하나로 안 내고 굳이 셋으로 쪼갰을까.
한 줄. GPT 5.6은 이제 한 덩어리가 아닙니다. 솔, 테라, 루나 세 등급으로 갈라져 나왔고, 같은 세대 안에서 값이 5배까지 벌어졌습니다. 그리고 가장 센 솔은 미국 정부에 의해 전 세계 스무 곳 남짓만 쓸 수 있게 되었습니다.
1. GPT가 하나가 아니다: 솔, 테라, 루나
셋이 각각 뭐 하는 놈인지부터 보겠습니다.
- 솔(Sol) · 맏형이고 제일 셉니다. 복잡한 코딩, 보안 연구처럼 제일 어려운 문제 전담입니다. OpenAI가 지금까지 낸 것 중 가장 강한 모델이라고 내세웠습니다.
- 테라(Terra) · 회사 실무용입니다. 고객 상담, 사내 도구, 문서 분석처럼 많이 돌려야 하는 대량 업무 담당이고요. 전 세대인 GPT 5.5와 비슷한 성능인데 값은 절반쯤 쌉니다. 육각형이죠.
- 루나(Luna) · 막내고 제일 쌉니다. 요약, 초안 잡기, 단순 반복 자동화처럼 빠르고 가볍게 많이 쓰는 일상 업무용입니다.
한마디로 어려운 건 솔, 많이 하는 건 테라, 가볍게 하는 건 루나. 이렇게 역할을 나눠놓은 겁니다.
2. 왜 셋으로 쪼갰나: 세대는 묶고, 등급은 나누고
진짜 궁금한 건 이거죠. 왜 하나로 안 내고 굳이 셋으로 쪼갰냐. 여기에 OpenAI의 의도가 있습니다.
이름을 뜯어보면, 숫자 5.6은 세대를 뜻하고 솔, 테라, 루나라는 이름은 능력 등급을 뜻합니다. 예전엔 모델 하나가 좋아지면 버전 숫자를 통째로 올려야 했습니다. 이제는 세대를 5.6으로 묶어두고, 그 안에서 각 등급이 따로따로 존재합니다. 어려운 일 하는 솔은 솔대로, 가벼운 루나는 루나대로요.
쉽게 말하면, 하나의 천재한테 모든 걸 다 시키던 시대에서, 일의 난이도에 맞춰 직원을 골라 쓰는 시대로 넘어간 겁니다.
3. GPT 5.6 솔(Sol), 코딩 1위 탈환
말로만 하면 와닿지 않으니 숫자를 보겠습니다. 아래는 코딩과 터미널 작업을 재는 외부 벤치마크 '터미널벤치 2.1'에서 OpenAI가 공개한 점수입니다. AXyBench 채점이 아니라 OpenAI 측 발표 수치라는 점을 먼저 밝혀둡니다.
맏형 솔이 88.8점으로, 그동안 코딩 1등이던 앤트로픽의 최강 모델 Mythos 5를 0.8점 차로 제쳤습니다. 근소하지만 1등을 뺏어온 겁니다. 여기에 '울트라 모드'를 켜면 91.9점까지 올라가는데, 공개 기준 모델인 Opus 4.8이 78점대니까 무려 13점 차입니다.
저는 둘째 테라가 더 흥미로웠습니다. 비즈니스용 중간 등급인데 전 세대 플래그십이던 GPT 5.5를 이기고, 앤트로픽 Fable 5와 같은 점수를 찍었거든요. 그것도 값은 절반에 말이죠. 막내 루나는 제일 싼데도 Opus 4.8과 제미나이보다 높았습니다(구글아... 언제까지 똥볼찰래...).
다만 오해는 마시길 바랍니다. 루나가 솔보다 코딩이 낮다고 별로라는 게 아닙니다. 루나는 코딩 선수가 아니라 요약이나 초안을 싸고 빠르게 돌리는 막내거든요. 시험 과목이 코딩이라 그렇게 보일 뿐입니다. 숫자 하나로 줄 세우면 안 된다는 게 핵심입니다.
4. 같은 세대 안에서, 값이 5배
그럼 값은 얼마냐. 이게 진짜 핵심입니다.
출력 100만 토큰 기준으로 솔이 30달러, 테라가 15달러, 루나가 6달러입니다.
그래서 이제 이렇게 써야 합니다. 진짜 어려운 문제, 복잡한 코딩은 비싼 솔한테. 회사에서 매일 수천 건씩 돌리는 상담이나 문서 정리는 가성비 테라한테. 단순 요약이나 초안 잡기는 제일 싼 루나한테. 예를 들어 GPT한테 그냥 '시장조사 좀 해줘' 던지는 거, 그걸 솔한테 시키면 돈 낭비입니다. 그건 루나도 합니다. 비싼 모델을 아무 데나 쓰는 게 아니라, 일의 무게를 보고 맞는 등급을 고르는 시대가 된 거죠.
5. 가장 강력한 모델 Sol, 미국 정부에 의해 가로막혀
지난 글을 보신 분들은 뭔가 걸리실 겁니다. 제가 저번에, 미국 정부가 GPT 5.6 공개를 막았다고 했죠. 사이버 보안 능력이 너무 세서 위험하다는 이유로요. 그 막힌 게 바로 이 솔입니다.
근거를 보면 무섭습니다. 사이버 공격 능력을 재는 시험에서, 솔이 앤트로픽의 미공개 모델 Mythos급 실력을 그것도 토큰을 3분의 1만 쓰고 냈습니다. 쉽게 말해 더 적은 노력으로 같은 해킹 실력을 낸다는 겁니다. 정부 입장에선 이게 딱 걸린 거죠.
그래서 GPT 5.6은 지금 아무나 못 씁니다. 미국 정부와 조율해, 전 세계에서 딱 스무 곳 안팎의 조직한테만 풀린 상태입니다. 가장 똑똑한 능력이, 가장 먼저 잠긴 겁니다.
6. 솔의 새 무기: 맥스 추론과 울트라 모드
솔에는 새로운 무기가 두 개 더 붙었습니다.
하나는 '맥스 추론'. 진짜 오래 고민해야 하는 문제에 생각 시간을 더 주는 설정입니다. 또 하나가 진짜 재밌는데 '울트라 모드'입니다. 혼자 끙끙대는 게 아니라, 일을 여러 개의 보조 AI한테 쪼개서 동시에 시키는 방식이에요. 팀장 하나가 부하 직원 여럿한테 일을 나눠주는 거랑 똑같습니다. 아까 그래프에서 솔이 88점이었는데 울트라를 켜니 92점 가까이 올랐죠. 그게 이 효과입니다.
근데 이거, Claude Code Cli에서는 울트라 모드라고 이미 있는 기능입니다. 사실상 그냥 베껴온 것이지요.
거기다 Cerebras의 강력한 추론 칩에 올리면 초당 750토큰, 그러니까 글자를 어마어마하게 빠른 속도로 뽑아냅니다. 다만 이건 7월부터, 그것도 제한적으로 풀린다고 합니다.
한국에 풀리면 바로 AXyBench 진행합니다
그래서 한국은요? 지금은 못 씁니다. 스무 곳 안팎 조직에, 그것도 미국 정부 승인을 거쳐야 하니까요. 우리한테 풀리는 건 그다음 일입니다. 재밌는 건, OpenAI 본인들조차 이 정부 통제 방식은 지속 가능하지 않다고 공개적으로 불만을 냈다는 점입니다. 지난 글에서 앤트로픽이 반박했던 것과 똑같죠.
정리하면 이렇습니다. 이제 GPT는 하나가 아닙니다. 일의 난이도에 맞춰 솔, 테라, 루나를 골라 쓰는 시대로 넘어갔고, 가격은 5배까지 벌어졌으니 아무 데나 비싼 걸 쓰면 그게 다 돈입니다. 그리고 제일 센 솔은, 너무 세서 오히려 잠긴 상태죠.
물론 이건 아직 프리뷰 단계고, 위 점수도 OpenAI가 공개한 벤치마크 수치라 실사용 체감과 늘 같지는 않습니다. 그러니 단정은 이릅니다. 한국에 정식으로 풀리는 순간, 제가 AXyBench로 한국 세무, 노무, 계약 같은 실무에서 진짜 쓸 만한지 직접 재서 가져오겠습니다.