Kimi K2.7 코딩, 스펙은 좋아보이는데 알고보니 셀프채점
중국 Moonshot AI의 Kimi K2.7 Code를 공개했습니다. 1조 파라미터 오픈 코딩 모델 Kimi K2.7. 가격·컨텍스트·라이선스 같은 스펙들... 과연 실사용에도 그럴까요?

- AXyNow
- Kimi
- 코딩AI
- 오픈모델
- 벤치마크
프리미엄 AI 매거진 AXyNow, 손상윤입니다.
3일 전(6월 12일), 중국 Moonshot AI가 코딩 특화 모델 Kimi K2.7 Code를 풀었습니다. 가중치를 통째로 공개하는 오픈웨이트 모델인데, 나오자마자 "Opus를 이긴다", "도구 쓰는 건 클로드보다 낫다" 같은 헤드라인이 깔렸어요. 스펙시트만 보면 그럴듯합니다. 그런데 그 '이겼다'는 성적표를 누가 매겼는지 보면, 얘기가 좀 달라집니다.
한 줄. Kimi K2.7의 스펙은 진짜입니다. 그런데 회사가 자랑하는 벤치 점수는 셋 다 문샷이 자기가 만든 시험지예요. 독립 벤치 점수는 아직 한 개도 없습니다.
스펙은 진짜다
먼저 검증 가능한 하드 스펙부터. 이건 가중치가 공개돼 있어서 누구나 확인할 수 있습니다.
| 항목 | Kimi K2.7 Code |
|---|---|
| 구조 | MoE(전문가 혼합), 총 1조 파라미터 / 토큰당 32B만 활성 |
| 전문가 수 | 384개(토큰당 8개 선택 + 공유 1개) |
| 레이어 | 61층(1층 dense), MLA 어텐션 + SwiGLU |
| 컨텍스트 | 256K 토큰(262,144) |
| 비전 | MoonViT 인코더 +400M(이미지·영상 입력) |
| 양자화 | 네이티브 INT4 |
| 가중치 | 약 595GB, 허깅페이스 공개, Modified MIT 라이선스 |
| 가격 | 100만 토큰당 입력 $0.95 / 출력 $4.00 (캐시 입력 $0.19) |
첫째, 1조 파라미터를 다 켜는 게 아니라 토큰마다 32B만 골라 켜는 MoE라 추론이 가볍습니다. 둘째, 문샷은 직전 버전 K2.6 대비 추론 토큰을 약 30% 줄였다고 합니다. 같은 답을 더 적은 '생각'으로 낸다는 거죠(쓰는 토큰이 줄면 그만큼 비용이 줄어요). 셋째, 무엇보다 쌉니다. 클로드나 GPT 프리미엄 모델의 5분의 1 수준 가격에, 가중치를 받아서 내 서버에 직접 올릴 수도 있어요. 여기까진 흠잡을 데가 없습니다.
그런데 성적표는 자기가 매겼다
문제는 "그래서 얼마나 잘하냐"입니다.
숫자만 보면 화려하죠. 그런데 이 세 벤치에 공통점이 하나 있습니다. 셋 다 문샷이 직접 만들고 직접 채점한 자체 벤치예요. 업계가 공통으로 쓰는 독립 시험지, 그러니까 SWE-bench Verified나 LiveCodeBench, Terminal-Bench 같은 데서 받은 점수는 6월 12일 출시 시점 기준으로 단 하나도 없습니다.
한 개발자가 문샷에 공개적으로 물었습니다. 직전 버전 K2.6이 독립 벤치인 DeepSWE에선 24%밖에 못 받았는데(작은 모델 GPT-5.4-mini와 동률), 어떻게 자기네 벤치에선 선두에 서느냐고요. IT 매체 벤처비트도 이번 K2.7을 두고 "실무자들은 그 벤치가 실제와 맞지 않는다고 말한다"고 보도했습니다.
자체 벤치가 무조건 거짓말이란 뜻은 아닙니다. 다만 시험 문제를 직접 낸 사람이 자기 시험 점수를 발표하면, 그건 검증된 실력이 아니라 마케팅 자료에 가까워요. 제가 모델을 다룰 때 늘 지키는 원칙이 있는데, 모델은 내 일에 직접 물려보기 전엔 모릅니다.
그래도 살 이유는 있다
공포팔이로 끝내면 반쪽짜리입니다. 자체 벤치를 걷어내도 K2.7이 매력적인 이유는 분명히 있어요.
가격이 괜찮습니다. 입력 100만 토큰에 $0.95면 클로드·GPT 최상위 모델의 5분의 1 수준이고, 코드 에이전트처럼 토큰을 대량으로 태우는 작업일수록 이 차이가 복리로 벌어집니다. 오픈웨이트라 내 서버에 직접 올려서 데이터를 밖으로 안 내보내고 돌릴 수도 있고요(물론 이걸 갖추려면 어마어마한 돈이 필요합니다). MCP 같은 도구를 불러 쓰는 에이전트형 코딩(AI가 알아서 파일 열고 명령 돌리고 고치는 작업)에선 실사용 평이 꽤 좋은 편입니다.

저희도 회사에서 반복적인 코드 작업은 점점 더 싼 모델로 내려보내고 있어요. 가장 어려운 한 방 추론, 복잡한 문제를 한 번에 푸는 능력은 아직 클로드 Opus 4.8 같은 프리미엄 플래그십이 위입니다. 대신 '싸게, 많이, 자동으로 굴리는' 코딩이라면 K2.7은 진지한 선택지예요. 비싼 모델로 다 돌리던 반복 작업을 5분의 1 가격 모델로 갈아탈 여지가 생긴 겁니다.
결론: 스펙시트만 믿을 수는 없다
신상 AI 모델 소식을 받아들이는 법은 의외로 단순합니다. 검증 가능한 스펙(파라미터·컨텍스트·가격·라이선스)이 어디까지인지 분리할 것.
Kimi K2.7은 스펙시트로 보면 올해 가장 흥미로운 오픈 코딩 모델 중 하나가 맞습니다. 싸고, 열려 있고, 가볍거든요. 다만 공식 벤치마크에 해당하는 점수가 적거나 불분명하고, 차라리 MiMo-V2.5-Pro 혹은 DeepSeek V4 Pro 같은 모델이 훨씬 더 저렴하면서 성능차이는 그리 크지 않다는 점에서는 매력이 부족하죠.
특히 Cursor는 자사 코딩 모델 Composer를 사실 Kimi K2.5 기반으로 만들고도 처음엔 그 사실을 밝히지 않았다가 나중에 인정한 일이 있습니다. 흥미로운 건, 4월에 K2.6이 나온 뒤에도 새 베이스로 갈아타지 않고 일부러 K2.5에 자체 강화학습을 더 얹는 쪽을 택했다는 거예요. 그렇게 다듬은 모델보다 이번 raw K2.7이 더 낫다는 보장도 없어, 이번엔 다소 실망스럽다는 평도 나옵니다.