본문으로 건너뛰기
AXyNowAX IS NOW
분석·2026-06-15·9

Kimi K2.7 코딩, 스펙은 좋아보이는데 알고보니 셀프채점

중국 Moonshot AI의 Kimi K2.7 Code를 공개했습니다. 1조 파라미터 오픈 코딩 모델 Kimi K2.7. 가격·컨텍스트·라이선스 같은 스펙들... 과연 실사용에도 그럴까요?

Kimi K2.7 코딩, 스펙은 좋아보이는데 알고보니 셀프채점
  • AXyNow
  • Kimi
  • 코딩AI
  • 오픈모델
  • 벤치마크

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

3일 전(6월 12일), 중국 Moonshot AI가 코딩 특화 모델 Kimi K2.7 Code를 풀었습니다. 가중치를 통째로 공개하는 오픈웨이트 모델인데, 나오자마자 "Opus를 이긴다", "도구 쓰는 건 클로드보다 낫다" 같은 헤드라인이 깔렸어요. 스펙시트만 보면 그럴듯합니다. 그런데 그 '이겼다'는 성적표를 누가 매겼는지 보면, 얘기가 좀 달라집니다.

한 줄. Kimi K2.7의 스펙은 진짜입니다. 그런데 회사가 자랑하는 벤치 점수는 셋 다 문샷이 자기가 만든 시험지예요. 독립 벤치 점수는 아직 한 개도 없습니다.

스펙은 진짜다

먼저 검증 가능한 하드 스펙부터. 이건 가중치가 공개돼 있어서 누구나 확인할 수 있습니다.

항목Kimi K2.7 Code
구조MoE(전문가 혼합), 총 1조 파라미터 / 토큰당 32B만 활성
전문가 수384개(토큰당 8개 선택 + 공유 1개)
레이어61층(1층 dense), MLA 어텐션 + SwiGLU
컨텍스트256K 토큰(262,144)
비전MoonViT 인코더 +400M(이미지·영상 입력)
양자화네이티브 INT4
가중치약 595GB, 허깅페이스 공개, Modified MIT 라이선스
가격100만 토큰당 입력 $0.95 / 출력 $4.00 (캐시 입력 $0.19)

첫째, 1조 파라미터를 다 켜는 게 아니라 토큰마다 32B만 골라 켜는 MoE라 추론이 가볍습니다. 둘째, 문샷은 직전 버전 K2.6 대비 추론 토큰을 약 30% 줄였다고 합니다. 같은 답을 더 적은 '생각'으로 낸다는 거죠(쓰는 토큰이 줄면 그만큼 비용이 줄어요). 셋째, 무엇보다 쌉니다. 클로드나 GPT 프리미엄 모델의 5분의 1 수준 가격에, 가중치를 받아서 내 서버에 직접 올릴 수도 있어요. 여기까진 흠잡을 데가 없습니다.

그런데 성적표는 자기가 매겼다

문제는 "그래서 얼마나 잘하냐"입니다.

문샷이 K2.7 출시와 함께 공개한 K2.6 대비 점수 향상. 세 벤치(Kimi Code Bench v2·Program Bench·MLS Bench Lite)는 모두 문샷의 자체 벤치. 출처: Moonshot AI·MarkTechPost, 조회 2026-06-15.

숫자만 보면 화려하죠. 그런데 이 세 벤치에 공통점이 하나 있습니다. 셋 다 문샷이 직접 만들고 직접 채점한 자체 벤치예요. 업계가 공통으로 쓰는 독립 시험지, 그러니까 SWE-bench Verified나 LiveCodeBench, Terminal-Bench 같은 데서 받은 점수는 6월 12일 출시 시점 기준으로 단 하나도 없습니다.

한 개발자가 문샷에 공개적으로 물었습니다. 직전 버전 K2.6이 독립 벤치인 DeepSWE에선 24%밖에 못 받았는데(작은 모델 GPT-5.4-mini와 동률), 어떻게 자기네 벤치에선 선두에 서느냐고요. IT 매체 벤처비트도 이번 K2.7을 두고 "실무자들은 그 벤치가 실제와 맞지 않는다고 말한다"고 보도했습니다.

자체 벤치가 무조건 거짓말이란 뜻은 아닙니다. 다만 시험 문제를 직접 낸 사람이 자기 시험 점수를 발표하면, 그건 검증된 실력이 아니라 마케팅 자료에 가까워요. 제가 모델을 다룰 때 늘 지키는 원칙이 있는데, 모델은 내 일에 직접 물려보기 전엔 모릅니다.

그래도 살 이유는 있다

공포팔이로 끝내면 반쪽짜리입니다. 자체 벤치를 걷어내도 K2.7이 매력적인 이유는 분명히 있어요.

가격이 괜찮습니다. 입력 100만 토큰에 $0.95면 클로드·GPT 최상위 모델의 5분의 1 수준이고, 코드 에이전트처럼 토큰을 대량으로 태우는 작업일수록 이 차이가 복리로 벌어집니다. 오픈웨이트라 내 서버에 직접 올려서 데이터를 밖으로 안 내보내고 돌릴 수도 있고요(물론 이걸 갖추려면 어마어마한 돈이 필요합니다). MCP 같은 도구를 불러 쓰는 에이전트형 코딩(AI가 알아서 파일 열고 명령 돌리고 고치는 작업)에선 실사용 평이 꽤 좋은 편입니다.

오픈웨이트라 가중치를 받아 내 서버에 직접 올릴 수 있습니다. 약 595GB. 데이터를 밖으로 안 내보내고 돌리고 싶은 회사엔 이게 가격보다 큰 이유가 되기도 합니다.
오픈웨이트라 가중치를 받아 내 서버에 직접 올릴 수 있습니다. 약 595GB. 데이터를 밖으로 안 내보내고 돌리고 싶은 회사엔 이게 가격보다 큰 이유가 되기도 합니다.

저희도 회사에서 반복적인 코드 작업은 점점 더 싼 모델로 내려보내고 있어요. 가장 어려운 한 방 추론, 복잡한 문제를 한 번에 푸는 능력은 아직 클로드 Opus 4.8 같은 프리미엄 플래그십이 위입니다. 대신 '싸게, 많이, 자동으로 굴리는' 코딩이라면 K2.7은 진지한 선택지예요. 비싼 모델로 다 돌리던 반복 작업을 5분의 1 가격 모델로 갈아탈 여지가 생긴 겁니다.

결론: 스펙시트만 믿을 수는 없다

신상 AI 모델 소식을 받아들이는 법은 의외로 단순합니다. 검증 가능한 스펙(파라미터·컨텍스트·가격·라이선스)이 어디까지인지 분리할 것.

Kimi K2.7은 스펙시트로 보면 올해 가장 흥미로운 오픈 코딩 모델 중 하나가 맞습니다. 싸고, 열려 있고, 가볍거든요. 다만 공식 벤치마크에 해당하는 점수가 적거나 불분명하고, 차라리 MiMo-V2.5-Pro 혹은 DeepSeek V4 Pro 같은 모델이 훨씬 더 저렴하면서 성능차이는 그리 크지 않다는 점에서는 매력이 부족하죠.

특히 Cursor는 자사 코딩 모델 Composer를 사실 Kimi K2.5 기반으로 만들고도 처음엔 그 사실을 밝히지 않았다가 나중에 인정한 일이 있습니다. 흥미로운 건, 4월에 K2.6이 나온 뒤에도 새 베이스로 갈아타지 않고 일부러 K2.5에 자체 강화학습을 더 얹는 쪽을 택했다는 거예요. 그렇게 다듬은 모델보다 이번 raw K2.7이 더 낫다는 보장도 없어, 이번엔 다소 실망스럽다는 평도 나옵니다.

공유XThreads