기술 출력

💻코드·개발

Code·development

외피 — 산업 도메인

코드·개발 (백엔드·프론트엔드)

내용 — 측정하는 AI 능력

· 코드 생성 정확도
· 디버깅·리팩토링 추론
· 아키텍처·프레임워크 선택 (Python·TypeScript·React)

모델별 종합 점수

✓ 챗봇 1턴

측정일 2026-06-17T16:51:04+00:00 · 5개 항목 × 100점 기준

채점자 axybench/v0.1/runner (vendor direct) · max_tokens 64000 · temp 0.7 · attempts 1 · reasoning_effort medium

모델
1Claude Opus 4.8	5/5	100	100	92	60	100	95.2
2Grok 4.5	5/5	100	100	94	64	95	94.2
3GPT-5.5	5/5	92	92	88	60	92	88.4
4MiniMax M3	5/5	86	92	93	67	92	87.8
5Gemini 3.1 Pro	5/5	88	88	80	64	96	87.2
6Claude Sonnet 4.6	5/5	88	84	80	72	96	87.2
7Gemini 3.5 Flash	5/5	84	80	76	80	92	84.4
8Nemotron 3 Ultra 550B	5/5	81	86	80	81	89	84.0
9CommanderCMD 1.0 Lite	5/5	88	84	76	68	88	84.0
10DeepSeek V4 Flash	5/5	88	80	80	70	88	83.8
11CommanderCMD 1.0 Pro	5/5	84	88	76	64	88	83.2
12Qwen 3.7 Plus	5/5	84	83	82	64	84	81.4
13DeepSeek V4 Pro	5/5	84	80	80	70	82	80.8
14Mimo V2.5 Pro	5/5	84	80	80	68	82	80.6
15GPT-5.4 Mini	5/5	80	80	80	80	80	80.0
16Kimi K2.6	5/5	80	80	80	80	80	80.0
17GLM 5.1	5/5	80	80	80	80	80	80.0
18Gemma 4 12B	5/5	82	81	82	60	82	80.0
19Qwen 3.7 Max	5/5	80	80	80	76	80	79.6
20Grok 4.3	5/5	86	77	77	70	77	79.0
21Mistral Small 4	5/5	84	78	74	70	79	78.8
22Step 3.7 Flash	5/5	66	89	72	70	90	78.8
23Qwen 3.6 27B	5/5	81	78	73	70	78	77.4
24Tencent Hy3 Preview	5/5	74	80	76	62	83	76.9
25Gemini 3.1 Flash Lite	5/5	80	80	76	70	72	76.2
26Gemma 4 26B A4B	5/5	78	79	74	70	75	76.0
27Qwen 3.6 35B A3B	5/5	76	78	68	70	76	75.0
28Solar Pro 3	5/5	70	78	60	46	85	73.0
29Qwen 3.5 9B	5/5	64	78	65	71	82	72.8
30Gemma 4 31B	5/5	72	80	68	64	72	72.4
31EXAONE 4.5 33B	5/5	58	65	50	40	65	59.0
32HyperCLOVAX SEED Think 32B	5/5	44	64	48	60	56	53.6
33Gemma 4 E2B	5/5	49	55	46	47	51	50.4
34Kanana 2 30B-A3B Thinking	5/5	42	60	43	40	57	50.2
35LFM2.5 8B-A1B	5/5	39	48	36	38	41	40.8
36HyperCLOVAX SEED 1.5B	5/5	32	43	31	33	33	34.2

문항별 점수

5 문항

각 문항당 모델 세부 점수. 응답 원문·근거는 문항 카드 우측 링크.

코드·개발 · 문항 1FastAPI + SQLAlchemy 2.0 async — 카드결제 환불 엔드포인트공개

FastAPI + SQLAlchemy 2.0 async — 카드결제 환불 엔드포인트

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

1001001006010096

GPT-5.5OpenAI

1001001006010096

MiniMax M3Minimax

829094758284

Gemini 3.1 ProGoogle

8080806010084

Claude Sonnet 4.6Anthropic

8080808010086

Gemini 3.5 FlashGoogle

8080808010086

Nemotron 3 Ultra 550BNVIDIA

878585808886

CMD 1.0 LiteCommander

808060808078

DeepSeek V4 FlashDeepSeek

8080807010085

CMD 1.0 ProCommander

808080808080

Qwen 3.7 PlusAlibaba

848482648682

DeepSeek V4 ProDeepSeek

808080709082

Mimo V2.5 ProXiaomi

808080709082

GPT-5.4 MiniOpenAI

808080808080

Kimi K2.6Moonshot

808080808080

GLM 5.1Z.ai

808080808080

Gemma 4 12BGoogle

788078608077

Qwen 3.7 MaxAlibaba

808080608078

Grok 4.3xAI

807575707576

Mistral Small 4Mistral

808070708078

Step 3.7 FlashStepFun

628862709076

Qwen 3.6 27BAlibaba

758075708077

Tencent Hy3 PreviewTencent

728075628275.9

Gemini 3.1 Flash LiteGoogle

808080706073

Gemma 4 26B A4BGoogle

707570707572

Qwen 3.6 35B A3BAlibaba

808070708078

Solar Pro 3Upstage

758070509078

Qwen 3.5 9BAlibaba

607865708573

Gemma 4 31BGoogle

608080606066

EXAONE 4.5 33BLG AI

102020201014

HyperCLOVAX SEED Think 32BNaver

406040606052

Gemma 4 E2BGoogle

445243434646

Kanana 2 30B-A3B ThinkingKakao

102020201014

LFM2.5 8B-A1BLiquid AI

404938404242

HyperCLOVAX SEED 1.5BNaver

294129323132

Grok 4.5xAI

1001001008010098

코드·개발 · 문항 2React 19 + Tailwind 4 — 가상 스크롤 테이블 (1만 행)비공개

React 가상 스크롤 테이블

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

1001001006010096

GPT-5.5OpenAI

808080608078

MiniMax M3Minimax

889592809691

Gemini 3.1 ProGoogle

80100806010088

Claude Sonnet 4.6Anthropic

100100806010094

Gemini 3.5 FlashGoogle

808060808078

Nemotron 3 Ultra 550BNVIDIA

608062758874

CMD 1.0 LiteCommander

808080808080

DeepSeek V4 FlashDeepSeek

808080708079

CMD 1.0 ProCommander

80100806010088

Qwen 3.7 PlusAlibaba

808280648279

DeepSeek V4 ProDeepSeek

808080708079

Mimo V2.5 ProXiaomi

808080708079

GPT-5.4 MiniOpenAI

808080808080

Kimi K2.6Moonshot

808080808080

GLM 5.1Z.ai

808080808080

Gemma 4 12BGoogle

787680608077

Qwen 3.7 MaxAlibaba

808080808080

Grok 4.3xAI

808080708079

Mistral Small 4Mistral

807070707574

Step 3.7 FlashStepFun

528855708872

Qwen 3.6 27BAlibaba

807070707574

Tencent Hy3 PreviewTencent

768278628578.7

Gemini 3.1 Flash LiteGoogle

808080708079

Gemma 4 26B A4BGoogle

808080708079

Qwen 3.6 35B A3BAlibaba

807070707073

Solar Pro 3Upstage

507040408061

Qwen 3.5 9BAlibaba

526860707866

Gemma 4 31BGoogle

808060608076

EXAONE 4.5 33BLG AI

406040407053

HyperCLOVAX SEED Think 32BNaver

206040604040

Gemma 4 E2BGoogle

425040424444

Kanana 2 30B-A3B ThinkingKakao

306040406047

LFM2.5 8B-A1BLiquid AI

445340434646

HyperCLOVAX SEED 1.5BNaver

294129313132

Grok 4.5xAI

100100906010095

코드·개발 · 문항 3디버깅 — Postgres 슬로우 쿼리 (N+1 + 인덱스 누락 혼재)비공개

슬로우 쿼리 디버깅

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

100100806010094

GPT-5.5OpenAI

100100806010094

MiniMax M3Minimax

959290609590

Gemini 3.1 ProGoogle

10080806010090

Claude Sonnet 4.6Anthropic

10080808010092

Gemini 3.5 FlashGoogle

10080808010092

Nemotron 3 Ultra 550BNVIDIA

929290859291

CMD 1.0 LiteCommander

10080806010090

DeepSeek V4 FlashDeepSeek

808080708079

CMD 1.0 ProCommander

8080606010082

Qwen 3.7 PlusAlibaba

848482648682

DeepSeek V4 ProDeepSeek

808080708079

Mimo V2.5 ProXiaomi

808080708079

GPT-5.4 MiniOpenAI

808080808080

Kimi K2.6Moonshot

808080808080

GLM 5.1Z.ai

808080808080

Gemma 4 12BGoogle

888282608683

Qwen 3.7 MaxAlibaba

808080808080

Grok 4.3xAI

1008080708085

Mistral Small 4Mistral

908080708082

Step 3.7 FlashStepFun

709080709081

Qwen 3.6 27BAlibaba

808070707576

Tencent Hy3 PreviewTencent

848580628581.9

Gemini 3.1 Flash LiteGoogle

608060706065

Gemma 4 26B A4BGoogle

608060706065

Qwen 3.6 35B A3BAlibaba

608060707068

Solar Pro 3Upstage

708060508574

Qwen 3.5 9BAlibaba

808575728581

Gemma 4 31BGoogle

808060608076

EXAONE 4.5 33BLG AI

758060508074

HyperCLOVAX SEED Think 32BNaver

608060606064

Gemma 4 E2BGoogle

555951515756

Kanana 2 30B-A3B ThinkingKakao

607555507566

LFM2.5 8B-A1BLiquid AI

475343454948

HyperCLOVAX SEED 1.5BNaver

374636363839

Grok 4.5xAI

1001001006010096

코드·개발 · 문항 4async 거짓 전제 교정 — asyncio 코루틴·gather 예외 의미론비공개

asyncio 거짓전제 교정

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

1001001006010096

GPT-5.5OpenAI

1001001006010096

MiniMax M3Minimax

959592609591

Gemini 3.1 ProGoogle

100100808010096

Claude Sonnet 4.6Anthropic

808080808080

Gemini 3.5 FlashGoogle

808080808080

Nemotron 3 Ultra 550BNVIDIA

939290859091

CMD 1.0 LiteCommander

100100806010094

DeepSeek V4 FlashDeepSeek

1008080708085

CMD 1.0 ProCommander

10010080608088

Qwen 3.7 PlusAlibaba

908584648685

DeepSeek V4 ProDeepSeek

1008080708085

Mimo V2.5 ProXiaomi

1008080708085

GPT-5.4 MiniOpenAI

808080808080

Kimi K2.6Moonshot

808080808080

GLM 5.1Z.ai

808080808080

Gemma 4 12BGoogle

888888628685

Qwen 3.7 MaxAlibaba

808080808080

Grok 4.3xAI

1008080708085

Mistral Small 4Mistral

908070708081

Step 3.7 FlashStepFun

789082709084

Qwen 3.6 27BAlibaba

908070708081

Tencent Hy3 PreviewTencent

627065628269.9

Gemini 3.1 Flash LiteGoogle

1008080708085

Gemma 4 26B A4BGoogle

1008080708085

Qwen 3.6 35B A3BAlibaba

808060708077

Solar Pro 3Upstage

758070508576

Qwen 3.5 9BAlibaba

788868728681

Gemma 4 31BGoogle

808080808080

EXAONE 4.5 33BLG AI

858570508580

HyperCLOVAX SEED Think 32BNaver

406040606052

Gemma 4 E2BGoogle

606255556260

Kanana 2 30B-A3B ThinkingKakao

657555507568

LFM2.5 8B-A1BLiquid AI

273826272930

HyperCLOVAX SEED 1.5BNaver

324330333234

Grok 4.5xAI

1001001006010096

코드·개발 · 문항 5TypeScript — 복잡한 제네릭 타입 (Result<T, E> + 체이닝)비공개

TS 제네릭 (Result 모나드)

본문·raw·근거 →

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

100100806010094

GPT-5.5OpenAI

808080608078

MiniMax M3Minimax

729095609283

Gemini 3.1 ProGoogle

808080608078

Claude Sonnet 4.6Anthropic

8080806010084

Gemini 3.5 FlashGoogle

8080808010086

Nemotron 3 Ultra 550BNVIDIA

728072788578

CMD 1.0 LiteCommander

808080608078

DeepSeek V4 FlashDeepSeek

10080807010091

CMD 1.0 ProCommander

808080608078

Qwen 3.7 PlusAlibaba

808280648279

DeepSeek V4 ProDeepSeek

808080708079

Mimo V2.5 ProXiaomi

808080608078

GPT-5.4 MiniOpenAI

808080808080

Kimi K2.6Moonshot

808080808080

GLM 5.1Z.ai

808080808080

Gemma 4 12BGoogle

808084607878

Qwen 3.7 MaxAlibaba

808080808080

Grok 4.3xAI

707070707070

Mistral Small 4Mistral

808080708079

Step 3.7 FlashStepFun

689082709081

Qwen 3.6 27BAlibaba

808080708079

Tencent Hy3 PreviewTencent

788282628078.2

Gemini 3.1 Flash LiteGoogle

808080708079

Gemma 4 26B A4BGoogle

808080708079

Qwen 3.6 35B A3BAlibaba

808080708079

Solar Pro 3Upstage

808060408576

Qwen 3.5 9BAlibaba

487055707563

Gemma 4 31BGoogle

608060606064

EXAONE 4.5 33BLG AI

808060408074

HyperCLOVAX SEED Think 32BNaver

606060606060

Gemma 4 E2BGoogle

445043444646

Kanana 2 30B-A3B ThinkingKakao

457045406556

LFM2.5 8B-A1BLiquid AI

364534363838

HyperCLOVAX SEED 1.5BNaver

324330333234

Grok 4.5xAI

10010080607586