AXyBench는 무엇인가요?

AXyBench는 한국 비즈니스 실무 과제를 여러 AI 모델에 똑같이 던지고, 한국 직무자가 100점 기준으로 직접 채점하는 벤치마크입니다. 세무·노무·마케팅·코드·문서 등 실제 업무 카테고리를 다룹니다. 매거진 AXyNow가 운영합니다.

점수는 어떻게 매기나요?

각 모델은 문항당 한 번 응답하고, 그 응답을 다섯 가지 세부 기준(정확성·의도 파악·신중함·한국 맥락·짜임새)으로 0점에서 100점까지 채점합니다. 시스템 프롬프트·도구·메모리를 모두 끈 단발 챗봇 1턴 응답을 측정합니다.

측정 조건은 어떻게 되나요?

시스템 프롬프트는 빈 문자열, 도구와 메모리는 사용하지 않으며, 단일 턴, 최대 32,768 토큰, reasoning effort는 각 벤더 medium, temperature 0.7로 통일합니다. 모델 호출은 vendor 직결을 1순위, OpenRouter를 2순위 fallback으로 라우팅합니다.

글로벌 벤치마크와 무엇이 다른가요?

MMLU나 Artificial Analysis 같은 글로벌 벤치는 추론과 지능을 잽니다. AXyBench는 한국 세무·노무·법무처럼 현지 실무 지식을 잽니다. 우리 측정 범위에서 두 축의 모델 순위는 자주 어긋났고, 그래서 두 지표는 경쟁이 아니라 보완 관계입니다.

채점 결과를 인용해도 되나요?

환영합니다. 데이터는 CC BY 4.0이며, 출처를 'AXyNow / AXyBench'로 표기해 주세요. 모델 버전에 따라 점수가 달라질 수 있어 측정일을 함께 표기하기를 권장합니다.

Methodology — AXyBench 측정·채점 기준

Methodology · 측정·채점 기준 8개

AXyBench 측정·채점 기준

HELM·LMArena·LiveBench·SORRY-Bench·KorMedMCQA 정합

AXyBench는 카테고리당 5문항의 매거진 IP라 학술 벤치마크 표준(MMLU 100/카테고리, LMArena 1,500표)과 표본 규모가 다릅니다. 그 거리를 인정하면서도 비교 가능성을 확보하기 위해 측정·채점 기준 8개를 세웠습니다. 측정 정책 기준은 scoring.yaml에 고정합니다.

우리는 “leaderboard”라는 단어를 쓰지만, 점수는 정량 서열이 아닌 케이스 인사이트입니다. AA Intelligence Index·LMArena Elo 등 대규모 표본 벤치와는 같은 차트에 혼재하지 않습니다 (모델 페이지에서 나란히 배치만 허용).

AA Intelligence Index가 추론·지능을 잰다면 AXyBench는 한국 실무 지식을 잽니다. 우리가 측정한 범위에서 두 축의 모델 순위는 상당히 어긋났습니다 — 추론 지수 상위 모델이 한국 세무·노무 카테고리에서 중위권으로 내려앉는 일이 드물지 않았습니다. 그래서 AA 지표는 모델 페이지에 나란히 두되 우리 점수와 같은 차트에 섞지 않습니다. 두 지표는 경쟁이 아니라 보완 관계입니다.

5개 채점 기준, 풀어서

레이더 차트와 점수표의 각 축에 마우스를 올리면 같은 설명이 뜹니다. 카테고리마다 다섯 기준의 가중치는 다릅니다 (예: 한국 맥락은 세무·법무에서 가장 무겁게).

01정확성Grounding: 인용한 수치·제도·법조문이 사실과 맞는지. 틀린 정보를 말하면 깎입니다.
02의도 파악Intent: 질문의 진짜 의도와 상황·조건을 제대로 이해했는지.
03신중함Calibration: 모르면 모른다고 인정하고, 불확실한 걸 함부로 단정하거나 지어내지 않는지. (정확성과 별개 — '틀렸지만 정직' vs '맞지만 과신'을 가른다)
04한국 맥락Korean specificity: 한국 제도·실무에 맞는 구체적인 답인지. 미국 등 외국 기준으로 답하면 깎입니다.
05짜임새Structure: 단계적으로 잘 정리돼 바로 실무에 써먹을 수 있는 구성인지.

기준 V3ref · HELM (Stanford CRFM)

온도 0.7 고정 — vendor default drift 차단

CLAUDE.md·DESIGN.md·runner.py 셋 다 0.7로 통일.

HELM 권고 — 온도 미세 차이가 점수에 큰 영향을 준다는 보고가 있어, vendor가 각자 권장값을 쓰면 비교 불가. 한 번만 측정해서, 응답 변동은 영상에서 별도 단서로 노출.

SSOT · CLAUDE.md §운영원칙 8

기준 V1ref · LMArena (점수 불확실성 표기)

근소차 = '통계적 동률'로 표시

표본이 작아 점수 차가 작으면 우열을 단정하지 않습니다.

카테고리당 5문항만 측정해서 표본이 작습니다. 모델 간 점수가 근소하게 갈릴 때 'X가 Y보다 우월'로 단정하지 않고 '통계적 동률'로 다룹니다. AA·LMArena의 불확실성 표기 톤과 정합.

SSOT · scoring.yaml::policy.confidence_interval

기준 V2ref · Cohen (1960) · 카파 임계 0.6/0.8

무작위 20% double-coding + Cohen κ

매 EP 셀의 20% 재채점. quadratic-weighted κ ≥ 0.6 강제.

'의심 셀만 교차 채점'은 일치하는 셀을 검증하지 못해 선택 편향이 생깁니다. 무작위 추출로 전환했습니다. κ가 0.6 미만이면 채점 기준 자체를 재정비하고, 매 회차 κ를 공개합니다.

SSOT · scoring.yaml::policy.double_coding

기준 T1ref · SORRY-Bench · AbstentionBench

Refusal/Abstain 3분류 룰

정당한 거부는 부분 감점, 과도한 거부는 0점, 부분 답변은 부분 인정.

GPT-5·Claude·Gemini safety guardrail로 거부할 때 어떻게 점수 매길지 명시. 의료·법무·노무·차사고는 'legitimate abstain + 대안 제시'면 부분 점수. 일반 질문 over-refusal은 빵점 (영상 시그니처 컷 가능).

SSOT · scoring.yaml::policy.refusal_handling

기준 T2ref · KorMedMCQA · MedQA 상관도 분석

한국 맥락 채점: 이분법에서 4단계 비율로

0 / 0.30 / 0.60 / 1.00 비율 환산. 카테고리 비중을 곱해서 실점.

구 '미국 답이면 0점' 하드 바이너리는 정보 손실입니다. KorMedMCQA 사례에서 미국과 한국의 상관도가 다른 도메인 수준이라 변별력은 실재합니다. 그래서 '미국 기준 + 한국 보정' 답변에도 일정 점수를 인정합니다.

SSOT · scoring.yaml::sub_criteria_v2_1.k_kr_specificity

기준 VLref · LMArena 카테고리별 ELO 분리

Leaderboard 3 view 분리

all / vision_capable (default) / text_only.

도면 카테고리는 준비 중이고, 공식 비전 정량 카테고리는 '문서·시각자료 이해'로 통합했습니다. 비전 N/A 처리 시 분모만 줄어 비전 미지원 모델이 인위적으로 상위로 올라오지 않도록 3 view 토글로 분리 표시합니다.

SSOT · scoring.yaml::policy.leaderboard_views

기준 T5ref · 1인 매거진 현실 정합 + LMArena open vote

이해관계 공개 + 3중 교차 검증

단독 채점의 권위 한계를 LLM 교차 + 답안 공개 + 카테고리별 권위 표기로 보완.

1인 운영 매거진의 현실을 인정합니다. 단독 채점의 권위 한계는 세 겹으로 보완합니다 — (1) 다른 계열 모델로 교차 채점(순서 바꿔 2회), (2) 답안 원문 전체 공개 + 독자 정정 수용, (3) 카테고리별 채점 권위 등급을 명시. 권위가 약한 카테고리는 정량 채점 대신 시연 corner로만 다룹니다.

SSOT · scoring.yaml::policy.authority_disclosure + policy.llm_cross_check_policy

기준 T6ref · LiveBench · TRUCE private benchmarking

공개 문항 6개월 교체 + drift 모니터링

공개 문항은 6개월 후 완전 교체. 이상 상승 +5점 이상이면 즉시 교체.

공개 문항은 다음 모델의 학습 데이터에 포함될 위험이 있습니다. 공개 문항 점수가 비공개 문항 대비 +5점 이상 높게 튀면 학습 오염 신호로 보고 교체합니다. LiveBench의 월간 교체 정책을 부분 채택.

SSOT · scoring.yaml::policy.rotation_policy

남은 미해결 (자발 디스클로저)

한국 맥락 점수는 카테고리 간 직접 비교가 어렵습니다. 코드 카테고리와 부동산 카테고리는 한국 맥락의 비중이 서로 달라, 두 점수를 같은 잣대로 놓으면 안 됩니다. 난이도 라벨로 정규화가 필요합니다.
문항당 1회 측정 — 매거진 IP 정체성과 1인 운영 캐파 정합. 학술 벤치의 반복 측정(n=3 이상) 신뢰도는 의도적으로 포기했고, 응답 변동은 영상에서 별도 컷으로 노출합니다.
chat template normalization 미적용 — 각 vendor의 default chat template은 그대로 사용. lm-eval-harness의 통일된 prompt formatter는 챗봇 1턴 정체성과 충돌해서 미채택.
seed 미지원 — Anthropic·Vertex 일부 미지원. 한 번만 측정해서 영상에서 측정일과 응답 변동을 단서로 표기합니다.

자주 묻는 질문

AXyBench는 무엇인가요?: AXyBench는 한국 비즈니스 실무 과제를 여러 AI 모델에 똑같이 던지고, 한국 직무자가 100점 기준으로 직접 채점하는 벤치마크입니다. 세무·노무·마케팅·코드·문서 등 실제 업무 카테고리를 다룹니다. 매거진 AXyNow가 운영합니다.
점수는 어떻게 매기나요?: 각 모델은 문항당 한 번 응답하고, 그 응답을 다섯 가지 세부 기준(정확성·의도 파악·신중함·한국 맥락·짜임새)으로 0점에서 100점까지 채점합니다. 시스템 프롬프트·도구·메모리를 모두 끈 단발 챗봇 1턴 응답을 측정합니다.
측정 조건은 어떻게 되나요?: 시스템 프롬프트는 빈 문자열, 도구와 메모리는 사용하지 않으며, 단일 턴, 최대 32,768 토큰, reasoning effort는 각 벤더 medium, temperature 0.7로 통일합니다. 모델 호출은 vendor 직결을 1순위, OpenRouter를 2순위 fallback으로 라우팅합니다.
글로벌 벤치마크와 무엇이 다른가요?: MMLU나 Artificial Analysis 같은 글로벌 벤치는 추론과 지능을 잽니다. AXyBench는 한국 세무·노무·법무처럼 현지 실무 지식을 잽니다. 우리 측정 범위에서 두 축의 모델 순위는 자주 어긋났고, 그래서 두 지표는 경쟁이 아니라 보완 관계입니다.
채점 결과를 인용해도 되나요?: 환영합니다. 데이터는 CC BY 4.0이며, 출처를 'AXyNow / AXyBench'로 표기해 주세요. 모델 버전에 따라 점수가 달라질 수 있어 측정일을 함께 표기하기를 권장합니다.

← LLM Bench 종합 순위 소개