온도 0.7 고정 — vendor default drift 차단
CLAUDE.md·DESIGN.md·runner.py 셋 다 0.7로 통일.
HELM 권고 — 온도 미세 차이가 점수에 큰 영향을 준다는 보고가 있어, vendor가 각자 권장값을 쓰면 비교 불가. 한 번만 측정해서, 응답 변동은 영상에서 별도 단서로 노출.
SSOT · CLAUDE.md §운영원칙 8
HELM·LMArena·LiveBench·SORRY-Bench·KorMedMCQA 정합
AXyBench는 카테고리당 5문항의 매거진 IP라 학술 벤치마크 표준(MMLU 100/카테고리, LMArena 1,500표)과 표본 규모가 다릅니다. 그 거리를 인정하면서도 비교 가능성을 확보하기 위해 측정·채점 기준 8개를 세웠습니다. 측정 정책 기준은 scoring.yaml에 고정합니다.
우리는 “leaderboard”라는 단어를 쓰지만, 점수는 정량 서열이 아닌 케이스 인사이트입니다. AA Intelligence Index·LMArena Elo 등 대규모 표본 벤치와는 같은 차트에 혼재하지 않습니다 (모델 페이지에서 나란히 배치만 허용).
AA Intelligence Index가 추론·지능을 잰다면 AXyBench는 한국 실무 지식을 잽니다. 우리가 측정한 범위에서 두 축의 모델 순위는 상당히 어긋났습니다 — 추론 지수 상위 모델이 한국 세무·노무 카테고리에서 중위권으로 내려앉는 일이 드물지 않았습니다. 그래서 AA 지표는 모델 페이지에 나란히 두되 우리 점수와 같은 차트에 섞지 않습니다. 두 지표는 경쟁이 아니라 보완 관계입니다.
레이더 차트와 점수표의 각 축에 마우스를 올리면 같은 설명이 뜹니다. 카테고리마다 다섯 기준의 가중치는 다릅니다 (예: 한국 맥락은 세무·법무에서 가장 무겁게).
CLAUDE.md·DESIGN.md·runner.py 셋 다 0.7로 통일.
HELM 권고 — 온도 미세 차이가 점수에 큰 영향을 준다는 보고가 있어, vendor가 각자 권장값을 쓰면 비교 불가. 한 번만 측정해서, 응답 변동은 영상에서 별도 단서로 노출.
SSOT · CLAUDE.md §운영원칙 8
표본이 작아 점수 차가 작으면 우열을 단정하지 않습니다.
카테고리당 5문항만 측정해서 표본이 작습니다. 모델 간 점수가 근소하게 갈릴 때 'X가 Y보다 우월'로 단정하지 않고 '통계적 동률'로 다룹니다. AA·LMArena의 불확실성 표기 톤과 정합.
SSOT · scoring.yaml::policy.confidence_interval
매 EP 셀의 20% 재채점. quadratic-weighted κ ≥ 0.6 강제.
'의심 셀만 교차 채점'은 일치하는 셀을 검증하지 못해 선택 편향이 생깁니다. 무작위 추출로 전환했습니다. κ가 0.6 미만이면 채점 기준 자체를 재정비하고, 매 회차 κ를 공개합니다.
SSOT · scoring.yaml::policy.double_coding
legitimate(Q3 -5) / over_refusal(Q1·Q3 0) / partial.
GPT-5·Claude·Gemini safety guardrail로 거부할 때 어떻게 점수 매길지 명시. 의료·법무·노무·차사고는 'legitimate abstain + 대안 제시'면 부분 점수. 일반 질문 over-refusal은 빵점 (영상 시그니처 컷 가능).
SSOT · scoring.yaml::policy.refusal_handling
0 / 0.30 / 0.60 / 1.00 비율 환산. 카테고리 weight 곱해서 실점.
구 '미국 답 = Q2 0점' 하드 바이너리는 정보 손실. KorMedMCQA 사례 — 美/韓 상관도 타 도메인 수준이라 변별력은 실재. 그러나 '미국 + 한국 보정' 답변도 일정 점수 인정.
SSOT · scoring.yaml::axes.Q2.grading_levels
all / vision_capable (default) / text_only.
T3 도면은 준비중이고, 공식 비전 정량 카테고리는 VL 문서·시각자료 이해로 통합. 비전 N/A 처리 시 분모만 줄어 vision 미지원 모델이 인위적으로 leaderboard 상위로 올라오지 않도록 3 view 토글로 분리 표시.
SSOT · scoring.yaml::policy.leaderboard_views
단독 채점의 권위 한계를 LLM 교차 + 답안 공개 + 카테고리별 권위 표기로 보완.
1인 운영 매거진의 현실을 인정합니다. 단독 채점의 권위 한계는 세 겹으로 보완합니다 — (1) 다른 계열 모델로 교차 채점(순서 바꿔 2회), (2) 답안 원문 전체 공개 + 독자 정정 수용, (3) 카테고리별 채점 권위 등급을 명시. 권위가 약한 카테고리는 정량 채점 대신 시연 corner로만 다룹니다.
SSOT · scoring.yaml::policy.authority_disclosure + policy.llm_cross_check_policy
공개 문항은 6개월 후 완전 교체. 이상 상승 +5점 이상이면 즉시 교체.
공개 문항은 다음 모델의 학습 데이터에 포함될 위험이 있습니다. 공개 문항 점수가 비공개 문항 대비 +5점 이상 높게 튀면 학습 오염 신호로 보고 교체합니다. LiveBench의 월간 교체 정책을 부분 채택.
SSOT · scoring.yaml::policy.rotation_policy