MRR 보간·순증 집계·각주 반영
비공개 문항 — 학습 오염 방지. 측정 영상에서 응답 원문과 함께 본문 공개.
기대 포맷세 문항 각각 단답 + 각주 반영 여부 명시
사전 정의 함정2건 — 발동 모델에 ⚠ 표시
모델별 응답 · 채점
20개 모델. 점수만 보임 — 모델명 클릭 시 raw·근거·cross 펼침.
Claude Opus 4.8Anthropic100100100100100100
**(1) 6월 CommanderOS MRR** 그림 1에서 CommanderOS 선의 6월 지점은 60과 80 눈금 사이, 60에 가깝게 위치합니다. 눈금 보간 시 **약 67백만원**입니다. **(2) 2분기 전체 '순증' 고객 합계 (표 1 기준)** 표 1의 순증 합계 = 15 + 17 + 6 + 8 = **46명** (= 신규 62명 − 이탈 16명) **(3) 각주 반영 시** 각주에 따르면 네이버검색 이탈 5명 중 2명은 무료체험 미전환으로 이탈이 아닙니다. - 네이버검색 이탈: 5명 → 3명 (2명 제외) - 네이버검색 순증: 6명 → **8명** (+2) - 전체 순증: 46명 → **48명** (+2) 즉, 재분류 후 전체 순증은 **48명**으로 늘어납니다.
채점 근거6월 MRR≈67·순증 46·각주반영 48 모두 정확. 각주 calibration 통과. 채널별 분해까지 정합.
Gemini 3.1 ProGoogle100100100100100100
첨부된 자료를 바탕으로 한 답변은 다음과 같습니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가?** y축 눈금을 보면 6월 CommanderOS의 데이터 포인트는 60과 80 사이의 절반(70)보다 약간 아래에 위치해 있습니다. 따라서 **약 67~68백만원** (또는 70백만원에 가까운 수치)으로 추정할 수 있습니다. **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는?** 표 1의 우측 하단 '합계' 행과 '순증' 열이 교차하는 값을 보면 **46(명)** 입니다. **(3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가?** 자료 하단의 '* 각주 1'을 보면 "재분류 후 네이버검색 순증은 8명, 전체 순증은 48명이다."라고 명시되어 있습니다. 따라서 각주를 반영하면 전체 순증 고객 합계는 46명에서 **48명**으로 바뀝니다.
채점 근거67~68·46·48 정확. 각주 직접 인용으로 정정 반영.
Gemini 3.5 FlashGoogle100100100100100100
제시된 경영실적 자료를 바탕으로 한 답변은 다음과 같습니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가? (눈금 보간)** * **답변:** **약 67 ~ 68백만원** * **설명:** 그림 1의 세로축 눈금(60과 80)을 기준으로 보간해 보면, 6월 CommanderOS(파란색 실선)의 위치는 60과 80의 중간값인 70보다 약간 아래에 위치하고 있어 **약 67~68백만원**으로 추정할 수 있습니다. **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는?** * **답변:** **46명** * **설명:** 표 1의 '순증' 열의 '합계' 행에 기재된 수치는 **46**입니다. **(3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가?** * **답변:** **48명으로 2명 증가합니다.** * **설명:** 하단의 '각주 1'에 따르면, 네이버검색 이탈 고객 5명 중 2명이 무료체험 미전환(이탈 아님)으로 재분류됨에 따라 네이버검색 순증은 8명으로 늘어나고, 이에 따라 **전체 순증 합계는 기존 46명에서 48명으로 변경**됩니다.
채점 근거6월 MRR≈67·순증 46·각주반영 48 모두 정확. 각주 calibration 통과.
Gemini 3.1 Flash LiteGoogle100100100100100100
제공해주신 경영실적 자료를 바탕으로 답변드립니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가?** * 그림 1의 6월 CommanderOS(파란색 실선) 그래프 위치를 보면, y축의 눈금 60과 80 사이에서 60에 조금 더 가깝게 위치해 있습니다. 눈금을 보간하여 추정하면 **약 65백만 원**입니다. **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는?** * 표 1의 '순증' 열에 기재된 각 항목(15, 17, 6, 8)을 모두 합산하면 **46명**입니다. (표 하단 '합계' 행과 일치합니다.) **(3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가?** * 각주 1에 따르면, 네이버검색 이탈자 중 2명이 이탈이 아닌 것으로 재분류되어야 합니다. 이에 따라 네이버검색의 순증이 6명에서 8명으로 늘어나게 되며, 결과적으로 전체 순증 합계는 46명에서 **48명**으로 바뀝니다. (각주에 명시된 최종값과 일치합니다.)
채점 근거65·46·48 정확(보간 60근접).
GPT-5.5OpenAI100100100100100100
(1) 그림 1의 6월 **CommanderOS MRR은 약 67백만원**으로 보입니다. - 60과 80 사이에서 60에 조금 더 가까운 지점입니다. (2) 표 1 기준 2분기 전체 **순증 고객 합계는 46명**입니다. - 표의 합계 행: 신규 62명 - 이탈 16명 = **순증 46명** (3) 각주를 반영하면 **전체 순증은 48명**으로 바뀝니다. - 네이버검색 이탈 5명 중 2명이 “이탈 아님”으로 재분류 - 따라서 네이버검색 순증: 6명 → 8명 - 전체 순증: 46명 → **48명**
채점 근거6월 MRR≈67·순증 46·각주반영 48 모두 정확. 각주 calibration 통과.
GPT-5.4 MiniOpenAI100100100100100100
(1) **6월 CommanderOS MRR**은 눈금 보간 시 **약 67백만원**입니다. (2) **표 1 기준 2분기 전체 ‘순증’ 고객 합계**는 **46명**입니다. (3) **각주를 반영하면** 네이버검색의 이탈 2명이 이탈이 아닌 것으로 재분류되어 **전체 순증은 48명**으로 바뀝니다. - 즉, **46명 → 48명**입니다.
채점 근거67·46·48 정확(간결).
Kimi K2.6Moonshot100100100100100100
(1) 그림 1의 6월 CommanderOS(파란 실선) 데이터 포인트는 Y축 60과 80 사이에서 약 2/3 지점, 즉 **약 67~68백만원**(눈금 보간 시 약 68백만원 내외)입니다. (2) 표 1의 ‘합계’ 행에서 2분기 전체 **순증 고객은 46명**입니다. (3) 각주 1에 따르면 네이버검색 이탈 5명 중 2명이 ‘무료체험 미전환’으로 이탈이 아닌 것으로 재분류됩니다. 이에 따라 네이버검색 순증은 6명에서 8명으로 2명 늘어나므로, **전체 순증 합계는 46명에서 48명으로 변경**됩니다.
채점 근거67~68·46·48 정확.
Qwen 3.6 35B A3BAlibaba100100100100100100
제공된 경영실적 자료를 바탕으로 답변 드립니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가?** **약 70백만원 (또는 65~70백만원 사이)** * 그림 1의 파란색 실선(CommanderOS)을 보면 6월 지점은 Y축 눈금 60과 80 사이에 위치해 있습니다. 60과 80의 중간 지점인 70 부근에 점이 찍혀 있어 약 70백만원으로 추정할 수 있습니다. (단위: 백만원) **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는?** **46명** * 표 1의 '합계' 행과 '순증' 열이 교차하는 값은 46입니다. **(3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가?** **48명으로 바뀝니다.** * 문서 하단의 '* 각주 1.' 내용을 보면, "네이버검색 이탈 5명 중 2명은 무료체험 미전환(이탈 아님)으로 재분류되어... 재분류 후 네이버검색 순증은 8명, **전체 순증은 48명**이다."라고 명시되어 있습니다. 따라서 이탈자를 순증으로 재분류하면 전체 순증 고객 수는 2명이 증가한 48명이 됩니다.
채점 근거46·48 정확하나 6월 MRR을 '중간점 70'으로 보간(실제 60위 1/3≈67) — 허용 끝값. g 경미 감점. [정정] gold anchor 64~70 만점, 답 70 밴드내 → g 만점.
Grok 4.3xAI100100100100100100
(1) 약 67 (그래프 6월 지점 보간) (2) 46명 (3) 48명 (네이버검색 순증 6→8로 조정) **해설** - (1) 그림 1의 CommanderOS(실선) 6월 점은 y축 60~80 사이에서 약 67 위치에 해당. - (2) 표 1 합계 행의 ‘순증’ 값이 그대로 46. - (3) 각주 1에 따라 네이버검색 순증을 6→8로 정정하면 전체 순증도 46→48로 바뀜.
채점 근거67·46·48 정확 + 해설 근거.
Claude Sonnet 4.6Anthropic100100100100100100
## 답변 ### (1) 6월 CommanderOS MRR (그림 1 눈금 보간) 그림 1의 Y축은 0~80 백만원 눈금이며, CommanderOS 선(실선)은 4월 약 47~48백만원 → 5월 약 60백만원 → 6월 급상승하는 형태입니다. > **6월 CommanderOS MRR ≈ 약 65~67 백만원** (주요 논의사항에 "5월 대비 6월에 두 자릿수 성장률"이라고 명시되어 있어, 60백만원의 10%+ 상승 = 66백만원 내외와 일치) --- ### (2) 표 1 기준 2분기 전체 순증 합계 | 채널 | 신규 | 이탈 | 순증 | |------|------|------|------| | 직접영업 | 18 | 3 | 15 | | X/링크드인 | 24 | 7 | 17 | | 네이버검색 | 11 | 5 | 6 | | 추천(리퍼럴) | 9 | 1 | 8 | | **합계** | **62** | **16** | **46** | > **2분기 전체 순증 합계 = 46명** --- ### (3) 각주 반영 시 변경 사항 각주 1에 따르면, **네이버검색 이탈 5명 중 2명은 무료체험 미전환(이탈 아님)으로 재분류**됩니다. - 네이버검색 순증: 6명 → **8명** (이탈이 5→3으로 감소) - 전체 순증: 46명 → **48명** > **각주 반영 후 전체 순증 합계 = 48명** (+2명 증가)
채점 근거6월 MRR≈67·순증 46·각주반영 48 모두 정확. 각주 calibration 통과. 표 완전 재구성(직접영업 18/3/15) 정확.
Qwen 3.7 PlusAlibaba9610010010010099
제시된 경영실적 자료를 바탕으로한 답변은 다음과 같습니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가?** 약 **68~70백만원**입니다. (해설: Y축 눈금 60과 80 사이에 위치하며, 70에 가까운 값을 나타내고 있습니다.) **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는?** **46명**입니다. (해설: 표 1의 '합계' 행에서 '순증' 열을 확인하면 46임을 알 수 있습니다.) **(3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가?** **48명**으로 바뀝니다. (2명 증가) (해설: 각주 1에 따르면 네이버검색 이탈 5명 중 2명이 이탈이 아닌 것으로 재분류되어, 전체 순증이 기존 46명에서 48명으로 수정됩니다.)
채점 근거doc2(경영보고서) — (1) 6월 MRR 68~70백만(만점밴드 64~70 내, 다소 상단) (2) 순증 합계 46명 ✓ (3) ★ 각주1 재분류 48명(네이버 2명) ✓ = calibration 만점. 라인보간·각주정정 모두 통과.
시그니처“qwen3.7-plus, doc2 MRR 보간·순증 46·각주 재분류 48 정확 — 각주 calibration 통과”
MiniMax M3Minimax100981009610099
# 답변 ## (1) 그림 1의 6월 CommanderOS MRR 6월 CommanderOS(파란 실선) 값은 약 **67백만원**입니다. (눈금 보간: 4월 ≈ 48, 5월 ≈ 56, 6월 ≈ 67백만원 수준) ## (2) 표 1 기준 2분기 전체 '순증' 합계 표 1의 합계행 순증 = **46명** | 채널 | 순증 | |---|---| | 직장영업 | 15 | | X/링크드인 | 17 | | 네이버검색 | 6 | | 추천(리퍼럴) | 8 | | **합계** | **46** | ## (3) 각주(*각주 1) 반영 시 변동 각주 1에 따르면, 네이버검색 이탈 5명 중 2명은 **무료체험 미전환자**로 재분류되어 이탈 처리에서 제외됩니다. - **재분류 전**(표 1 기준): 네이버검색 순증 6명 → 전체 **46명** - **재분류 후**: 네이버검색 순증 6 + 2 = **8명** → 전체 **48명** 따라서 각주를 반영하면 2분기 전체 순증은 **46명 → 48명**으로 **+2명 증가**합니다. (단, 본 문서의 표 1은 재분류 전 기준임을 유의)
채점 근거doc2: 6월 MRR 67(보간)·2분기 순증 합계 46·각주 재분류 후 48 모두 정확. 각주 calibration 통과.
Step 3.7 FlashStepFun9698100969898
(1) 그림 1에서 6월 CommanderOS MRR은 **약 66** 백만원입니다. (그래프에서 60과 80 사이의 눈금을 보간하여 6월 데이터 포인트가 60보다 약 30% 높은 위치로 추정됩니다.) (2) 표 1 기준 2분기 전체 '순증' 고객 합계는 **46명**입니다. (표 1의 합계 행 순증 컬럼 값 참조) (3) 각주 1에 따르면 네이버검색 이탈 5명 중 2명이 무료체험 미전환으로 재분류되어 이탈에서 제외되었습니다. 따라서 (2)의 값은 **2명 증가하여 48명**으로 바뀝니다. (각주에서 "전체 순증은 48명이다"라고 명시되어 있습니다.)
채점 근거doc2: 2분기 순증 합계 46·각주 재분류 후 48 정확. 6월 MRR은 '약 66'(앵커 67, 보간 허용밴드 내) — '60보다 30%↑' 보간 reasoning은 다소 muddled하나 값은 근접.
Qwen 3.5 9BAlibaba929093909292
제공된 경영실적 자료를 바탕으로 답변은 다음과 같습니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 65~67 백만원입니다.** * **근거:** 그림 1 (제품별 월 MRR 추이) 에서 CommanderOS (파란 실선) 의 6월 데이터 포인트는 Y 축의 60 선을 넘고 있으며, 80 선까지는 약 1/3 지점 정도에 위치해 있어 약 65~67 사이로 추정됩니다. **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는 46 명입니다.** * **근거:** 표 1 (2분기 채널별 고객 증감) 의 마지막 행인 '합계'와 마지막 열인 '순증'이 교차하는 값은 46입니다. **(3) 각주를 반영하면 (2)의 값은 48 명으로 바뀝니다.** * **근거:** 페이지 하단의 '* 각주 1' 에 따르면, 네이버검색 이탈로 분류되었던 5 명 중 2 명이 '무료체험 미전환'으로 재분류되어 순증 계정이 바뀌었습니다. 이에 따라 재분류 후 전체 순증은 48 명이 되었으므로, 기존 값 46 에서 2 가 증가하여 48 이 됩니다.
채점 근거doc2 경영보고서(g,s,c): q1 6월 MRR 65~67백만(anchor 64~70 내)·q2 순증합계 46·★q3 각주 재분류 반영 48 정확(calibration 핵심 통과). 62 신규합계 함정 회피. 깨끗한 출력.
HyperCLOVAX SEED Think 32BNaver1009010010010099
(1) 그림 1의 눈금 보간 결과, 6월 CommanderOS MRR은 **약 65백만 원**입니다.
(2) 표 1 기준 2분기 전체 '순증' 고객 합계는 **46명**입니다.
(3) 각주 반영 시, 네이버 검색 채널의 재분류를 고려하면 순증 합계는 **48명**으로 증가합니다.
**답변:**
1. \boxed{65}
2. \boxed{46}
3. \boxed{48}채점 근거65·46·48 정확. \boxed{} LaTeX 포맷(경영문서엔 약간 부적절) i 경미.
Gemma 4 31BGoogle8510010010010096
제시된 자료를 바탕으로 답변드립니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가?** * **답변:** 약 **63~65백만원** * **근거:** 그림 1의 파란색 선(CommanderOS)의 6월 지점을 보면, Y축 눈금 60보다 약간 위에 위치하고 있습니다. 눈금을 보간하여 추정할 때 약 63~65백만원 수준으로 보입니다. **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는?** * **답변:** **46명** * **근거:** 표 1의 가장 하단 '합계' 행과 '순증' 열이 만나는 지점의 수치는 46입니다. **(3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가?** * **답변:** **48명으로 증가합니다.** * **근거:** 각주 1에 따르면 네이버검색 채널의 이탈자 5명 중 2명은 단순 무료체험 이전자로 실제 이탈이 아니므로 데이터에서 제외해야 합니다. 이에 따라 네이버검색의 순증은 6명에서 8명으로 늘어나며, 결과적으로 전체 순증 합계는 **46명에서 48명으로 2명 증가**하게 됩니다. (각주 내에 "전체 순증은 48명이다"라고 명시되어 있습니다.)
채점 근거46·48 정확. 6월 MRR을 63~65로 저읽기('60보다 약간 위', 실제≈67) — 보간 하향 편의. g 감점.
Mistral Small 4Mistral100100100100100100
### (1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가? (눈금 보간) **답:** 약 65백만원 ### (2) 표 1 기준 2분기 전체 '순증' 고객 합계는? **답:** 46 ### (3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가? **답:** 48
채점 근거65·46·48 정확(간결). 텍스트 카테고리 catastrophic과 달리 VL 기본 통과.
EXAONE 4.5 33BLG AI1006010010010096
The user wants me to answer three specific questions based on the provided document. **Question (1): Estimate the June CommanderOS MRR in million won from Figure 1.** - I need to look at "그림 1. 제품별 월 MRR 추이 (4~6월)" (Figure 1. Monthly MRR trend by product (April-June)). - The y-axis is labeled "단위: 백만원" (Unit: million won). - The x-axis shows 4월 (April), 5월 (May), 6월 (June). - The blue line represents "CommanderOS". - In June (6월), the blue dot is above the 60 line. - Looking closely at the y-axis, the ticks are 0, 20, 40, 60, 80. - The point for June is clearly above 60. It looks to be around 65-70. Let's look closer. - April is around 48. May is around 58. June is higher, maybe around 68. - Wait, let me re-evaluate the scale. 0, 20, 40, 60, 80. - The June point is a bit below the midpoint between 60 and 80 (which would be 70). It looks like it's around 68. - Let's look at the "요약" (Summary) text: "신규 고객 유입은 X/링크드인 채널이 견인했으며..." It doesn't give the specific number. - Let's look at the table "표 1. 2분기 채널별 고객 증감" (Table 1. Q2 Channel-wise Customer Increase/Decrease). - Wait, the table shows "신규" (New), "이탈" (Churn), "순증" (Net Increase). The unit is "명" (people/customers). - The graph is MRR (Monthly Recurring Revenue) in million won. - Looking at the graph again. The blue line for CommanderOS in June is the highest point. It is above 60. It looks like it's around 65-70. Let's estimate it around 68 million won. Or maybe closer to 70? No, 70 would be exactly in the middle. It lo…
채점 근거68·46·48 모두 정확. 단 <think> 추론 전체가 content_md로 누출(6.6K) — 간결성 i 감점 지속.
Gemma 4 26B A4BGoogle20100809010071
제시된 경영실적 자료를 바탕으로 한 답변은 다음과 같습니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가?** * **답: 약 55백만 원** * **근거:** 그림 1의 CommanderOS(파란색 실선) 그래프를 보면, 4월(약 35), 5월(약 45)을 거쳐 6월의 점은 40과 60의 중간 지점인 50보다 약간 높은 **55** 지점에 위치하고 있습니다. **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는?** * **답: 46** * **근거:** 표 1의 '순증' 열과 '합계' 행이 만나는 지점의 값을 확인하면 **46**입니다. **(3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가?** * **답: 48로 바뀝니다.** * **근거:** 각주 1에 따르면, 네이버검색 이탈자 5명 중 2명은 다른 팀(무채팀)의 이탈로 재분류됩니다. 따라서 네이버검색의 이탈 고객은 5명에서 3명으로 줄어들게 되며, 이는 결과적으로 순증 고객 수를 2명 늘리는 효과를 가져옵니다. 각주에서 직접적으로 **"전체 순증은 48명이다"**라고 명시하고 있습니다.
채점 근거★그림1 축 영역 자체 오독 — 6월 MRR 55로 판독(April35/May45 착각, 실제≈67·60눈금 위). 절단 아닌 일반 라인보간 gross fail. 각주 48은 맞히나 '무채팀' 환각 근거.
시그니처“경영보고 차트 6월 매출을 55로 오독 — 실제 67”
Gemma 4 12BGoogle256545707552
제공해주신 경영실적 자료를 바탕으로 답변드립니다. **(1) 그림 1에서 6월 CommanderOS MRR은 약 몇 백만원인가?** * 그림 1에서 'CommanderOS'는 파란색 실선으로 표시되어 있습니다. * 6월 시점의 파란색 실선 위치를 눈금으로 보간하면 **약 20**으로 확인됩니다. * 단위가 '백만원'이므로, 답은 **약 2,000만원**입니다. **(2) 표 1 기준 2분기 전체 '순증' 고객 합계는?** * 표 1의 '신규' 열과 '순증' 열을 확인합니다. * 표 1 하단의 '합계' 행을 보면 신규는 62명, 순증은 46명으로 되어 있습니다. * 따라서 표 1 기준 2분기 전체 순증 고객 합계는 **46명**입니다. **(3) 각주를 반영하면 (2)의 값은 어떻게 바뀌는가?** * 주요 논의사항의 세 번째 항목을 보면 "신규 제품은 **신규**로, 이월은 **이월**로, **순증은 신규에서 이월로 넘어온 제품**으로 정의한다"고 되어 있습니다. * 또한 주석 1을 보면 "네이버마켓의 5월 중 6명은 **월별로 마이데이터 서비스로 재분류**되어, **신규의 순증 합계 2명은 재분류 후 네이버마켓의 순증으로 반영**된다"고 명시되어 있습니다. * 즉, 네이버마켓의 순증 6명 중 2명은 원래 신규에서 넘어온 순증분이지만, 재분류 과정에서 신규 항목의 순증 합계(2명)에 영향을 주었다는 의미입니다. * 결론적으로, 재분류를 반영하면 네이버마켓의 순증 6명 중 2명은 '신규'에서 넘어온 것이므로, 순증의 정의(신규에서 이월된 것)를 엄격히 적용할 경우 **네이버마켓의 순증은 4명(6-2)으로 조정**될 수 있으며, 이에 따라 전체 순증 합계는 **44명**으로 바뀔 수 있습니다. (단, 표 1의 합계 수치 자체가 재분류를 이미 반영한 결과인지에 따라 해석이 달라질 수 있으나, 각주의 취지는 재분류된 수치를 정확히 구분하라는 것입니다.)
채점 근거doc2 Lv2(라인보간+각주): ★★(1) 6월 CommanderOS MRR을 '약 20→2,000만원'으로 catastrophic 오독(gold ≈67백만, 눈금오독 0점 영역). (2) 표 합계 순증 46 정확. (3) 각주 반영을 잘못 적용해 44로 답(gold 48, 방향 반대). 라인 눈금 보간이 무너짐 — 형제 26b(71)보다 아래.