문서·시각자료 이해문항 6용량·비용 최적화 차트 — U자 최저점 + 적분 + SLA비공개

U자 비용곡선·사다리꼴 적분·이중축 함정

비공개 문항입니다. 학습 오염을 막기 위해, 측정 영상에서 응답 원문과 함께 본문을 공개합니다.

기대 포맷동시성/단가, SLA 선택, 누적 토큰량, 각주 환산 단가

사전 정의 함정3건, 발동 모델에 ⚠ 표시

모델별 응답 · 채점

21개 모델. 점수만 보임 — 모델명 클릭 시 raw·근거·cross 펼침.

모델

정확성의도 파악신중함한국 맥락짜임새avg

Claude Opus 4.8Anthropic

100100100100100100

**(1) 최소 단가 동시성**

표 1·그림 1 기준, 단가는 동시성 16에서 최저 **63원/1k req**.

**(2) SLA 충족 + 단가 최소 동시성**

P95 ≤ 100ms를 만족하는 구간은 동시성 ≤ 24 (P95: 2→40, 4→45, 8→52, 16→68, 24→95ms). 32(140ms)·48(210ms)은 위반.

이 중 단가를 보면 16=63원, 24=67원 → 최소는 **동시성 16 (63원/1k req)**. (16이 SLA도 만족하고 단가도 최저)

**(3) 0~40분 누적 토큰량 (사다리꼴)**

값(만 tok/분): 0분=0, 10=30, 20=60, 30=80, 40=90

- (0+30)/2×10 = 150
- (30+60)/2×10 = 450
- (60+80)/2×10 = 700
- (80+90)/2×10 = 850

합계 = **2,150 만 tok**

**(4) 동시성 16 온디맨드 환산 단가**

각주 1: 63원은 스팟 기준이며 온디맨드 환산 시 **71원/1k req**.

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:21

Gemini 3.1 ProGoogle

100100100100100100

첨부된 분석 보고서를 바탕으로 요청하신 질문에 대한 답변은 다음과 같습니다.

**(1) 그림 1에서 요청 단가가 최소가 되는 동시성 설정과 그 단가는?**
*   **동시성:** 16
*   **단가:** 63원 (표 1 및 그림 1의 파란색 실선 최저점 참고)

**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
*   **동시성 16**
*   이유: 지연 시간(P95)이 100ms 이하를 만족하는 동시성 구간은 2, 4, 8, 16, 24입니다(각각 40, 45, 52, 68, 95ms). 이 구간 중 단가가 가장 낮은 지점은 동시성 16(63원)입니다.

**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
*   **2,150만 tok**
*   계산식 (구간별 면적 합산, 밑변=10분):
    *   0~10분: (0 + 30) / 2 × 10 = 150
    *   10~20분: (30 + 60) / 2 × 10 = 450
    *   20~30분: (60 + 80) / 2 × 10 = 700
    *   30~40분: (80 + 90) / 2 × 10 = 850
    *   총합: 150 + 450 + 700 + 850 = 2,150

**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
*   **71원**
*   이유: 표 하단의 '* 각주 1'에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이다."라고 명시되어 있습니다.

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:20

Gemini 3.5 FlashGoogle

100100100100100100

제공된 분석 자료를 바탕으로 각 질문에 대한 답변을 작성하였습니다.

---

### **(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
* **답변:** **동시성 16, 단가 63원** (63원/1k req)
* **설명:** 그림 1의 좌측 축(파란색 실선) 및 표 1의 단가 데이터를 보면 동시성 16에서 단가가 63원으로 가장 낮습니다.

---

### **(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
* **답변:** **동시성 16**
* **설명:** 
  * 지연 P95가 100ms 이하를 만족하는 동시성 구간은 **2, 4, 8, 16, 24**입니다 (각각 지연시간 40ms, 45ms, 52ms, 68ms, 95ms).
  * 이 중 단가가 가장 저렴한 구간은 **동시성 16**(단가 63원)입니다. (동시성 24는 지연시간이 95ms로 SLA는 만족하지만 단가가 67원으로 더 비쌉니다.)

---

### **(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
* **답변:** **2,150만 tok** (21,500,000 토큰)
* **계산 과정:**
  그림 2의 10분 단위 데이터 포인트 $y(t)$는 다음과 같습니다:
  * $y(0) = 0$
  * $y(10) = 30$
  * $y(20) = 60$
  * $y(30) = 80$
  * $y(40) = 90$

  각 10분 구간별 사다리꼴 면적(처리량 = $\frac{\text{시작값} + \text{끝값}}{2} \times \text{시간(10분)}$)을 구하여 더합니다:
  1. **0 ~ 10분 구간:** $\frac{0 + 30}{2} \times 10 = 150$만 tok
  2. **10 ~ 20분 구간:** $\frac{30 + 60}{2} \times 10 = 450$만 tok
  3. **20 ~ 30분 구간:** $\frac{60 + 80}{2} \times 10 = 700$만 tok
  4. **30 ~ 40분 구간:** $\frac{80 + 90}{2} \times 10 = 850$만 tok

  * **누적 합계:** $150 + 450 + 700 + 850 = \mathbf{2,150}$**만 tok**

---

### **(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
* **답변:** **71원** (71원/1k req)
* **설명:** 표 아래의 각주 1번을 보면, *"동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이다"*라고 명시되어 있습니다.

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:19

Gemini 3.1 Flash LiteGoogle

100100100100100100

제공해주신 '추론 서빙 동시성 최적화 및 부하 누적 분석' 자료를 바탕으로 질문에 답변드립니다.

**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
*   **동시성 설정:** 16
*   **단가:** 63원/1k req
*   (표 1 및 그림 1의 파란색 실선 그래프를 통해 확인 가능)

**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
*   **동시성 설정:** 16
*   SLA 기준(100ms 이하)을 만족하는 동시성 구간은 2, 4, 8, 16, 24입니다. 이 중에서 단가가 가장 낮은 지점은 63원인 동시성 16입니다. (동시성 24의 단가는 67원)

**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
각 구간(10분 단위)의 사다리꼴 면적을 합산합니다.
*   0~10분: (0 + 30) / 2 * 10 = 150
*   10~20분: (30 + 60) / 2 * 10 = 450
*   20~30분: (60 + 80) / 2 * 10 = 700
*   30~40분: (80 + 90) / 2 * 10 = 850
*   **누적 합계:** 150 + 450 + 700 + 850 = **2,150만 토큰**

**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
*   **단가:** 71원
*   (표 1 하단 각주 1에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이다"라고 명시되어 있음)

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 01:55

GPT-5.5OpenAI

100100100100100100

(1) **동시성 16**, 요청 단가 **63원/1k req**가 최소입니다.

(2) SLA **P95 ≤ 100ms**를 만족하면서 단가를 최소화하려면 **동시성 16**으로 설정해야 합니다.  
- 동시성 16: P95 **68ms**, 단가 **63원/1k req**

(3) 그림 2의 0~40분 누적 처리량, 사다리꼴 근사:

- 0~10분: (0+30)/2 × 10 = 150
- 10~20분: (30+60)/2 × 10 = 450
- 20~30분: (60+80)/2 × 10 = 700
- 30~40분: (80+90)/2 × 10 = 850

합계 = **2,150만 tok**

(4) 각주 반영 시 동시성 16의 **온디맨드 환산 단가**는 **71원/1k req**입니다.

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:22

GPT-5.4 MiniOpenAI

100100100100100100

다음과 같습니다.

1) **그림 1에서 요청 단가 최소 동시성**
- **동시성 16**
- **단가: 63원/1k req**

2) **SLA(P95 ≤ 100ms)를 지키며 단가 최소화**
- SLA를 만족하는 동시성은 **2, 4, 8, 16, 24**
- 이 중 단가가 가장 낮은 것은 **동시성 16**
- 따라서 **동시성 16으로 설정**

3) **그림 2 기준 0~40분 누적 토큰량(사다리꼴 근사)**
- 처리량(만 tok/분): 0, 30, 60, 80, 90
- 구간별 사다리꼴 면적:
  - 0~10분: (0+30)/2 × 10 = **150**
  - 10~20분: (30+60)/2 × 10 = **450**
  - 20~30분: (60+80)/2 × 10 = **700**
  - 30~40분: (80+90)/2 × 10 = **850**
- 합계: **2150만 tok**

4) **각주 반영 시 동시성 16의 ‘온디맨드’ 환산 단가**
- 각주에 따르면 동시성 16의 63원(스팟 기준)은 온디맨드 환산 시 **71원/1k req**

**정답 요약**
1. **16, 63원/1k req**
2. **16**
3. **2150만 tok**
4. **71원/1k req**

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:22

Kimi K2.6Moonshot

100100100100100100

첨부된 보고서의 그림·표·각주를 바탕으로 답변하면 다음과 같습니다.

**(1) 요청 단가가 최소가 되는 동시성 설정과 그 단가**
- **동시성 16**, **63 원/1k req**  
  (표 1 및 그림 1의 단가 곡선에서 최저점은 동시성 16의 63원입니다.)

**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하는 동시성**
- **동시성 16**  
  SLA 조건(P95 ≤ 100ms)을 만족하는 동시성은 2, 4, 8, 16, 24입니다. 이들 중 단가가 가장 낮은 것은 동시성 16(63원/1k req, P95 68ms)입니다. (동시성 24는 P95 95ms로 SLA는 만족하나 단가가 67원으로 더 높습니다.)

**(3) 그림 2 기준, 부하시험 0~40분 구간 누적 처리 토큰량(사다리꼴 근사)**
- **2,150 만 tok**  
  각 10분 구간을 사다리꼴로 근사하여 면적(=누적 토큰량)을 계산하면 다음과 같습니다.
  - 0~10분: (0+30)/2 × 10 = 150
  - 10~20분: (30+60)/2 × 10 = 450
  - 20~30분: (60+80)/2 × 10 = 700
  - 30~40분: (80+90)/2 × 10 = 850  
  → 합계: 150 + 450 + 700 + 850 = **2,150 만 tok**

**(4) 각주 반영 시 동시성 16의 온디맨드 환산 단가**
- **71 원/1k req**  
  (각주 1에 명시되어 있습니다. 스팟 기준 63원의 온디맨드 환산 단가는 71원입니다.)

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:23

Qwen 3.6 35B A3BAlibaba

100100100100100100

제공된 보고서 이미지와 표, 각주 정보를 바탕으로 답변드립니다.

**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
*   **답변:** **동시성 16, 단가 63원**
*   **해설:** 그림 1의 파란색 실선(단가)과 표 1을 확인하면, 동시성 16일 때 단가가 **63원**으로 가장 낮게 나타납니다.

**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
*   **답변:** **동시성 16**
*   **해설:**
    *   SLA 조건인 지연 P95 ≤ 100ms를 만족하는 구간을 찾습니다. 표 1에서 동시성 24까지는 지연 시간이 95ms로 조건을 만족하지만, 동시성 32부터는 140ms로 조건을 벗어나므로 동시성 24까지만 고려해야 합니다.
    *   이 구간(동시성 2~24)에서 단가를 비교하면, 동시성 16일 때 **63원**으로 최저입니다. (동시성 24는 67원)

**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
*   **답변:** **2,150 만 tok**
*   **해설:**
    *   그림 2의 y축 단위가 '만 tok/분'이므로, 이 그래프는 **순간 처리량(Rate)**을 나타냅니다. 누적 처리량을 구하려면 0~40분 구간의 그래프 아래 면적(적분)을 계산해야 합니다.
    *   사다리꼴 공식 `(위변 + 아래변) * 높이 / 2`를 적용하여 구간별 면적을 계산합니다.
        *   0~10분: `(0 + 30) * 10 / 2 = 150`
        *   10~20분: `(30 + 60) * 10 / 2 = 450`
        *   20~30분: `(60 + 80) * 10 / 2 = 700`
        *   30~40분: `(80 + 90) * 10 / 2 = 850`
    *   총 누적량: `150 + 450 + 700 + 850 = 2,150`

**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
*   **답변:** **71원**
*   **해설:** 문서 하단 **각주 1**에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, **온디맨드 환산 시 71원**이다"라고 명시되어 있습니다.

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 01:56

Grok 4.3xAI

100100100100100100

(1) 동시성 16, 63원 (그림 1·표 1 최솟값)  
(2) 16 (P95 68 ms ≤ 100 ms이며 단가 최저)  
(3) 2150 (사다리꼴 적분: 구간 평균×10 min 합산)  
(4) 71원 (각주 1 온디맨드 환산값)  
The answers are obtained directly from the provided figure and table data, using linear interpolation where needed for the trapezoidal integral in (3).

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과. 영어 부연 메모 i 경미. [정정] 영어 부연/후속제안은 capability 아닌 스타일 → i 미감점(비대칭 철회).

2026-06-01 01:55

Claude Sonnet 4.6Anthropic

100100100100100100

## 답변

---

### (1) 단가 최소 동시성 설정

**표 1** 단가 행에서 최솟값을 확인합니다.

| 동시성 | 2 | 4 | 8 | **16** | 24 | 32 | 48 |
|---|---|---|---|---|---|---|---|
| 단가(원/1k req) | 142 | 98 | 71 | **63** | 67 | 88 | 134 |

> **동시성 16**, 단가 **63원/1k req**

---

### (2) SLA(P95 ≤ 100 ms) 충족 + 단가 최소

P95 ≤ 100 ms 조건을 만족하는 설정만 추립니다.

| 동시성 | P95(ms) | SLA 충족 | 단가 |
|---|---|---|---|
| 2 | 40 | ✅ | 142 |
| 4 | 45 | ✅ | 98 |
| 8 | 52 | ✅ | 71 |
| **16** | **68** | ✅ | **63** |
| 24 | 95 | ✅ | 67 |
| 32 | 140 | ❌ | — |
| 48 | 210 | ❌ | — |

> **동시성 16** → SLA 준수(P95 = 68 ms) & 최저 단가 **63원/1k req**

---

### (3) 0~40분 누적 처리 토큰량 (사다리꼴 근사)

세로축 단위: **만 tok/분**, 각 구간 Δt = 10분

| 구간(분) | 시작값 | 끝값 | 사다리꼴 면적 |
|---|---|---|---|
| 0 → 10 | 0 | 30 | (0+30)/2 × 10 = **150 만 tok** |
| 10 → 20 | 30 | 60 | (30+60)/2 × 10 = **450 만 tok** |
| 20 → 30 | 60 | 80 | (60+80)/2 × 10 = **700 만 tok** |
| 30 → 40 | 80 | 90 | (80+90)/2 × 10 = **850 만 tok** |
| **합계** | | | **2,150 만 tok** |

> **약 2,150 만 tok**

---

### (4) 동시성 16의 온디맨드 환산 단가

각주 1에 명시:
> *"동시성 16의 단가 63원은 **스팟 인스턴스** 기준이며, **온디맨드 환산 시 71원**이다."*

> **71원/1k req**

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:20

Qwen 3.7 PlusAlibaba

100100100100100100

제공된 문서를 바탕으로 한 답변입니다.

**(1) 동시성 16, 63원**
*   **근거:** 그림 1의 실선(단가)과 표 1을 보면, 동시성이 16일 때 단가가 63원으로 가장 낮습니다(U자형 곡선의 최저점).

**(2) 16**
*   **근거:** 운영 SLA인 P95 ≤ 100ms를 만족하는 동시성은 2, 4, 8, 16, 24입니다(표 1 참조: 24일 때 95ms). 이 중 단가가 가장 낮은 것은 동시성 16(63원)입니다. (동시성 24는 67원)

**(3) 2,150**
*   **계산 과정 (사다리꼴 근사):**
    *   0~10분: $(0 + 30) \times 10 / 2 = 150$
    *   10~20분: $(30 + 60) \times 10 / 2 = 450$
    *   20~30분: $(60 + 80) \times 10 / 2 = 700$
    *   30~40분: $(80 + 90) \times 10 / 2 = 850$
    *   **합계:** $150 + 450 + 700 + 850 = 2,150$ (만 tok)

**(4) 71원**
*   **근거:** 문서 하단의 '* 각주 1'에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이다"라고 명시되어 있습니다.

채점 근거doc6(정량추론 Lv3+, CharXiv reasoning 직격) — (1) U자 최저 동시성16/63원 ✓ (2) ★ SLA P95≤100 제약 적용해 후보필터(24는 95ms 충족하나 67원 더 비쌈, 16이 최소) ✓ (3) 사다리꼴 적분 2,150만(150+450+700+850) ✓ (4) ★ 각주 스팟63→온디맨드71 ✓. 최적화·적분·dual-axis·각주 4종 전부 정확.

시그니처“qwen3.7-plus, doc6 U자 최저16/63·SLA제약 비용최소·적분 2150·온디맨드 71 전부 정확 — 정량추론 만점”

2026-06-03 14:46

MiniMax M3Minimax

100981009610099

# 추론 서빙 동시성 최적화 분석 답안

## (1) 그림 1에서 요청 단가가 최소가 되는 동시성 설정

**동시성 16, 단가 63원/1k req**

표 1 데이터를 보면 단가 곡선은 U자 형태:
| 동시성 | 2 | 4 | 8 | **16** | 24 | 32 | 48 |
|--------|----|----|----|----|----|----|----|
| 단가(원/1k req) | 142 | 98 | 71 | **63** | 67 | 88 | 134 |

- 저동시성(2~4): GPU 점유율 22~38%로 **유휴 비용**이 단가를 끌어올림
- 고동시성(32~48): P95 140~210ms로 **지연 증가**가 단가를 다시 끌어올림
- **동시성 16에서 U자형 최저점(=수확 극대점)**

---

## (2) 운영 SLA(P95 ≤ 100ms) 하 단가 최소화

SLA(P95 ≤ 100ms) 충족 구간을 먼저 필터링:

| 동시성 | P95 (ms) | SLA(≤100) | 단가 |
|--------|----------|-----------|------|
| 2 | 40 | ✓ | 142 |
| 4 | 45 | ✓ | 98 |
| 8 | 52 | ✓ | 71 |
| **16** | **68** | ✓ | **63** ← 최소 |
| 24 | 95 | ✓ | 67 |
| 32 | 140 | ✗ | (제외) |
| 48 | 210 | ✗ | (제외) |

**→ 동시성 16 설정 (P95 = 68ms, 단가 63원/1k req)**

SLA 한도(100ms) 대비 약 32ms의 여유(headroom)를 확보하면서도 단가 최저점을 달성하므로, **운영 권장값은 동시성 16**.

---

## (3) 그림 2, 0~40분 누적 처리 토큰량 (사다리꼴 근사)

세로축 단위가 **만 tok/분**이므로, 구간별 (상단+하단)/2 × Δt(분) 으로 적분:

| 구간(분) | f(시작) | f(끝) | 평균 × 10분 |
|----------|---------|-------|------------|
| 0 ~ 10 | 0 | 30 | (0+30)/2 × 10 = **150** |
| 10 ~ 20 | 30 | 60 | (30+60)/2 × 10 = **450** |
| 20 ~ 30 | 60 | 80 | (60+80)/2 × 10 = **700** |
| 30 ~ 40 | 80 | 90 | (80+90)/2 × 10 = **850** |

**누적 합계 = 150 + 450 + 700 + 850 = 2,150 만 tok**
(= 약 2,150만 토큰 ≈ 2,150 × 10⁴ tok)

---

## (4) 동시성 16의 '온디맨드' 환산 단가

> *"각주 1. 동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 **71원**이다."*

**→ 온디맨드 환산 단가 = 71원/1k req**

스팟(63원) 대비 **+8원(≈ +12.7%)** 의 비용 증가이며, 본 보고서의 그림 1·표 1은 비교 일관성을 위해 스팟 기준 63원을 사용했음을 유의.

---

## 요약

| 문항 | 정답 |
|------|------|
| (1) 단가 최소점 | 동시성 **16**, 63원/1k req |
| (2) SLA 하 최적 | 동시성 **16** (P95=68ms, 63원) |
| (3) 0~40분 누적 토큰 | **2,150 만 tok** |
| (4) 동시성 16 온디맨드 환산 | **71원/1k req** |

채점 근거doc6: U자 최저 동시성16/63원·SLA(P95≤100) 필터로 32/48 탈락 후 16·0~40분 사다리꼴 2150만tok·각주 온디맨드 71원 4문항 전부 정확. dual-axis 혼동 없음.

2026-06-02 02:00

Step 3.7 FlashStepFun

100981009610099

(1) 동시성 **16**, 단가 **63원/1k req** (표 1 기준)

(2) 동시성 **16** (P95 68ms로 SLA 만족, 동시성 24는 95ms로 SLA를 만족하나 단가 67원으로 더 비쌈)

(3) **2,150만 tok** (사다리꼴 적분: 0-10분 150 + 10-20분 450 + 20-30분 700 + 30-40분 850 = 2,150)

(4) **71원/1k req** (각주 1: 스팟 63원의 온디맨드 환산 값)

채점 근거doc6: U자 최저 동시성16/63원·SLA(P95) 만족 16(24는 67원 더 비쌈)·0~40분 사다리꼴 2150만tok·각주 온디맨드 71원 4문항 전부 정확.

2026-06-02 06:24

Qwen 3.5 9BAlibaba

969294909594



보고서 내용을 바탕으로 답변은 다음과 같습니다.

**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
*   **동시성:** 16
*   **단가:** 63 원
    *   *근거: 그림 1 파란색 실선 (단가) 을 보면 동시성 16 에서 가장 낮은 63 원의 값을 보입니다.*

**(2) 운영 SLA(P95 ≤ 100ms) 를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
*   **동시성:** 16
    *   *근거: SLA 조건인 지연 P95 100ms 이하를 만족하는 구간 (동시성 2, 4, 8, 16, 24) 에서 단가를 비교하면, 동시성 16 (63 원) 이 가장 낮습니다. 동시성 24 는 67 원으로 더 비쌉니다.*

**(3) 그림 2 기준, 부하시험 0~40 분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
*   **누적 토큰량:** 2,150 만 tok
    *   *계산 과정:*
        *   0~10 분: $(0 + 30) \times 10 \div 2 = 150$
        *   10~20 분: $(30 + 60) \times 10 \div 2 = 450$
        *   20~30 분: $(60 + 80) \times 10 \div 2 = 700$
        *   30~40 분: $(80 + 90) \times 10 \div 2 = 850$
        *   합계: $150 + 450 + 700 + 850 = 2,150$

**(4) 각주를 반영할 때 동시성 16 의 '온디맨드' 환산 단가는?**
*   **환산 단가:** 71 원
    *   *근거: 표 1 하단 각주 1 에 "동시성 16 의 단가 63 원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71 원이다."라고 명시되어 있습니다.*

채점 근거doc6 정량추론차트(g,s,c,i): q1 U자 최저 동시성16/63원·★q2 SLA(P95≤100ms) 제약 적용해 16 선택(24=67원 명시)·q3 사다리꼴 적분 2,150만tok(150+450+700+850)·q4 각주 스팟63→온디맨드71 4개 전부 정확. dual-axis 함정 회피.

2026-06-04 04:29

HyperCLOVAX SEED Think 32BNaver

1009010010010099



(1) **동시성 16, 단가 63원**  
그림 1의 단가 그래프(파란색)는 U자형으로 최저점을 동시성 16에서 찍으며, 표 1에서 해당 단가는 63원/1k req로 확인됩니다.

(2) **동시성 16**  
운영 SLA(P95 ≤ 100ms)를 만족하는 동시성 중 단가가 가장 낮은 값은 동시성 16(단가 63원, P95 68ms)입니다. 동시성 24 이상에서는 단가가 증가하거나 SLA를 초과합니다.

(3) **2150만 tok**  
그림 2의 0~40분 구간을 사다리꼴 근사로 계산하면:  
- 0~10분: (0+30)/2 ×10 = 150  
- 10~20분: (30+60)/2 ×10 = 450  
- 20~30분: (60+80)/2 ×10 = 700  
- 30~40분: (80+90)/2 ×10 = 850  
총합: 150 + 450 + 700 + 850 = **2150만 tok**

(4) **71원**  
각주에 따라 동시성 16의 온디맨드 환산 단가는 스폿 기준 63원에서 71원으로 명시됩니다.

**정답**  
(1) \boxed{16, 63원}  
(2) \boxed{16}  
(3) \boxed{2150}  
(4) \boxed{71원}

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과. \boxed 포맷 i 경미. q5 함정실패 후 정량추론은 회복.

2026-06-01 03:09

Gemma 4 31BGoogle

100100100100100100

제시된 분석 보고서의 내용을 바탕으로 답변드립니다.

**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
*   **답변:** 동시성 **16**, 단가 **63원**
*   **근거:** 그림 1의 파란색 실선(단가)이 가장 낮은 지점과 표 1의 '단가' 행에서 동시성 16일 때 최솟값인 63원임을 확인할 수 있습니다.

**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
*   **답변:** 동시성 **16**
*   **근거:** 표 1에서 P95 지연시간이 100ms 이하인 구간은 동시성 2, 4, 8, 16, 24입니다. 이 중 단가(원/1k req)가 가장 낮은 설정은 동시성 16(63원)입니다. (동시성 24는 P95가 95ms로 SLA를 만족하지만 단가는 67원으로 더 높습니다.)

**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
*   **계산 과정:** (단위: 만 tok/분, 시간 간격 $\Delta t = 10$분)
    *   0~10분: $\frac{0 + 30}{2} \times 10 = 150$
    *   10~20분: $\frac{30 + 60}{2} \times 10 = 450$
    *   20~30분: $\frac{60 + 80}{2} \times 10 = 700$
    *   30~40분: $\frac{80 + 90}{2} \times 10 = 850$
    *   **총합:** $150 + 450 + 700 + 850 = 2,150$
*   **답변:** **2,150만 tok**

**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
*   **답변:** **71원**
*   **근거:** 하단 각주 1에 "동시성 16의 단가 63원은 스팟 인스턴스 기준이며, 온디맨드 환산 시 71원이 된다"라고 명시되어 있습니다.

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:01

Mistral Small 4Mistral

100100100100100100

**(1) 그림 1에서 요청 단가가 최소가 되는 동시성 설정과 그 단가는?**

- **동시성 설정**: 16
- **요청 단가**: **63원/1k req**

---

**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**

- **동시성 설정**: **16**
- **이유**: 동시성 16에서 P95 지연 시간이 68ms(≦100ms)로 SLA를 만족하면서, 요청 단가(63원)가 최소입니다.

---

**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**

- **누적 처리량**: **2,150만 tok**
- **계산 과정**:
  - 0–10분: (0 + 30) × 10 / 2 = 150
  - 10–20분: (30 + 60) × 10 / 2 = 450
  - 20–30분: (60 + 80) × 10 / 2 = 700
  - 30–40분: (80 + 90) × 10 / 2 = 850
  - **합계**: 150 + 450 + 700 + 850 = **2,150만 tok**

---

**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**

- **온디맨드 환산 단가**: **71원/1k req** *(스팟 인스턴스 63원 → 온디맨드 환산 71원)*

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 02:08

EXAONE 4.5 33BLG AI

100401001009091

The user wants me to answer four specific questions based on the provided document, which is a report on "추론 서빙 동시성 최적화 및 부하 누적 분석" (Inference Serving Concurrency Optimization and Load Accumulation Analysis).

**Question (1): In Figure 1, what is the concurrency setting and the price per unit request (won/1k req) that minimizes the cost?**
*   I need to look at "표 1. 동시성별 측정 원재료" (Table 1. Measurement Raw Data by Concurrency) or "그림 1. 동시성별 단가(좌축) · 지연 P95(우축)" (Figure 1. Price per concurrency (left axis) · Delay P95 (right axis)).
*   Looking at the table "표 1", the row "단가 (원/1k req)" has values: 142, 98, 71, 63, 67, 88, 134.
*   The lowest value is 63.
*   Looking across to the "동시성" (Concurrency) column for that value, it corresponds to 16.
*   So, the minimum price is 63 won/1k req at concurrency 16.

**Question (2): To minimize price while maintaining the operational SLA (P95 ≤ 100ms), what concurrency should be set?**
*   The "요약" (Summary) section states: "지연 P95(그림 1, 우측)는 동시성에 단조 증가한다." (Delay P95 increases monotonically with concurrency).
*   It also states: "운영 SLA는 P95 ≤ 100ms다." (Operational SLA is P95 ≤ 100ms).
*   Looking at Table 1, the row "지연 P95 (ms)" has values: 40, 45, 52, 68, 95, 140, 210.
*   I need P95 <= 100.
*   The values are 40, 45, 52, 68, 95. All these are <= 100.
*   The next value is 140 which is > 100.
*   So valid concurrency levels are 2, 4, 8, 16, 24.
*   Among these, I need to minimize the price ("단가 (원/1k req)").
*   Prices for these are…

채점 근거★content_md 40,036자 폭주 — 초기 정확값 2,150을 버리고 2,000으로 자가수정(허용 1900~2300 내지만 사다리꼴 구간을 '0~15:225,15~20:225'로 붕괴). (1)(2)(4)는 정확. 추론 runaway = i 최악.

시그니처“40K자 추론 폭주 끝에 정답 2,150을 2,000으로 후퇴”

2026-06-01 03:14

Gemma 4 26B A4BGoogle

100100100100100100

제시된 분석 보고서를 바탕으로 질문에 대한 답변을 정리해 드립니다.

**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
*   **답변:** **동시성 16, 단가 63원**
*   **근거:** 표 1(표 1. 동시성별 자원표)의 '단가(원/1k req)' 행을 확인하면, 동시성이 16일 때 63원으로 가장 낮은 값을 가집니다.

**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
*   **답변:** **동시성 16**
*   **근거:** 
    1.  SLA 조건(P95 $\le$ 100ms)을 만족하는 동시성 범위를 표 1에서 찾으면, P95가 95ms인 '동시성 24'까지 가능합니다. (동시성 32부터는 140ms로 SLA 초과)
    2.  이 범위(동시성 2, 4, 8, 16, 24) 내에서 단가가 가장 낮은 지점을 찾으면 동시성 16(63원)입니다.

**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
*   **답변:** **2,150만 tok**
*   **계산 과정 (그래프의 좌표를 육안으로 추정):**
    *   (0분, 0만) $\rightarrow$ (10분, 30만): $\frac{0+30}{2} \times 10 = 150$
    *   (10분, 30만) $\rightarrow$ (20분, 60만): $\frac{30+60}{2} \times 10 = 450$
    *   (20분, 60만) $\rightarrow$ (30분, 80만): $\frac{60+80}{2} \times 10 = 700$
    *   (30분, 80만) $\rightarrow$ (40분, 90만): $\frac{80+90}{2} \times 10 = 850$
    *   **합계:** $150 + 450 + 700 + 850 = 2,150$

**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
*   **답변:** **71원**
*   **근거:** 보고서 하단 각주에 "동시성 16의 단가 스팟 기준이며, 온디맨드 환산 시 71원이다"라고 명시되어 있습니다.

채점 근거4파트 완답: 동시성16/63원(U자·dual-axis 회피) + SLA 필터 16 + 사다리꼴 2,150만(적분) + 온디맨드 71원(각주). 표1 직접노출로 난도 붕괴 = 전원 통과.

2026-06-01 01:57

Gemma 4 12BGoogle

507050728063

제공해주신 자료를 바탕으로 분석한 답변입니다.

**(1) 그림 1에서 요청 단가(원/1k req)가 최소가 되는 동시성 설정과 그 단가는?**
*   **동시성:** 24
*   **단가:** 67원 (표 1 및 그림 1의 파란색 선 확인)

**(2) 운영 SLA(P95 ≤ 100ms)를 지키면서 단가를 최소화하려면 동시성을 얼마로 설정해야 하는가?**
*   **동시성:** 16
*   **이유:** 표 1을 보면 동시성 16일 때 P95는 68ms로 SLA(100ms 이하)를 만족하며, 단가는 71원입니다. 동시성 24는 단가가 더 낮으나(67원), P95가 95ms로 SLA를 간신히 만족하지만, 동시성 32부터는 P95가 140ms로 SLA를 초과합니다. 따라서 SLA를 준수하면서 단가가 가장 낮은 구간은 16~24 사이이며, 단가 최적화 관점에서는 **24**가 가장 낮으나, 일반적으로 안정적인 운영을 위해 SLA 여유를 고려한다면 16과 24 중 선택하게 됩니다. (단순 수치상 최저 단가는 **24**입니다.)

**(3) 그림 2 기준, 부하시험 0~40분 구간에 누적 처리된 토큰량(만 tok)은? (사다리꼴 근사)**
*   **계산 과정:**
    *   0분~10분 구간: $\frac{0 + 20}{2} \times 10 = 100$
    *   10분~20분 구간: $\frac{20 + 60}{2} \times 10 = 400$
    *   20분~30분 구간: $\frac{60 + 80}{2} \times 10 = 700$
    *   30분~40분 구간: $\frac{80 + 90}{2} \times 10 = 850$
*   **합계:** $100 + 400 + 700 + 850 = 2,050$
*   **정답:** 2,050 (만 tok)

**(4) 각주를 반영할 때 동시성 16의 '온디맨드' 환산 단가는?**
*   **계산 과정:**
    *   표 1에서 동시성 16의 단가는 71원입니다.
    *   각주 1에 따르면 '온디맨드' 단가는 '스펨(Spearmint) 기준'이며, '동시성 16의 단가'는 '스펨 기준'과 동일합니다.
    *   또한 각주 2에서 '온디맨드 환산 시 1.2배'를 적용한다고 명시되어 있습니다.
    *   계산: $71원 \times 1.2 = 85.2원$
*   **정답:** 85.2원

채점 근거doc6 Lv3+(최적화+적분): (3) 0~40분 사다리꼴 적분 2,050만 tok 정확(허용 1,900~2,300). 단 ★(1) U자 최저점을 동시성 24/67로 오독(gold 16/63) + (2) SLA 필터 reasoning 혼란(헤드라인 16이나 '단순 최저는 24' 자기모순) + ★(4) 각주를 'Spearmint 1.2배'로 날조해 85.2원(gold 71원, 스팟63→온디맨드71). 적분은 강·곡선최저/각주는 약.

2026-06-04 07:28

Grok 4.5xAI

100100100100100100

**(1) 동시성 16, 단가 63원/1k req**  
그림 1·표 1에서 단가(원/1k req)는 동시성 2→16까지 감소 후 다시 증가하는 U자형이며, 최솟값은 동시성 **16**의 **63**.

**(2) 동시성 16**  
SLA(P95 ≤ 100ms)를 만족하는 구간은 동시성 2~24(P95 40~95ms)이고, 이 중 단가가 최소인 지점은 16(63원). 24는 67원으로 더 높다.

**(3) 2150 (만 tok)**  
그림 2의 처리량(만 tok/분)을 0~40분 구간에 사다리꼴 근사로 적분:

- 0~10: \((0+30)/2 × 10 = 150\)
- 10~20: \((30+60)/2 × 10 = 450\)
- 20~30: \((60+80)/2 × 10 = 700\)
- 30~40: \((80+90)/2 × 10 = 850\)

합계 \(150+450+700+850 = 2150\) (만 tok).

**(4) 71원**  
각주 1에 명시: 동시성 16의 스팟 기준 63원을 온디맨드로 환산하면 **71원**.

채점 근거U자 최저점, SLA 제약 필터링, 사다리꼴 적분(2150), 각주 온디맨드 환산 모두 정확

2026-07-09 04:04