메뉴
더보기
AXyNow · 매거진 · 분석
비즈니스 직무 벤치·분석·실험기. 한국 직무자 검수 통과 여부 기준.
구글 Gemma 4 12B와 알리바바 Qwen3.5-9B를 한국 실무 11개 분야와 문서·도표 판독으로 측정했습니다. 결과가 완벽한 데칼코마니입니다. Gemma는 글은 잘 쓰는데 VL이 약하고, Qwen은 차트 판독은 톱티어인데 한국 세무·노무·생활법률만 나오면 무너집니다.
글로벌 리더보드에서 난리 난 MiniMax M3를 한국 세무, 노무, 개발, 마케팅 5개 분야 테스트를 진행했습니다. 결론은 극단적입니다. 코딩은 훌륭한데, 한국 관련 지식만 나오면 아무것도 모릅니다.
글로벌 오픈웨이트 최상위권인 GLM-5.1과 Kimi K2.6가, AXyBench 한국 실무에선 18·20위 수준입니다. 세무·금융·생활법률 쪽에선 더욱 형편이 없습니다. Anthropic의 증류 주장과 함께 그 이유를 분석해봤습니다.