분석·2026-06-14·12분

기업의 AI 도입, 95%가 실패하는 진짜 이유는?

MIT, 맥킨지, IBM 모두 AI 도입 대부분이 본전도 못 건졌다고 합니다. 그런데 진짜 원인은 모델 성능이 아니라, 그 모델을 끼워 넣은 일하는 방식이었습니다.

AXyNow
기업AX
AI도입
ROI
워크플로우
AXyBench

프리미엄 AI 매거진 AXyNow, 손상윤입니다.

요즘 "AI 도입했는데 효과가 없더라"는 말, 한 번쯤 들어보셨을 겁니다. 지난 1년 사이 나온 대형 조사 세 건이 거의 같은 말을 하거든요. 기업이 AI에 쏟아부은 돈의 대부분이 본전도 못 건졌다는 겁니다.

실패의 원인은 뭘까요? 모델이 아직 성능이 모자라서? 핵심은 그게 아니라고 합니다. 모델은 이미 충분히 똑똑합니다. 무너진 건 모델이 아니라, 그 모델을 끼워 넣은 우리의 일하는 방식이었습니다.

숫자부터 정직하게: 세 기관이 같은 말을 한다

조사 방법이 제각각인 세 곳을 나란히 놓아 보겠습니다.

조사	핵심 수치	무엇을 쟀나
MIT (The GenAI Divide)	파일럿의 95%	손익에 잡히는 효과 없음
맥킨지 (State of AI)	조직의 80% 이상	전사 영업이익에 효과 없음
IBM (CEO 2,000명 조사)	25%만	기대한 수익 달성

출처: MIT NANDA "The GenAI Divide: State of AI in Business"(2025), 맥킨지 "The State of AI"(2025), IBM "CEO Study"(2,000명, 33개국, 2025). 조회 2026-06-14.

MIT는 기업 AI 파일럿의 95%가 손익에 측정 가능한 영향을 주지 못했다고 했습니다. 그 사이 업계가 부은 돈이 300억에서 400억 달러고요. 맥킨지는 조직의 80% 이상이 영업이익에 잡히는 효과가 없다고 답했다 했고, IBM이 CEO 2,000명에게 물었더니 기대한 수익을 낸 AI 사업은 4개 중 1개뿐이었습니다.

수십억을 부어도 성과는 빈자리로 남습니다. 불 켜진 화면만 야근하듯 돌아갈 뿐이죠.

반면, 맥킨지가 짚은 잘하는 5% 남짓의 기업은 오히려 영업이익의 상당 부분을 AI로 만들어내고 있어요. 마이크로소프트가 의뢰한 다른 조사에서는, AI에 1달러를 넣어 평균 3.7달러를 돌려받는다는 수치까지 나옵니다. 그러니 "AI가 헛것"이라는 얘기가 절대 아니에요. 되는 데는 확실히 되고, 안 되는 데는 완전히 안 된다. 이 양극화가 진짜 메시지입니다.

그럼 살아남은 5%는 뭘 다르게 했나

여기서부터가 본질입니다. 세 보고서가 실패 원인으로 공통으로 짚은 건, 놀랍게도 모델 성능이 아니었습니다.

MIT는 대놓고 적었습니다. 문제는 모델 품질이 아니라 "학습 격차", 그리고 업무 흐름과 일상 업무와의 차이에 대한 몰이해. 맥킨지는 한 발 더 나가 가장 큰 효과를 본 조직의 공통점으로 업무 흐름을 처음부터 끝까지 다시 설계한 곳이라는 거죠.

실패한 기업은 AI를 "도구"로 사용했지만, 성공한 기업은 AI에 맞춰 "일하는 방식"을 바꿨습니다.

일본이 디지털화를 위해 '사인을 대신해주는 기계를 도입'했다는 뉴스 기사를 보며 모두 코웃음을 쳤던 적이 있습니다. 지금 AI 도입이 딱 그런 꼴입니다. 사인만 기계가 해주면 뭐합니까? 그 앞과 뒤는 여전히 구식인데요.

결재 라인, 문서 양식, 검수 단계가 다 옛날 그대로인데 그중 한 칸에만 AI를 욱여넣으니, 도구는 최신인데 성과는 제자리인 겁니다. 모델 탓을 하기 딱 좋은 구조죠. 정작 안 바뀐 건 모델 바깥인데 말입니다.

도구만 최신으로 바꿔 끼운 자리. 앞뒤 공정이 그대로면 라인은 결국 멈춰 섭니다.

두 번째 착각: "제일 비싼 1등 모델 박으면 알아서 되겠지"

업무 흐름 다음으로 흔한 착각이 하나 더 있습니다. 모델을 고르는 방식이에요. "어차피 제일 비싼 최상위 모델 하나 박아두면 알아서 잘하겠지" 하는 겁니다.

근데 저희가 한국 실무로 직접 재보는 AXyBench로 보면, 이 생각이 두 군데서 어긋납니다.

첫째, 제일 비싼 모델이 종합 1등이 아닙니다. 가격과 실력이 비례하지 않아요. 에르메스가 세상에서 제일 좋은 가방이 아닌 것과 비슷한 이치입니다.

둘째, 그 종합 1등 모델조차 한국 실무 앞에서는 자신있게 틀립니다. 예금자보호 한도처럼 한국 사람이 매일 부딪히는 질문에서 1등이 보란 듯이 헛다리를 짚거든요. 글로벌 벤치 점수와 한국 현장의 신뢰도는 다른 물건입니다.

반대 방향도 있습니다. 비용에 민감한 반복 업무는 굳이 비싼 모델이 필요 없어요. 분류, 요약, 1차 초안 같은 일은 수십 배 싼 모델로도 충분히 돌아갑니다. 같은 분량을 뽑는 데 어떤 모델은 30달러를, 어떤 모델은 30센트를 쓰는데, 그 일에서 점수 차이는 거의 안 나는 경우가 수두룩하거든요.

그러니 수익을 만드는 건 "비싼 모델"이 아닙니다. "일에 맞는 모델을 골라, 한국 실무로 검증한 다음 쓰는 것"이죠. 적지 않은 도입 예산이 사실은 안 써도 될 비싼 모델값으로 새고 있는 셈입니다.

그런데 1인 기업인 저는 왜 될까

여기서 회의적인 분들은 이렇게 물으실 겁니다. "말은 쉽지. 대기업이 업무 흐름을 그렇게 쉽게 갈아엎을 수 있나?" 맞습니다. 못 합니다. 그게 바로 핵심이에요.

대기업이 구조적으로 불리한 이유가 있습니다. 업무 흐름이 수십 개 부서에 얽혀 있고, AI를 도입하는 사람과 실제로 그 일을 하는 사람이 다릅니다. 현장 절차를 바꿀 권한을 쥔 사람은 또 따로 있고요. "일하는 방식을 바꾸자"는 말이 조직을 통과하는 동안 너덜너덜해집니다.

저는 휴먼인사이드라는 기업을 운영하면서 CommanderOS라는 제품을 만들고 있습니다. 제가 AI로 효과를 보는 이유는 제가 똑똑해서가 아니라 구조가 단순해서예요. 업무 흐름을 제가 직접 다시 짭니다. 한 군데 막히면 그 자리에서 절차를 바꿉니다. 모델도 제가 직접 재보고 일마다 다르게 붙이고요. 도입하는 사람, 일하는 사람, 절차를 바꾸는 사람이 전부 한 명입니다. 바로 저고요.

MIT가 짚은 성공한 5%의 정체가 바로 이겁니다. 한 가지 골칫거리를 골라 그것만 제대로 끝낸 곳. 거대한 전사 파일럿이 아니라, 작게 시작해 한 지점을 확실히 자동화한 쪽이 살아남았어요.

물론 1인 기업이 만능이라는 얘기는 아닙니다. 대기업은 데이터도, 예산도, 인재도 비교가 안 되게 많죠. 다만 그 거대함이 AI 도입에서는 관성이라는 비용으로 돌아옵니다. 작은 조직은 민첩한 대신 가진 게 얇고요. 어느 쪽이 유리한지는 결국 "얼마나 빨리 일하는 방식을 바꿀 수 있느냐"에서 갈립니다.

그래서 당신은 뭘 결정해야 하나

이 글의 결론을 의사결정 언어로 바꾸면 이렇습니다. AI 도입은 "모델을 사는 일"이 아니라 "세 가지를 같이 바꾸는 일"입니다.

하나, 업무 흐름(Workflow)부터 다시 그립니다. AI를 어느 한 칸에 끼울지가 아니라, 그 업무 전체를 AI 기준으로 다시 설계할 수 있는지를 먼저 봅니다. 못 바꾸는 절차라면 거기엔 아무리 좋은 모델을 넣어도 본전입니다.

둘, 모델은 일에 맞춰 고르고 반드시 검증(Pre-test)합니다. 제일 비싼 걸 박지 말고, 그 일에서 실제로 잘하는지를 한국 실무로 재본 다음 붙입니다. 비싼 모델은 고난도 규제 업무에, 싼 모델은 대량 반복 업무에. 한 모델로 전부 해결하려는 게 가장 비싼 선택입니다.

셋, 작게 시작해 한 지점을 끝냅니다. 전사 AI 전환 같은 거대 구호 대신, 가장 아픈 골칫거리 하나를 골라 그것만 확실히 마무리합니다. 살아남은 5%가 한 일이 정확히 이거였으니까요.

모델은 이미 충분히 좋습니다. 2026년의 병목은 모델의 지능이 아니라, 그 지능을 끼워 넣을 우리의 일하는 방식이에요. AI가 못 해서 실패하는 게 아니라, 우리가 안 바꿔서 실패하는 겁니다.

어떤 모델이 어떤 일에서 진짜 쓸 만한지, 한국 실무로 직접 재본 결과는 여기 있습니다.

AXyBench 전체 결과 보기

공유X Threads