Executive Summary

가트너가 2026년 6월 중급·고급 에이전틱 AI 사례 107개를 한자리에 모아 분석했습니다. 보고서가 던진 질문은 단순합니다. 어떤 에이전트가 실제로 돈을 벌어다 주는가. 답은 의외로 깔끔하게 갈렸습니다. 수백만 달러 규모의 결과를 보고한 사례는 단 여섯 개였고, 그 여섯은 한 가지를 공유했습니다. 무언가를 제안하고 끝내는 대신, 엔터프라이즈 시스템 안에서 실제 작업을 직접 실행했다는 점입니다.

가장 또렷한 증거가 Kodiak Gas Services입니다. 부품 발주와 반품을 사람 대신 처리하는 에이전트 하나가 연 300만 달러의 효과를 냈고, 현장 기술자 800명에게 한 해 9만 시간을 돌려줬습니다. 만약 이 에이전트가 "이 부품을 주문하세요"라고 알려 주기만 했다면 기술자는 여전히 직접 시스템에 로그인해야 했을 것이고, 9만 시간은 어디에도 가지 않았을 것입니다. 차이를 만든 것은 더 똑똑한 모델이 아니라, 시스템에 손을 뻗어 발주를 끝내는 권한이었습니다.

그래서 이 글이 붙잡는 질문은 하나입니다. 무엇이 실행형 에이전트의 ROI를 만드는가. Kodiak과 Northwestern Mutual 두 사례를 따라가다 보면 같은 바닥이 드러납니다. 에이전트가 실행하려면 시스템이 그 명령을 받아야 하고, 시스템이 받으려면 데이터가 믿을 만해야 한다는 것입니다.

주요 수치

출처: IFS Loops, Gartner

네 숫자가 이번 분석의 긴장을 압축합니다. 실행이 만든 결과(왼쪽 둘)와, 그 결과가 왜 드물었는지(오른쪽 둘)입니다. 특히 마지막 숫자가 본문 내내 따라옵니다. 수백만 달러 결과가 107개 중 여섯에 그친 이유가, 절반이 넘는 기업이 데이터 품질을 최대 장벽으로 꼽은 사실과 맞물리기 때문입니다.

$3M

Kodiak 연간 ROI

부품 발주·반품을 에이전트가 직접 실행해 만든 한 해 효과

9만 시간

기술자에게 환원

부품 검색에 흩어지던 시간을 800명 현장 인력에게 되돌려줌

6 / 107

수백만 달러 결과

전체 사례 중 백만 달러대 성과를 보고한 수, 모두 실행형

52%

데이터 품질이 최대 장벽

에이전틱 AI 배포의 가장 큰 걸림돌로 데이터 품질을 지목한 기업

1

가트너가 107개를 가른 세 칸

에이전틱 AI를 둘러싼 기대는 이미 숫자로 부풀어 있습니다. 가트너는 2025년 5% 미만이던 태스크 전용 AI 에이전트 탑재 기업 앱 비율이 2026년 말 40%까지 오를 것으로 봤습니다. 그러나 같은 기관은 2027년까지 에이전틱 AI 프로젝트의 40% 이상이 취소될 것이라는 경고도 나란히 내놨습니다. 기대와 실패율이 함께 치솟는 국면에서, 실제로 돈을 번 사례 107개를 한자리에 모은 이 보고서의 무게가 여기에 있습니다. 무엇이 성공과 취소를 가르는지를 추측이 아니라 실측으로 보여 주기 때문입니다.

가트너의 로버트 헤투와 루벤 하우드는 107개 사례를 그냥 나열하지 않았습니다. 먼저 세 개의 칸으로 분류했습니다. 첫째는 워크플로 자동화로, 사람이 밟던 업무 절차를 에이전트가 대신 밟거나 더 빠르게 밟는 경우입니다. 둘째는 데이터 합성으로, 여러 소스에 흩어진 데이터를 모으고 정제해 새 결과를 만들어 내는 경우입니다. 셋째는 생산성으로, 고객을 마주하는 접점과 내부 운영을 함께 효율화하는 경우입니다.

분류 안에서 사례들은 다시 중급과 고급으로 나뉩니다. 가르는 기준은 세 가지가 겹칩니다. 얼마나 복잡한 일을 다루는가, 얼마나 스스로 판단하는가, 그리고 기업 시스템에 얼마나 깊이 들어가 있는가입니다. 세 번째 기준이 이 글의 주제와 곧장 이어집니다. 시스템에 깊이 들어간 에이전트일수록 보고만 하는 게 아니라 실제로 일을 끝내기 때문입니다.

흥미로운 대목은 수백만 달러 결과를 낸 여섯 사례가 특정 칸에 몰려 있지 않았다는 점입니다. 워크플로 자동화에도, 생산성에도 걸쳐 있었습니다. 분류 축이 ROI를 가르지 않았다는 뜻입니다. 그렇다면 무엇이 갈랐을까요. 보고서가 반복해서 짚는 공통 인수는 분류가 아니라 동작의 성질이었습니다. 제안하느냐, 실행하느냐.

상위 ROI 에이전트는 답을 내놓는 데서 멈추지 않습니다. 재고 시스템에 발주를 걸고, 반품을 처리하고, 개발 파이프라인의 실패를 분석해 조치까지 잇습니다. 가트너의 표현을 빌리면, 재무 성과의 공통 요인은 더 좋은 모델이 아니라 "엔터프라이즈 시스템 안에서 실제로 행동하는 능력"이었습니다.

가트너 107개 사례 — 세 분류 축 워크플로 자동화 Workflow Automation 중급 — 반복 업무 자동화 고급 — 복잡한 판단·실행 ROI 수백만 달러 사례 포함 데이터 합성 Data Synthesis 중급 — 데이터 수집·정제 고급 — 멀티소스 합성 생산성 Productivity 고객 접점 효율화 내부 운영 효율화 ROI 수백만 달러 사례 포함 107개 중 6개가 수백만 달러 ROI — 분류 칸이 아니라 실행 여부가 결과를 갈랐다
▲ 가트너는 107개 사례를 워크플로 자동화·데이터 합성·생산성 세 칸으로 분류했다. 오렌지 테두리(ROI 칸)가 수백만 달러 성과를 낸 여섯 사례를 포함한 분류다. | 페블러스 원본 도식
2

제안만 했다면 9만 시간은 돌아오지 않았다

Kodiak Gas Services는 미국 전역에서 450만 마력 규모의 천연가스 압축 설비를 운영합니다. 800명의 현장 기술자가 이 장비를 돌보는데, 이들의 하루에는 보이지 않는 시간 누수가 있었습니다. 부품을 찾고, 재고를 확인하고, 발주서를 쓰고, 잘못 온 부품을 반품하는 일입니다. 장비를 고치는 시간이 아니라 부품을 둘러싼 행정에 매일 적지 않은 시간이 새어 나갔습니다.

Kodiak이 IFS Loops의 Agent Studio 위에 올린 해법은 Material Replenisher Digital Worker라는 이름의 에이전트였습니다. 작동 방식은 대화처럼 단순합니다. 기술자가 자연어로 어떤 부품이 필요하다고 말하면, 에이전트가 자재 시스템에 직접 들어가 재고를 확인하고, 발주를 생성하고, 필요하면 반품까지 처리합니다. 핵심은 마지막 단어에 있습니다. 에이전트가 "처리한다"는 것입니다.

이 한 끗이 결과를 갈랐습니다. 배포 후 Kodiak이 보고한 효과는 연 300만 달러, 그리고 기술자들에게 돌아간 한 해 9만 시간입니다. 같은 에이전트가 "이 부품을 주문하는 게 좋겠습니다"라고 권하기만 했다면 어땠을까요. 기술자는 그 조언을 듣고 다시 자재 시스템에 로그인해, 똑같은 화면에서, 똑같은 발주를 직접 눌렀을 것입니다. 조언은 친절하지만 시간을 돌려주지는 못합니다. 9만 시간을 만든 것은 추천이 아니라 실행이었습니다.

같은 입력, 다른 결과: 추천형 vs 실행형 추천형 기술자 요청 부품 제안 사람이 직접 발주 시간 절감 미미 동일 수작업 반복 실행형 기술자 요청 재고 확인 발주·반품 실행 $3M · 9만 시간 사람 개입 최소 ROI를 가른 한 칸: '제안'에서 멈추느냐, '실행'까지 가느냐 | 페블러스 원본 도식
▲ 같은 요청을 받아도 추천형은 사람의 수작업으로 되돌아가고, 실행형은 발주를 끝낸다. ROI는 마지막 한 칸에서 갈렸다. | 페블러스 원본 도식

실행에는 신뢰가 필요합니다. 에이전트가 멋대로 잘못된 발주를 걸면 비용이 새기 때문입니다. IFS Loops의 Agent Studio가 떠맡은 몫이 바로 그 신뢰의 장치입니다. 행동의 경계를 정하는 가드레일, 무엇을 했는지 되짚는 감사 기록, 에이전트의 생애 주기를 관리하는 틀이 깔려야 비로소 기업은 시스템을 건드리는 권한을 에이전트에게 넘깁니다. 실행형 ROI는 대담함이 아니라, 대담함을 감당할 거버넌스 위에서만 나옵니다.

3

다섯 에이전트가 개발자 대기줄을 지운 법

두 번째 사례는 금융사 Northwestern Mutual입니다. 문제는 어느 큰 조직에나 있는 흔한 종류였습니다. 내부 개발자 지원 채널에 같은 질문이 반복해서 올라오고, 문서를 뒤지면 나오는 내용도 매번 사람을 부릅니다. 게다가 담당 엔지니어가 자리를 비운 시간대에는 답이 몇 시간씩 늦어졌습니다. 단순 질문이 숙련된 엔지니어의 시간을 갉아먹는 구조였습니다.

설계에서 눈에 띄는 선택은, 모든 일을 하나의 거대한 에이전트에게 맡기지 않았다는 점입니다. 대신 책임을 좁게 나눈 다섯 개의 전문 에이전트를 세웠습니다. 문서를 담당하는 에이전트, 사용자 관리를 맡는 에이전트, 코드 저장소를 다루는 에이전트, 파이프라인 실패를 분석하는 에이전트, 그리고 응답의 품질을 평가하는 에이전트입니다. 역할 경계가 좁을수록 각 에이전트의 행동을 예측하고 디버깅하기 쉬워집니다.

Northwestern Mutual 멀티에이전트 아키텍처 개발자 요청 (반복 질문·이슈) 오케스트레이터 Amazon Bedrock Agents SQS · DynamoDB · Lambda 명시적 동의 + 전체 로그 문서 에이전트 내부 문서·지식 베이스 검색 사용자 관리 에이전트 권한·온보딩 자동화 저장소 에이전트 코드 저장소 관리·접근 파이프라인 분석 에이전트 빌드 실패 진단·조치 응답 평가 에이전트 답변 품질 검증·피드백 6월 파일럿 → 9월 프로덕션 | 반복 질문을 분 단위로 처리 | 페블러스 원본 도식
▲ 하나의 만능 에이전트 대신 책임을 좁게 나눈 다섯 개의 전문 에이전트가 Amazon Bedrock 오케스트레이터 아래서 협력한다. 역할 분리가 디버깅과 신뢰를 동시에 높였다. | 페블러스 원본 도식

기술 바탕은 Amazon Bedrock Agents 위에 메시지 큐(SQS), 데이터 저장소(DynamoDB), 그리고 파이썬 람다 함수를 엮은 구성이었습니다. 규제 산업인 금융사답게 컴플라이언스 설계도 또렷합니다. 자동화된 모든 조치 앞에 사용자의 명시적 동의를 받고, 모든 행동을 빠짐없이 로그로 남깁니다. 에이전트가 알아서 실행하되, 무엇을 했는지는 언제든 되짚을 수 있게 한 것입니다.

타임라인도 인상적입니다. 6월에 파일럿을 시작해 9월에 프로덕션으로 올렸으니, 석 달 만에 실서비스가 됐습니다. 결과적으로 반복 질문은 에이전트가 분 단위로 받아 내고, 엔지니어는 진짜 복잡한 문제에 시간을 쓰게 됐습니다. 다만 이 사례에는 본문에 분명하게 적힌 교훈이 하나 더 있습니다. 잘 정제된 내부 문서가 없었다면 지식 베이스 에이전트는 무용지물이었을 것이라는 점입니다. 흔한 표현으로 옮기면, 쓰레기가 들어가면 쓰레기가 나옵니다.

하나의 만능 에이전트보다 책임이 또렷한 다섯 개가 안정적이었다는 것, 그리고 그 다섯이 답을 실행으로 옮길 수 있었던 이유가 정제된 문서였다는 것. 이 사례는 멀티에이전트 설계의 교과서이면서, 동시에 데이터 품질이 ROI의 전제 조건임을 보여 주는 증거이기도 합니다.

4

LLM은 필수가 아니었는데 왜 모델을 적었나

보고서가 의외로 분명하게 못 박는 사실이 하나 있습니다. 거대 언어 모델은 에이전틱 AI의 필수 부품이 아니라는 점입니다. 규칙 기반 로직, 확률 모델, 기존 RPA만으로도 충분히 자율적으로 일을 처리하는 에이전트가 존재합니다. '에이전틱'이라는 말이 곧 'LLM을 쓴다'를 뜻하지는 않습니다.

그런데도 107개 중 다수가 어떤 모델을 썼는지를 굳이 명시했습니다. 이유는 모델이 잘하는 일이 분명하기 때문입니다. 기술자가 자연어로 던지는 요청을 알아듣고, 정리되지 않은 문서에서 맥락을 끄집어내고, 파이프라인 실패의 원인 같은 여러 단계의 추론을 밟는 자리에서 LLM의 역할이 커집니다. 규칙으로 다 적기 어려운 영역을 모델이 메워 주는 셈입니다.

명시된 모델의 면면도 한 곳에 쏠리지 않았습니다. 기업마다 고른 이유가 달랐습니다.

모델 제공사 기업이 고른 이유
QWEN-2.5 Alibaba 오픈소스, 비용 우위, 아시아 시장 적합
Claude Anthropic 코딩·분석, 긴 컨텍스트, 규제 환경
BERT · Gemini Google 언어 이해와 작문, Google Cloud 통합
Llama Meta 온프렘·VPC 배포, 프라이버시 규제 기업
GPT-4 OpenAI 범용 추론, Azure 통합

목록이 흩어져 있다는 사실 자체가 메시지입니다. 2026년의 현실에서는 '하나의 정답 모델'을 고르는 게임이 아니라, 일마다 맞는 모델을 골라 붙이는 게임이 됐습니다. 코딩에는 이 모델, 작문에는 저 모델, 비용에 민감한 대량 처리에는 또 다른 모델을 라우팅하는 방식입니다. 지난 1년 사이 LLM API 가격이 가파르게 떨어지면서 이런 조합의 진입 장벽도 함께 낮아졌습니다.

다만 모델 선택은 ROI의 출발선일 뿐 결승선이 아닙니다. 어떤 모델을 붙이든, 그 모델이 받아 든 데이터가 부실하면 에이전트의 판단도 부실해집니다. 모델 카탈로그를 비교하는 시간보다 데이터 파이프라인을 점검하는 시간이 ROI에 더 가깝다는 사실이, 다음 절의 주제입니다.

5

실행을 떠받치는 바닥, 데이터 품질

에이전트가 실행하려면 시스템이 그 명령을 받아야 합니다. 시스템이 명령을 받으려면 그 안의 데이터가 정확해야 합니다. 너무 당연해 보이는 이 연결 고리가, 실제로는 가장 자주 끊어지는 지점입니다. 가트너는 기업들이 에이전틱 AI 배포의 가장 큰 단일 장벽으로 데이터 품질을 꼽았다고 전합니다. 절반이 넘는 52%가 그렇게 답했습니다.

데이터 파이프라인 아키텍처: 수집·처리·저장·게시 단계를 거쳐야 에이전트가 신뢰할 수 있는 데이터가 된다
▲ 데이터가 에이전트에게 닿기까지: 수집 → 파싱 → 처리 저장소 → 게시의 단계가 완성돼야 비로소 실시간 실행 판단에 쓸 수 있다. 이 파이프라인이 배치 구조에 머물면 에이전트는 어제의 데이터로 오늘의 결정을 내린다. | 출처: NEON / Wikimedia Commons (CC BY 4.0)

숫자는 더 나아갑니다. AI에 곧바로 쓸 수 있게 정리되지 못한 데이터로 출발한 프로젝트의 상당수는 비즈니스 가치를 만들기도 전에 폐기됩니다. 실패한 AI 이니셔티브를 뜯어보면 모델 자체가 원인인 경우는 소수에 그치고, 나머지 대부분은 전략, 거버넌스, 데이터 아키텍처의 문제였습니다. 즉 모델을 바꿔서 풀리는 실패보다, 데이터와 구조를 바꿔야 풀리는 실패가 훨씬 많습니다.

구조의 문제는 특히 에이전트에게 치명적입니다. 많은 기업의 데이터가 하루나 한 시간 단위로 묶여 처리되는 배치 구조에 머물러 있는데, 에이전트는 지금 이 순간의 재고와 상태를 보고 실행을 결정합니다. 어제의 재고로 오늘의 발주를 거는 에이전트는 신뢰를 잃습니다. 한 분석은 에이전틱 AI의 ROI 격차 가운데 상당 부분이 바로 이 배치 구조와 실시간 요구 사이의 어긋남에서 비롯된다고 짚습니다.

이 격차는 도입률과 성과율의 간극으로도 드러납니다. 기업의 다수가 어떤 형태로든 AI를 도입했지만, 그중 전환적이라 부를 만한 ROI를 입증한 비율은 한 자릿수에 머뭅니다. 반대로 제대로 자리 잡은 곳은 투자 대비 몇 배의 수익을 보고합니다. 같은 기술을 두고 결과가 이렇게 벌어지는 이유의 상당 부분이, 모델의 우열이 아니라 그 모델이 딛고 선 데이터의 상태에 있습니다.

5.1성공한 도입에 공통으로 깔려 있던 것

반대로, 성과를 낸 도입들에는 비슷한 바탕이 깔려 있었습니다. 세 가지로 추릴 수 있습니다.

  • 에이전트 이전에 데이터가 정돈돼 있었다 — 발주를 거는 부품 데이터, 답을 끌어오는 내부 문서가 먼저 신뢰할 만한 상태였다
  • 유스케이스와 베이스라인이 또렷했다 — 무엇을 줄이고 무엇을 늘릴지, 측정 가능한 기준선을 먼저 잡았다
  • 거버넌스를 나중에 붙이지 않았다 — 가드레일과 감사 기록을 설계 단계부터 넣어 실행의 신뢰를 확보했다

Kodiak의 300만 달러는 부품의 재고와 스펙과 가격이 정확히 구조화돼 있었기에 가능했고, Northwestern Mutual의 분 단위 응답은 정제된 내부 문서 데이터베이스가 있었기에 가능했습니다. 두 사례를 한 문장으로 모으면 이렇게 됩니다. 실행형 에이전트의 ROI는 모델이 아니라 데이터에서 나옵니다. 107개 사례의 표면 아래로 흐르는 공통 조건이 바로 이것입니다.

Editor's Note

107개 사례가 가리키는 결론은 하나로 모입니다. 에이전트가 실행하려면 시스템이 명령을 받아야 하고, 시스템이 받으려면 데이터가 믿을 만해야 합니다. 가트너가 전한 52%, 그리고 폐기되는 프로젝트의 통계는 모두 같은 곳을 향합니다. 도입이 실패하는 기업의 공통점은 "모델을 잘못 골랐다"가 아니라 "실행을 떠받칠 데이터가 없었다"입니다.

그래서 에이전트에게 무엇을 맡길지 정하기 전에 던질 질문은 모델 카탈로그가 아니라 데이터입니다. 우리 시스템의 재고는, 문서는, 출처는 지금 이 순간 에이전트가 믿고 실행할 만큼 정확한가. 페블러스가 데이터의 출처와 품질을 검증 가능한 상태로 만드는 일에 집중해 온 이유도 이 질문에 닿아 있습니다. ROI의 출발점은 더 똑똑한 에이전트가 아니라, 그 에이전트가 발 디딜 만한 데이터입니다.

R

참고문헌

원 보고서 · 공식 발표

  • 1.Hetu, R., & Harwood, R. (2026, June 16). Learn From 107 Agentic AI Case Examples in 8 Minutes (ID G00856491). Gartner.
  • 2.IFS. (2026, April 23). IFS Loops Launches Agent Studio. PR Newswire. prnewswire.com
  • 3.Gartner. (2025, June 25). Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027. Gartner Newsroom. gartner.com
  • 4.Gartner. (2025, August 26). Gartner Predicts 40% of Enterprise Apps Will Feature Task-Specific AI Agents by 2026. Gartner Newsroom. gartner.com

사례 · 업계 분석

  • 5.ZenML. (2026). Multi-Agent GenAI System for Developer Support and Documentation. ZenML LLMOps Database. zenml.io
  • 6.TechRadar. (2026). Garbage in, Agentic out: why data and document quality is critical to autonomous AI's success. TechRadar Pro. techradar.com
  • 7.TechTimes. (2026, June 16). Agentic AI Data Failure: Batch Architecture, Not Models, Drives 80% Enterprise ROI Gap. Tech Times. techtimes.com