값싼 에이전트의 비싼 청구서

Executive Summary

앤트로픽이 6월 30일 클로드 소네트 5를 공개했다. 도입가 기준 입력 100만 토큰당 2달러, 출력 10달러. 상위 모델 Opus 4.8보다 40~60% 싸면서 에이전틱 코딩 성능은 상당 부분 따라잡은 티어다. 헤드라인은 하나로 모였다. "에이전트를 더 싸게 돌릴 수 있게 됐다." 하지만 그 헤드라인은 절반만 맞다. 나머지 절반이 청구서를 결정한다.

같은 시기, 블렌디드 토큰 단가는 1년 새 67% 떨어졌는데 엔터프라이즈 AI 청구서는 오히려 320% 늘었다. 값이 내려가는데 청구서가 커지는 이 역설의 뿌리에는 에이전트 루프가 있고, 그 루프를 길게 만드는 건 부실한 데이터다. 실패한 에이전트 작업의 85%가 데이터 품질 문제에서 비롯된다.

그래서 경쟁의 축이 옮겨갔다. 토큰 단가가 아니라 "완수한 작업당 비용"이다. 값싼 모델은 출발선만 낮출 뿐, 데이터가 부실하면 에이전트는 헛돌고 결승선까지의 비용은 오히려 불어난다.

주요 수치

아래 네 숫자는 따로 보면 그저 통계지만, 왼쪽에서 오른쪽으로 이으면 하나의 인과가 된다. 단가는 분명히 내렸는데(-67%) 청구서는 오히려 불었고(+320%), 그 사이를 메운 것이 길어진 에이전트 루프(~50배)이며, 루프를 늘린 근본 원인의 대부분이 부실한 데이터(85%)다.

출처: TechCrunch, EY, Gartner, KPMG (2025~2026)

-67%

블렌디드 토큰 단가

$18.40 → $6.07 (YoY)

+320%

엔터프라이즈 청구서

같은 기간 평균 예산 증가

~50배

10턴 세션 비용

단일 호출 대비, 컨텍스트 누적

85%

에이전트 실패 원인

근본 원인이 데이터 품질

1

값은 내렸는데, 왜 이게 뉴스일까

소네트 5의 가격표는 분명히 매력적이다. 8월 31일까지 적용되는 도입가는 입력 100만 토큰당 2달러, 출력 10달러다. 9월부터 표준가 3달러/15달러로 오르지만, 그래도 Opus 4.8(5달러/25달러)보다 저렴하다. 앤트로픽이 처음으로 도입가를 내걸었다는 점도 이례적이다. 회사 대변인은 "고객이 실제 워크로드로 최저 비용에 테스트해 보길 원한다"고 했다.

그런데 진짜 뉴스는 숫자가 아니다. TechCrunch는 이번 발표를 두고 에이전틱 역량은 이제 "기본 자격(table stakes)"이 됐고, 경쟁은 "얼마나 싸게, 그리고 사람 개입 없이 얼마나 안정적으로 끝까지 해내느냐"로 옮겨갔다고 못 박았다. 능력 자랑의 시대가 지나고, 완수의 경제학이 시작됐다는 선언에 가깝다.

그러니 이 발표를 "가격 인하 뉴스"로만 읽으면 절반을 놓친다. 앤트로픽이 도입가라는 카드를 꺼낸 것도, 업계가 벤치마크 대신 "완수당 비용"을 이야기하기 시작한 것도 같은 신호다. 승부의 축이 토큰 단가에서 작업 완수로 이동하고 있다는 신호.

2

단가는 67% 내렸는데 청구서는 320% 올랐다

지난 1년간 블렌디드 토큰 단가는 100만 토큰당 18.40달러에서 6.07달러로 67% 떨어졌다. 24억 건의 API 호출을 분석한 수치다. 상식대로라면 청구서도 줄었어야 한다. 그런데 같은 기간 엔터프라이즈의 AI 예산은 평균 120만 달러에서 700만 달러 수준으로, 약 320% 늘었다. 값은 내려가는데 지출은 커진다. 어디서 새는 걸까.

2.1먼저, 단가 인하 자체가 착시일 수 있다

소네트 5는 새 토크나이저를 쓴다. 같은 텍스트를 예전보다 약 30% 더 많은 토큰으로 쪼갠다는 뜻이다. 표시 단가가 그대로여도 특정 워크로드에서는 실효 비용이 10~35% 더 높아질 수 있다. 개발자 사이먼 윌리슨은 어떤 시스템 프롬프트에서 1.46배까지 토큰이 부푸는 걸 관측했다. 가격표의 숫자와 청구서의 숫자는 다른 언어인 셈이다.

2.2진짜 청구서는 루프에서 나온다

에이전트는 한 번 부르고 끝나지 않는다. 매 턴마다 지금까지의 대화 전체를 다시 실어 보낸다. 그래서 10턴짜리 세션은 단일 호출의 10배가 아니라 약 50배 비용이 든다. 비용이 대화 길이에 대해 2차 함수로 커진다. 바쁜 코딩 에이전트의 하루를 뜯어보면 처리 토큰의 99%가 누적된 궤적을 다시 읽는 입력 토큰이고, 실제 생성은 1%에 불과하다.

▲ 에이전트 루프의 2차 함수 비용 성장 — 10턴 세션은 단일 호출의 약 50배 | 페블러스 원본 도식

게다가 모델 인보이스는 전체 비용의 20~40%뿐이다. 나머지 60~80%는 오케스트레이션, 리트리벌, 재시도, 관찰가능성이 먹는다. EY는 2023년 4센트였던 단순 워크플로 상호작용이 도구·추론·반복 루프를 갖춘 2026년 오케스트레이션 시스템에서는 1.20달러, 약 30배로 뛰었다고 보고했다.

이건 이론이 아니다. Uber의 AI 예산은 코딩 어시스턴트 사용률이 33%에서 80%대로 오르며 4개월 만에 소진됐다. Microsoft는 배포했던 클로드 코드 라이선스를 회수했고, Priceline의 계약 갱신가는 전년 대비 4~5배로 뛰었다. 값싼 단가는 오히려 사용량을 폭발시켜 총액을 키운다.

3

완수한 작업당 비용이라는 새 산수

토큰 단가는 이제 비용을 설명하는 여러 변수 중 하나에 불과하다. 진짜로 봐야 할 지표는 완수한 작업당 비용(cost per completed task)이다. 하나의 업무를 사람 개입 없이 끝까지 마쳤을 때, 거기에 든 총비용이 얼마인가. 이 값은 대략 이렇게 분해된다.

완수한 작업당 비용 ≈ (토큰 단가 × 루프 길이) ÷ 성공률

세 변수 중 모델을 바꿔서 낮출 수 있는 건 맨 앞의 토큰 단가 하나뿐이다. 루프 길이와 성공률은 모델 카탈로그가 아니라 에이전트가 딛고 선 데이터가 좌우한다. 그리고 이 둘이 청구서를 지배한다.

성공률을 보자. 초기 배포된 에이전트의 자율 완수율은 대략 50%, 성숙한 시스템도 70~80%에 그친다. 완수율이 낮으면 분모가 작아져 완수당 비용이 치솟는다. 게다가 실패한 시도는 그냥 사라지지 않는다. 1만 건을 시도해 7천 건만 무인 완수했다면, 성공 7천 건의 단가에는 실패한 3천 건이 태운 리소스가 고스란히 얹힌다.

루프 길이도 마찬가지다. 검증에 실패할 때마다 에이전트는 전체 컨텍스트를 다시 싣고 재시도한다. 10번 교정하는 사이클은 한 번에 통과했을 때의 50배를 태운다. 결국 값싼 모델로 갈아타 단가를 40% 줄여도, 루프가 두 배로 길어지고 성공률이 반토막 나면 완수당 비용은 오히려 커진다.

4

청구서를 결정하는 건 데이터 준비도

그렇다면 루프 길이와 성공률을 결정하는 최상류 변수는 무엇인가. 데이터 품질이다. 에이전트는 매 상호작용에서 데이터를 근거로 상황을 파악하고, 행동을 고르고, 다음 단계를 판단한다. 그 데이터가 부실하면 판단이 오염되고, 환각과 드리프트와 예측 불가능한 행동이 재시도 루프를 만든다. 루프가 길어지면 청구서가 커진다.

▲ 데이터 품질 부족 → 재시도 루프 → 완수당 비용 폭증 | 페블러스 원본 도식

숫자가 이 인과를 뒷받침한다. 실패한 AI 작업의 85%가 데이터 품질 문제를 근본 원인으로 지목받는다. 반면 AI 애플리케이션을 지원할 만큼 충분한 데이터 품질을 갖춘 조직은 12%뿐이다(Gartner, 2025). 에이전트 도입이 두 분기 만에 11%에서 42%로 네 배 늘어나는 동안 데이터 품질에 대한 우려는 56%에서 82%로 치솟았다(KPMG). 에이전트가 늘수록 부실한 데이터의 청구서도 함께 커진 것이다.

가트너는 여기서 한 발 더 나간 예측을 내놓았다. AI-Ready 데이터가 뒷받침하지 않는 AI 프로젝트의 60%가 2026년까지 폐기되고, 에이전틱 AI 프로젝트의 40% 이상이 2027년까지 취소된다는 것이다. 모델이 아무리 싸져도, 데이터가 준비되지 않으면 프로젝트 자체가 완주하지 못한다는 경고다.

이번 가격 전쟁을 한 문장으로 요약하면 이렇다. 값싼 모델은 출발선을 낮출 뿐, 결승선까지의 비용은 데이터가 결정한다. 서방 랩들이 토크나이저와 티어 조정으로 실효가를 슬쩍 올리는 사이, 실제로 예산을 지키는 팀은 더 싼 모델을 고른 팀이 아니라 에이전트가 딛고 설 데이터를 먼저 다진 팀이다.

소네트 5는 좋은 도구다. 하지만 도구값이 내려간 만큼 절약되려면, 그 도구가 딛고 설 바닥이 단단해야 한다. 완수한 작업당 비용이라는 새 경쟁 축에서 진짜 지렛대는 모델 선택의 아래, 데이터 준비도에 있다.

R

참고문헌