모델은 비싸졌다. 데이터는 더 비싸진다.

Executive Summary

2026년 1분기, 전 세계 벤처 투자가 한 분기 만에 3000억 달러를 찍었다. 사상 최대다. 그중 80%인 2420억 달러가 AI 기업으로 흘러갔고, 그 대부분은 OpenAI·Anthropic·xAI·Waymo 단 네 곳의 메가라운드가 빨아들였다. 헤드라인은 명확하다. 자본은 프런티어 모델에 베팅했다.

그런데 헤드라인이 답하지 않는 질문이 하나 있다. 그 모델들을 먹일 데이터는 누가, 얼마에 만드는가. 같은 시기 Meta는 데이터 레이블링 회사 Scale AI에 143억 달러를 넣어 49% 지분을 쥐었고(평가 290억 달러), 부트스트랩 회사 Surge AI는 매출에서 Scale을 추월하며 250억 달러 평가를 추진했다. 모델값이 천정부지로 오를수록, 그 모델을 먹이는 데이터의 가격과 권력도 함께 오른다.

이 글은 메가라운드의 그늘에서 조용히 비싸지는 '데이터 레이어'를 본다. 자본 흐름의 화려한 절반이 모델이라면, 나머지 절반은 그 모델을 굴리는 연료, 곧 데이터다.

주요 수치

출처: Crunchbase News, 2026 · 데이터 레이어 수치는 Bloomberg·Reuters 외

아래 네 숫자가 이 분기의 전모를 압축한다. 사상 최대 총액, AI로의 80% 쏠림, 단 네 회사로의 집중, 그리고 그 그늘에서 빅테크가 절반을 사들인 데이터 회사 한 곳. 앞의 셋은 헤드라인이 이미 말한 이야기이고, 마지막 하나가 이 글이 따라가려는 이야기다.

$300B

2026 Q1 글로벌 VC 투자

사상 최대 분기, 전기 대비 +150%

80%

AI 기업이 차지한 비중

$242B — 1년 전 55%에서 급등

$188B

단 4개 회사의 라운드 합계

글로벌 Q1의 65%가 여기로

$29B

Scale AI 평가액

Meta가 $14.3B에 49% 지분 인수

1

사상 최대 분기, 그리고 빠진 질문 하나

숫자부터 보자. Crunchbase 집계로 2026년 1분기 전 세계 스타트업이 끌어모은 벤처 투자는 약 3000억 달러다. 직전 분기와 1년 전 같은 분기 대비 모두 150% 가까이 뛴, 단일 분기 사상 최대 기록이다. 이 한 분기가 2025년 한 해 전체 벤처 투자의 약 70%에 맞먹는다.

쏠림은 두 방향으로 일어났다. 첫째는 AI다. 전체의 80%인 2420억 달러가 AI 기업으로 향했다. 1년 전 같은 비중이 55%였으니, 자본이 AI 한 곳으로 빨려 들어가는 속도가 가팔라졌다. 둘째는 소수 후기 단계 기업이다. 후기 단계 투자만 2466억 달러로 전년 대비 205% 늘었고, 미국이 글로벌의 83%(2500억 달러)를 가져갔다. 자본은 넓게 뿌려지지 않았다. 검증된 소수에게 몰렸다.

그 소수의 정점에 메가라운드가 있다. OpenAI 1220억 달러, Anthropic 300억 달러, xAI 200억 달러, Waymo 160억 달러. 네 회사 합계 1880억 달러가 글로벌 1분기 투자의 65%다. 헤드라인은 여기서 끝난다. "AI가 벤처 자본을 삼켰다."

그런데 페블러스 독자라면 다음 질문이 자연스럽게 떠오를 것이다. 이 모델들은 무엇을 먹고 그렇게 비싸졌나. OpenAI의 1220억 달러도, Anthropic의 가파른 밸류에이션도 결국 더 좋은 모델에 대한 베팅이다. 그리고 더 좋은 모델은 정의상 더 좋은 데이터를 요구한다. 헤드라인이 비춘 무대 위에 모델이 서 있다면, 그 무대 아래에서 모델을 먹이는 데이터는 누가, 얼마에 만들고 있을까.

2

비싼 모델은 비싼 데이터를 전제한다

메가라운드의 가격표를 매출로 나눠 보면 투자자가 무엇을 사고 있는지가 드러난다. OpenAI의 라운드는 매출의 약 34배, Anthropic은 약 20배 수준에서 매겨졌다. 이 멀티플은 지금의 매출이 아니라 앞으로의 모델 성능에 거는 베팅이다. 투자자는 "이 회사가 더 좋은 모델을 계속 내놓을 것"이라는 미래에 돈을 지불한 것이다.

그렇다면 더 좋은 모델은 어디서 오나. 모델 아키텍처와 컴퓨트도 중요하지만, 성능의 천장을 결정하는 것은 결국 학습 데이터의 질과 권리다. 공개 웹을 긁어 모으던 시대는 이미 한계에 닿았다. 양질의 텍스트는 고갈되어 가고, 남은 차별화는 도메인 특화 데이터, 사람이 검수한 선호 데이터, 합법적으로 라이선스된 독점 데이터에 있다. 모델 성능 곡선의 다음 구간은 알고리즘이 아니라 데이터가 그린다.

RLHF(인간 피드백 강화학습) 구조 개요 — 사람이 레이블링한 선호 데이터가 AI 모델 품질을 결정하는 과정 — ▲ RLHF(인간 피드백 강화학습) 개요 — 사람이 레이블링한 선호 데이터가 곧 모델의 성능 상한선을 그린다 | Source: Wikipedia / Wikimedia Commons

모델 가격과 데이터 가격은 분리된 두 시장이 아니다. 같은 곡선의 위와 아래다. 모델 멀티플이 20~34배까지 오른다는 것은, 그 모델을 그만큼 좋게 만들 데이터에 대한 수요도 함께 끌어올린다는 뜻이다. 투자자가 모델에 베팅할 때, 그 베팅은 보이지 않게 데이터에도 함께 걸린다.

이 구조는 데이터 회사·데이터 팀에게 묘한 위치를 준다. 헤드라인의 주인공은 아니지만, 헤드라인이 성립하려면 반드시 있어야 하는 존재. 모델값이 오를수록 그 위치의 협상력도 함께 오른다.

3

조용히 비싸지는 곳 — 데이터 레이어

모델 메가라운드가 1면 헤드라인을 차지하는 동안, 데이터 레이어에서는 더 조용하지만 더 구조적인 사건이 일어났다. 2025년 6월, Meta는 데이터 레이블링 회사 Scale AI에 143억 달러를 투자해 49% 지분을 확보했다. 이 거래로 Scale은 290억 달러로 평가됐다. 한때 "필요할 때 부르는 외주 라벨링 서비스"로 분류되던 회사가, 빅테크가 절반을 사들이는 전략적 자산으로 재정의된 순간이다.

더 흥미로운 신호는 경쟁사 쪽에서 나왔다. Surge AI는 벤처 투자를 한 푼도 받지 않은 부트스트랩 회사인데도, 첫 외부 펀딩에서 150억 달러를 넘어 250억 달러 평가를 추진했다. 보도에 따르면 Surge의 매출은 연 10억 달러 규모로, Scale의 약 8억 7000만 달러를 이미 추월한 상태다. 화려한 모델 회사가 아니라, 모델을 먹이는 데이터를 만드는 회사가 그만큼 큰돈을 벌고 있다는 뜻이다.

시장 전체로 봐도 추세는 한 방향이다. 데이터 레이블링 시장은 정의에 따라 2025년 기준 23억~49억 달러로 추정되며, 연 21~29%로 성장하고 있다. AI 학습 데이터셋 시장은 2025년 약 36억 달러에서 2034년 232억 달러로, 데이터셋 라이선스 시장은 48억 달러에서 226억 달러로 커질 전망이다. 멀티모달 데이터 인프라를 다루는 Encord가 2026년 3월 6000만 달러 시리즈 C를 받는 등, 데이터 인프라에 1억 달러 이상이 들어가는 라운드도 드물지 않다.

레이블링이 "범용 서비스"에서 "전략적 해자"로 바뀐 순간, 데이터 레이어의 가격 체계 전체가 다시 쓰였다. 메가라운드가 한 번의 빅뉴스라면, 데이터 레이어의 가격 상승은 천천히, 그러나 되돌릴 수 없게 진행되는 권력 이동이다.

4

'데이터가 자산'이 가격으로 증명되다

"데이터는 자산"이라는 말은 오래된 구호였다. 회계장부에는 좀처럼 잡히지 않는, 다소 추상적인 명제. 그런데 2026년에 와서 이 명제는 회계가 아니라 시장가격으로 증명되고 있다. 데이터에 실제로 매겨지는 거래 단가가 있고, 그 단가를 둘러싼 소송과 규제가 있다.

라이선스 단가부터 보자. 엔터프라이즈 NLP 데이터셋 라이선스는 2025년 기준 계약당 평균 약 120만 달러, 의료 영상 같은 고가 도메인은 연 240만 달러 수준에서 거래된다. 시장 분석은 프로프라이어터리·커스텀 데이터 라이선스가 2026년 데이터셋 시장 매출의 55% 이상을 차지할 것으로 본다. 데이터의 값은 더 이상 "수집 비용"이 아니라 "권리의 값"으로 매겨진다.

가장 상징적인 사례는 Reddit이다. Reddit은 Google·OpenAI 등과 맺은 데이터 라이선스로 공개된 것만 합쳐 2억 300만 달러 규모의 계약을 확보했고, 이는 한때 회사 매출의 10%에 달했다. Reddit 경영진은 자사 사용자 생성 콘텐츠를 "현대의 석유"라 불렀고, AI 모델은 이 데이터 없이 "지금처럼 존재하지 않았을 것"이라고 말했다. 같은 맥락에서, 데이터를 공짜로 긁어 쓰던 시대를 끝내려는 소송이 줄을 이었다. Reddit 대 Anthropic, Reddit 대 Perplexity, NYT 대 OpenAI까지.

규제도 같은 방향을 가리킨다. EU AI Act는 학습 데이터의 출처와 권리 투명성을 의무화한다. "어디서 온 데이터인지" 증명할 수 없으면 모델을 시장에 내놓기 어려워진다는 뜻이다. 스크래핑 데이터에서 라이선스·큐레이션 데이터로의 전환은 이제 선택이 아니라 제도가 강제하는 흐름이다.

EU AI Act 지지 캠페인 — 스트라스부르 EU 의회에서 AI Act 강력 입법을 촉구하는 시위대 — ▲ 2023년 스트라스부르 EU 의회 앞 EU AI Act 지지 캠페인 — 학습 데이터 출처 투명성이 이제 법으로 강제된다 | Source: EKO / Wikimedia Commons (CC BY 2.0)

여기에 결정적 대조가 있다. 모델 메가라운드는 1회성 헤드라인이다. 한 번 마감되면 그것으로 끝이다. 반면 데이터 가격은 라이선스 단가로, 소송 합의금으로, 규제 준수 비용으로 매 분기 반복된다. 자산의 속성이 원래 그렇다. 한 번 비싸지면 계속 비싸다.

5

그래서 데이터 팀은 무엇을 해야 하나

ML 현장에는 오래된 통설이 있다. AI 프로젝트에 드는 시간의 약 80%가 모델링이 아니라 데이터 수집·정제·어노테이션에 쓰인다는 것이다. 그동안 이 80%는 "어쩔 수 없이 치러야 하는 비용"으로 여겨졌다. 2026년 1분기 자본 흐름은 이 통설을 거울처럼 비춘다. 자본의 80%가 AI로 향했다면, AI 노동의 80%는 데이터에 묶여 있다. 두 숫자는 우연히 같은 게 아니다.

그렇다면 데이터를 가진 쪽이 해야 할 일은 분명하다. 데이터를 비용 센터가 아니라 자산으로 다루는 것이다. 자산에는 출처(provenance)가 있고, 품질 등급이 있고, 권리 관계가 있다. 어디서 왔고, 누가 만들었고, 어떤 라이선스로 쓸 수 있는지를 추적하고 평가할 수 있어야 그 데이터를 학습에 안전하게 쓰고, 필요하면 값을 매겨 거래할 수도 있다.

페블러스가 줄곧 'AI-Ready Data'를 말해 온 이유가 여기에 있다. 모델에 넣기 좋은 형태로 데이터를 준비한다는 것은, 곧 데이터의 품질과 출처와 권리를 자산처럼 관리한다는 뜻이다. DataClinic이 데이터의 품질과 준비도를 진단하는 작업도 같은 문제의식에서 출발한다. 시장이 데이터에 값을 매기기 시작한 지금, 자사 데이터가 얼마짜리 자산인지 모른다면 협상 테이블에서 가격을 부르는 쪽이 될 수 없다.

자본은 모델에 베팅했다. 그러나 그 베팅을 굴리는 연료는 데이터다. 모델은 한 번 사면 끝이지만, 데이터는 매번 다시 사야 하는 반복 비용이자 반복 권력이다. 그 연료를 자산으로 다루는 쪽이 다음 사이클을 가져간다.

2026년 1분기의 3000억 달러는 분명 모델의 시간이었다. 하지만 그 숫자를 오래 들여다보면, 헤드라인 뒤에서 더 천천히, 더 확실하게 비싸지는 것이 보인다. 모델은 비싸졌다. 데이터는 더 비싸진다.

R

참고문헌

업계 보도

1.Crunchbase News. (2026). "Record-Breaking Funding For AI Drives Global Q1 2026 Venture Totals." Crunchbase.
2.Bloomberg / Reuters. (2025). "Meta to Take 49% Stake in Scale AI at $29B Valuation" 외 — Meta·Scale AI 거래 보도.
3.Bloomberg / Reuters. (2025–2026). Surge AI 펀딩·매출 보도 (첫 외부 라운드 $25B 평가 추진, 매출 $1.0B 런레이트).
4.TechCrunch 외. (2024). Reddit 데이터 라이선스 딜(Google·OpenAI, 합계 $203M) 및 "현대의 석유" 발언 보도.
5.TechCrunch. (2026). Encord Series C ($60M, 멀티모달 데이터 인프라) 외 데이터 인프라 라운드 보도.

시장 조사

6.Fortune Business Insights / dataintelo / Mordor Intelligence / Grand View Research. (2025). AI 학습 데이터셋·데이터 레이블링·데이터셋 라이선스 시장 규모 추정.