합성 데이터 시장 실패와 진본 데이터 보조금 — 모델 붕괴의 경제학

Executive Summary

AI가 이전 세대 AI의 출력으로 다시 학습하면 데이터 품질이 세대마다 무너진다. 흔히 '모델 붕괴'라 부르는 이 현상을 두고, 2026년 5월 arXiv에 올라온 한 경제학 논문은 프레임을 바꾼다. 이것은 나쁜 데이터가 들어와 나쁜 모델이 나오는 공학 사고가 아니라, 데이터라는 상품의 품질이 자기 시장 점유율의 함수로 내생적으로 악화되는 시장 실패라는 것이다. 진단이 바뀌면 처방도 바뀐다. 검열이 아니라 가격이다.

논문의 핵심은 진본 데이터 생산자에게 얼마를 지불해야 하는지를 확정하는 보조금 공식이다. 최적 보조금은 $s^* = \mathrm{KL}(q_\rho \,\|\, p) / 2\kappa$. 지금 분포가 원본에서 얼마나 멀어졌는지(KL 발산)가 지불해야 할 값을 결정한다. 오염이 심할수록 진본 데이터의 값이 오른다는 직관이, 관측이 아니라 방정식으로 적혔다. C4 벤치마크에서 붕괴 계수는 이론값 0.183과 1σ 이내로 맞았고($R^2=0.951$), 이 공식을 시장에 반복 적용한 PMIR 알고리즘은 오염률을 78%에서 41%로 끌어내렸다.

이 글은 데이터를 사고파는 실무자의 눈으로 그 논리를 따라간다. 왜 '오염'이 아니라 '시장 실패'인지, 보조금과 워터마크가 어떻게 규제 문서의 단어에서 경제학의 변수로 바뀌는지, 그리고 진본성을 측정할 수 있는 능력이 왜 값을 청구할 수 있는 능력과 같은지를 순서대로 본다.

+23.1%

모델 품질 향상

PMIR, 비규제 벤치마크 대비

78%→41%

오염률 하락

보조금 반복 적용 후

0.318→0.142

분포 드리프트

2-Wasserstein, 55% 감소

R²=0.962

붕괴 법칙 적합

10세대 재학습 실험

1

오염이 아니라 시장 실패

모델 붕괴를 이야기하는 대부분의 글은 이 현상을 공학 문제로 다룬다. 합성 데이터가 인터넷에 쌓이고, 다음 세대 모델이 그것을 먹고 학습하면 분포의 꼬리가 잘려 나간다. 반복될수록 원본의 다양성이 사라지고 출력이 평균으로 수렴한다. 나쁜 입력이 나쁜 출력을 만든다는 이야기다. 대책도 공학적이다. 합성 데이터를 걸러내고, 사람이 만든 데이터를 더 넣는다.

이 논문은 같은 현상을 다르게 부른다. 데이터라는 상품의 품질이, 그 상품이 시장에서 차지하는 점유율의 함수로 스스로 나빠진다. 합성 데이터를 많이 쓸수록 다음 세대 학습 데이터가 오염되고, 오염된 데이터가 다시 더 많은 합성 데이터를 낳는다. 품질이 시장 구조 안에 내생적으로 묶여 있다. 이것은 고전 정보 경제학이 예상하지 못한 새로운 형태의 시장 실패이고, 논문은 이 균형 상태에 SDCE라는 이름을 붙인다.

왜 시장 실패인가. 합성 데이터를 만들어 파는 회사는 자기 이익만 계산한다. 그 데이터가 공용 데이터 풀에 섞여 들어가 다른 모든 학습자의 데이터 품질을 떨어뜨리는 비용은 계산에 넣지 않는다. 경제학이 외부성(externality)이라 부르는 구조다. 공장이 강에 폐수를 흘려보내도 정화 비용을 물지 않으면 폐수는 계속 늘어난다. 합성 데이터의 재귀 오염도 같은 모양이다. 개별 참여자에게 합리적인 선택이 전체로 모이면 파레토 효율을 무너뜨린다.

프레임의 전환은 사소하지 않다. '오염'이라고 부르면 해법은 정화와 차단, 즉 검열의 언어가 된다. '시장 실패'라고 부르면 해법은 외부성을 가격에 반영하는 일, 즉 세금과 보조금의 언어가 된다. 폐수에 부담금을 매기듯, 진본 데이터에 보조금을 매긴다. 이 논문이 한 일은 그 보조금이 정확히 얼마여야 하는지를 계산한 것이다.

▲ 페블러스 원본 도식 — 합성 데이터 외부성의 자기강화 순환 (Fig. 1 재해석)

2

우리가 잃는 것의 가격

보조금을 계산하려면 먼저 무엇을 잃고 있는지를 값으로 적어야 한다. 논문은 사회적 복지를 네 항으로 분해한다. 생산자 잉여와 소비자 잉여가 더해지고, 두 종류의 손실이 빠진다.

$$W = W_{\text{prod}} + W_{\text{cons}} - L_{\text{coll}} - L_{\text{info}}$$

사회적 복지 분해식. $L_{\text{coll}}$은 붕괴 손실, $L_{\text{info}}$는 정보 비대칭 손실.

두 손실이 이 글의 주인공이다. 첫째, 붕괴 손실 $L_{\text{coll}}$은 합성 오염 때문에 데이터 분포가 원본에서 밀려난 거리를 KL 발산으로 잰다. 오염이 심할수록 분포가 원본에서 멀어지고 손실이 커진다. 둘째, 정보 비대칭 손실 $L_{\text{info}}$는 레몬 시장의 페널티다. 구매자가 데이터의 진본성을 검증할 수 없으면, 진본 데이터에 프리미엄을 지불할 이유가 사라진다. 좋은 데이터와 나쁜 데이터가 같은 값에 팔리고, 결국 좋은 데이터 생산자가 시장을 떠난다.

분해식이 추상적으로 보인다면, 논문의 실증이 이를 지상으로 끌어내린다. 세대별 모델 품질은 오염률의 제곱에 비례해 로그 감소한다.

$$\log Q_t = \log Q_0 - 0.183\, t\, \rho^2$$

붕괴 법칙. $Q_t$는 $t$세대 모델 품질, $\rho$는 오염률. 10세대 재학습 실험에서 $R^2 = 0.962$.

C4 벤치마크에서 축약형 회귀로 추정한 붕괴 계수는 0.181, 표준오차 0.024였다. 이론이 예측한 0.183과 1σ 이내에서 맞았고, 결정계수는 0.951이었다. 저자들은 여기서 붕괴율이 특정 말뭉치나 아키텍처의 우연한 산물이 아니라 구조적 상수라고 읽는다. 오염률 $\rho$가 붙는 자리가 제곱이라는 사실이 특히 무겁다. 합성 데이터 비율이 두 배가 되면 품질 손실은 네 배로 커진다. 10세대, 대략 3년치 재학습 주기가 지나면 손실은 기하급수적으로 쌓인다.

▲ 페블러스 원본 도식 — 붕괴 법칙: 오염률 두 배 = 품질 손실 네 배 (10세대 시뮬레이션, Fig. 2 재해석)

3

진본 보조금 공식 — KL 발산이 가격표가 되는 순간

손실을 값으로 적었으니, 그 손실을 멈추게 하는 최적 보조금도 값으로 나온다. 논문의 정리(Corollary 1)가 도출한 진본 데이터 생산자에게 지급할 최적 보조금은 다음과 같다.

$$s^* = \frac{\mathrm{KL}(q_\rho \,\|\, p)}{2\kappa}$$

최적 진본 보조금. $\mathrm{KL}(q_\rho \,\|\, p)$는 오염된 분포와 원본 분포 사이의 KL 발산, $\kappa$는 한계 붕괴 가중치.

공식은 두 개의 값으로 이루어진다. 분자는 지금 데이터가 얼마나 왜곡됐는지다. 분모의 $\kappa$는 사회가 붕괴에 얼마나 민감한지를 나타내는 가중치다. 직관은 단순하다. 오염이 심할수록, 다시 말해 KL 발산이 클수록 진본 데이터에 더 많이 지불해야 한다. 진본성의 값이 시장 상태에 따라 움직이는 변동 가격이 되는 것이다. 어제의 진본 데이터와 오늘의 진본 데이터는 오염이 진행된 만큼 다른 값을 갖는다.

이것이 규제 논의와 갈라지는 지점이다. 규제는 보통 "합성 데이터에 표시를 붙여라", "출처를 공개하라"는 의무를 부과한다. 이 공식은 대신 "진본 데이터에 이만큼 값을 붙여라"라고 말한다. 논문은 세 가지 정책을 같은 저울에 올려 비교한다.

정책	품질 손실	복지 이득
최적 보조금 s*	−1.1%	+0.031
의무 공시	−0.6%	+0.024
법정 로열티 상한	−1.9%	+0.012

최적 보조금이 복지 이득에서 가장 앞선다. 눈여겨볼 것은 2위인 의무 공시다. 구현 비용이 낮으면서도 보조금에 근접한 이득을 낸다. 진본성을 직접 사기 어려운 상황에서는, 최소한 출처를 투명하게 공개하는 것만으로도 상당한 이득이 발생한다는 뜻이다. 반대로 로열티 상한 같은 가격 통제는 품질 손실이 가장 크고 이득이 가장 작다. 가격을 누르는 개입이 오히려 진본 데이터 공급을 위축시키기 때문이다.

4

워터마크가 경제 변수가 될 때

워터마크는 보통 규제의 언어에 속한다. EU AI Act가 요구하는 기계 판독 표시처럼, 합성 콘텐츠에 붙이는 꼬리표로 이해된다. 이 논문은 워터마크를 경제학의 변수로 다시 세운다. 최적 워터마크 강도는 탐지 가능성과 오염 정도의 함수로 나온다.

$$w^* = \frac{(1-\psi)\,\mathrm{KL}(q_\rho \,\|\, p)}{2\kappa\psi}$$

최적 워터마크 강도. $\psi$는 워터마크 탐지 가능성(0~1).

분모에 탐지 가능성 $\psi$가 붙어 있다. $\psi$가 커질수록, 즉 탐지 기술이 좋아질수록 필요한 워터마크 강도 $w^*$는 작아진다. 탐지가 완벽에 가까워지면($\psi \to 1$) 워터마킹은 현금 보조금과 경제적으로 같은 것이 된다. 반대로 탐지가 부실하면 그 부실함을 메우기 위해 워터마크를 강하게 걸어야 한다. 탐지 기술에 대한 투자가 곧 워터마크 비용의 절감으로 돌아오는 구조다. 기술 투자와 규제 부담이 하나의 방정식 안에서 맞교환된다.

논문은 낙관에서 멈추지 않는다. 정리 4는 "정보 제약 하에서는 완전한 진본성 검증이 구현 불가능"하다는 불가능성 결과를 증명한다. 생산자 측의 관찰만으로는 데이터가 진본인지 완전하게 가려낼 수 없다. 이 결과의 함의는 날카롭다. 블록체인이나 스마트 계약에 기반한 원산지 인증도 이 한계를 벗어나지 못한다. 원장에 기록된 출처가 실제 진본성을 완전히 보증하지는 못하기 때문이다. 그래서 논문은 복잡한 인증 장치보다 현금 이전, 즉 직접 보조금이 더 효과적이라고 본다.

여기서 데이터 계보(provenance)와 워터마크가 규제 문서의 단어에서 경제학의 변수로 자리를 옮긴다. 계보는 KL 발산을 계산하기 위한 입력이 되고, 워터마크 탐지율 $\psi$는 보조금과 맞교환되는 파라미터가 된다. 진본성은 더 이상 지키면 좋은 원칙이 아니라, 값을 매기고 사고팔 수 있는 경제재가 된다.

5

PMIR — 이론을 시장에서 돌려보면

공식이 종이 위에서 맞는 것과 시장에서 작동하는 것은 다르다. 논문은 이론을 실행 가능한 알고리즘으로 옮긴다. PMIR(Provenance-Market Iterative Retraining)은 진본성 시장과 재학습을 번갈아 돌리며 최적 보조금을 반복 계산으로 찾아간다. 어떤 데이터를 얼마에 사야 하는지를 한 번에 풀지 않고, 시장이 균형에 다가갈 때까지 조금씩 값을 조정한다.

결과는 세 개의 숫자로 요약된다. 비규제 벤치마크와 비교해 모델 품질이 23.1% 높아졌다. 오염률은 78%에서 41%로 내려갔다. 원본에서 얼마나 밀려났는지를 재는 2-Wasserstein 드리프트는 0.318에서 0.142로, 절반 넘게 줄었다. 이론이 예측한 방향으로 시장이 실제로 움직인 것이다.

▲ 페블러스 원본 도식 — PMIR 반복 균형 탐색 알고리즘 (Fig. 3 재해석)

수렴 속도도 계산됐다. PMIR은 $O(\varepsilon^{-2} \log T)$ 반복 안에서 근사 균형에 도달하고, 정보이론적 하한을 상수 배까지 달성한다. 실무의 언어로 옮기면, 이 알고리즘은 "지금 시장 상태에서 진본 데이터에 얼마를 지불하는 것이 최적인가"라는 질문에 반복 학습으로 답을 좁혀 간다. 한 번 정한 가격을 고정하는 것이 아니라, 오염이 진행되는 만큼 값을 다시 매긴다.

6

그래서 무엇을 사야 하는가

데이터를 사고파는 실무자에게 이 논문은 네 개의 실용적 판단 근거를 남긴다.

• 진본 데이터의 프리미엄은 오염률과 함께 오른다. 합성 데이터 비율이 높아질수록 사야 할 진본 데이터의 값이 수학적으로 커진다. 진본 데이터 구매를 비용이 아니라 오염에 대한 헤지로 볼 근거가 생긴다.
• 탐지 기술 투자는 워터마크 비용을 줄인다. 합성 데이터를 잘 가려낼수록 규제 대응에 드는 부담이 줄어든다. 탐지와 규제 비용이 맞교환 관계에 있다.
• 블록체인 원산지 인증만으로는 부족하다. 정리 4가 인증의 한계를 명시한다. 원장 기록보다 진본 데이터의 직접 구매 계약이 더 효과적이라는 것이 논문의 결론이다.
• 신선한 인간 데이터의 장기 공급은 전략 자산이다. 10세대, 대략 3년 뒤의 기하급수적 붕괴를 막으려면 진본 데이터 공급선을 미리 확보해야 한다.

Editor's Note

이 논문은 특정 회사의 제품을 언급하지 않는다. 하지만 진단이 향하는 곳은 페블러스가 오래 다뤄 온 지점과 겹친다. 보조금 공식의 입력은 KL 발산이고, KL 발산을 계산하려면 데이터가 원본에서 얼마나 멀어졌는지, 즉 계보를 알아야 한다. 계보 없는 데이터는 KL 발산에 넣을 값이 없어 공식에 태울 수조차 없다. 진본성을 측정하고 증명할 수 있는 능력이 곧 $s^*$를 청구할 수 있는 능력인 셈이다. 진본성이 경제학의 변수로 등장하는 이 논문은, 데이터 품질이 왜 가격표를 가질 수 있는지를 이론의 언어로 뒷받침한다.

(주)페블러스 데이터 커뮤니케이션팀
2026년 7월 3일

R

참고문헌

1.Lundström-Imanov, G. O. Y. L.-F. (2026). "The Economics of Model Collapse: Equilibrium, Welfare, and Optimal Provenance Subsidies in Synthetic Data Markets." arXiv:2605.20279.
2.Borji, A. (2024). "A Note on Shumailov et al. (2024): 'AI Models Collapse When Trained on Recursively Generated Data'." arXiv:2410.12954.
3.Shumailov, I., Shumaylov, Z., Zhao, Y., et al. (2024). "AI Models Collapse When Trained on Recursively Generated Data." Nature, 631, 755–759.