데이터에 권리를 새길 수는 있다, 추론까지 따라가게 만들 수 있나 — RSL 표준이 드러낸 추적성의 격차

Pebblous Data Communication Team

Executive Summary

콘텐츠 소유자가 AI 크롤러에게 할 수 있는 말은 오랫동안 한 마디뿐이었다. "들어오지 마." robots.txt의 Disallow는 그 이상을 표현하지 못한다. 2025년 9월 발표되고 12월 1.0 스펙이 확정된 RSL(Really Simple Licensing)은 그 한 마디를 "이 조건이면 들어와"로 바꾸려는 가장 구체적인 시도다. RSS 계보의 한 공동창시자가 주도한 이 오픈 XML 표준은 라이선스를 robots.txt·HTTP 헤더·HTML·RSS·파일 메타데이터의 다섯 채널로 콘텐츠에 직접 새기고, 크롤·학습·추론 입력을 구분해 사용 조건과 과금 모델까지 선언하게 한다. 1,500곳이 넘는 미디어가 지지를 표했다. 이 글은 그 표준이 성공의 신호가 아니라 비대칭의 신호인 이유를 본다.

권리를 선언하는 일은 쉽지만, 그 권리가 추론까지 따라가게 만드는 일은 아직 아무도 풀지 못했다. 크롤에 과금하는 일(pay-per-crawl)은 네트워크에서 관측 가능한 단일 HTTP 이벤트라 CDN이 문 앞에서 막거나 청구할 수 있다. 반면 그 데이터가 어떤 답을 만드는 데 쓰였는지에 과금하는 일(pay-per-inference)은 "어떤 학습 문서가 이 출력에 기여했는가"를 모델 내부에서 귀속할 수 있어야 성립한다. 학계의 최선책인 영향 함수(influence function)조차 사전학습에 맞먹는 연산이 들고, 근사적이며, 표준 런타임 인프라가 없다. 더 근본적인 문제는 출발선에 있다. 주요 학습 데이터셋의 70% 이상이 라이선스 정보 자체를 누락한 상태라, 추적은 시작점부터 끊겨 있다.

그래서 RSL이 던진 질문은 저작권 뉴스가 아니라 데이터 인프라 질문이다. 데이터가 어디서 와서 어떤 답에 쓰였는지를 끝까지 추적할 수 있는가. 라이선스를 메타데이터로 새기는 건 쉽다. 그 라이선스가 학습과 추론을 관통해 따라가게 만드는 건 다른 층위의 일이고, 바로 그 빈 계층이 이 보고서의 주제다.

편집자의 노트. RSL의 어려운 절반(pay-per-inference)이 성립하려면 "어떤 데이터가 어떤 출력에 쓰였는가"를 추적할 수 있어야 한다. 이는 곧 데이터 프로비넌스·계보(lineage)·진본성의 문제이며, 페블러스가 DataClinic과 AI-Ready Data로 다뤄 온 영역과 정면으로 겹친다. 라이선스를 선언하는 층 아래에 권리가 따라갈 수 있도록 데이터를 추적 가능하게 만드는 층은 아직 비어 있다. 페블러스가 이 보고서를 쓴 이유는, 그 빈 층의 한가운데 데이터 품질이라는 변수가 놓여 있기 때문이다.

주요 수치

아래 네 숫자는 이 보고서의 골격을 그대로 옮겨 놓은 것이다. 크롤에 과금하는 쉬운 절반은 이미 하루 10억 건 규모로 돌아가고, 학습 데이터셋의 70%는 라이선스 정보를 잃은 채 모델로 흘러들어 추적의 출발선이 끊겨 있다. 그 선언을 따르겠다고 공식적으로 약속한 메이저 AI 기업은 아직 한 곳도 없고, 그사이 15억 달러짜리 합의가 이 격차의 값이 결코 추상이 아님을 못 박았다.

출처: Data Provenance Initiative(Longpre 외, 2023, Nature Machine Intelligence), Cloudflare Radar(2025), Bartz v. Anthropic 합의(Courthouse News, 2025), 업계 보도(2026-06 기준).

70%+

학습 데이터셋 라이선스 누락률

추적이 시작점부터 끊긴 지점

10억 건/일

Cloudflare HTTP 402 응답

pay-per-crawl은 이미 작동한다는 규모

0개

RSL 공식 준수 서약한 메이저 AI 기업

2026-06 기준, 집행의 공백

$1.5B

Bartz v. Anthropic 합의금

미국 역사상 최대 저작권 합의

1

robots.txt는 어떻게 '협상 테이블'이 되었나

1994년에 만들어진 robots.txt는 웹에서 가장 오래 살아남은 규약 중 하나다. 검색 엔진 크롤러에게 "이 경로는 긁지 말라"고 알려 주는 텍스트 파일 하나로, 30년 동안 사이트 운영자와 봇 사이의 합의를 대신해 왔다. 그러나 이 규약이 표현할 수 있는 것은 단 두 가지뿐이다. 들여보내거나(Allow), 막거나(Disallow). 사람이 보라고 만든 콘텐츠를 검색 색인이 긁어 가는 정도의 세계에서는 이 이진법으로 충분했다.

1.1이진 차단의 한계가 무너진 순간

생성형 AI가 등장하면서 크롤링의 의미가 달라졌다. 같은 페이지를 긁더라도, 검색 색인을 위한 수집과 거대 언어 모델을 학습시키기 위한 수집은 콘텐츠 소유자에게 전혀 다른 사건이다. 전자는 트래픽을 돌려주지만, 후자는 콘텐츠의 가치를 모델 안으로 흡수한 뒤 원본 사이트를 우회하는 답을 만들어 낸다. 콘텐츠 소유자는 이제 "들어오지 마"보다 정교한 말을 하고 싶어졌다. "검색 색인은 좋다, 그러나 학습에 쓰려면 값을 내라" 같은 말이다. robots.txt의 이진법으로는 이 문장을 표현할 길이 없다.

1.2`License:` 디렉티브 — 차단에서 조건부 허용으로

RSL이 한 일은 robots.txt에 한 줄을 더한 것이다. 기존 Disallow 아래에 License: 디렉티브를 두어, 차단 대신 "이 라이선스 문서의 조건을 따르면 사용해도 된다"고 가리키게 했다. 신호가 이진(차단/허용)에서 다항(이 조건·이 값이면 허용)으로 바뀌었다.

1.3물려받은 원죄 — 자발적 준수

패러다임은 바뀌었지만, RSL은 robots.txt의 태생적 한계를 그대로 물려받는다. robots.txt는 법이 아니라 신사협정이다. 봇이 그 파일을 읽고 따를지 말지는 전적으로 봇을 만든 쪽의 선의에 달려 있다. RSL의 License: 한 줄도 마찬가지다. 더 풍부한 조건을 표현할 수 있게 됐을 뿐, 그 조건을 강제할 힘은 표준 자체에 들어 있지 않다. 표현력이 늘어난 만큼 표현된 권리와 강제 가능한 권리 사이의 거리도 함께 드러났다. 그 거리가 이 보고서가 따라가는 길이다.

2

라이선스를 콘텐츠에 새기는 법 — RSL은 무엇을 표현하는가

RSL의 핵심 발상은 라이선스를 별도 계약서에 두지 않고 콘텐츠 자체에 메타데이터로 붙인다는 것이다. 데이터가 자기 사용 조건을 들고 다니게 만드는 셈이다. 표준은 그 부착을 다섯 채널로 정의한다. robots.txt의 디렉티브, HTTP 응답의 Link 헤더, HTML의 <link> 태그, RSS 피드의 <rsl:content> 요소, 그리고 EPUB·XMP·ID3 같은 파일 자체의 메타데이터다. 웹 페이지든, 피드든, 다운로드된 전자책이든 콘텐츠가 어떤 형태로 옮겨 가더라도 라이선스가 함께 따라가도록 설계됐다.

2.1사용 유형과 과금 모델의 문법

RSL이 표현력을 갖는 지점은 AI 사용을 유형별로 쪼갠다는 데 있다. 표준은 permits와 prohibits로 학습(ai-train), 추론 입력(ai-input, RAG처럼 답을 만들 때 콘텐츠를 끌어다 쓰는 경우), 색인(ai-index), 일반 검색(search)을 각각 허용하거나 금지할 수 있다. 여기에 과금 모델(payment)을 붙인다. 크롤 단위 과금(crawl), 사용·추론 단위 과금(use=inference), 학습 단위 과금(training), 구독(subscription), 출처 표기를 대가로 하는 무료(attribution·free) 등이다. 사용 유형과 과금 모델의 대표 조합은 다음과 같다.

사용 유형	의미	대표 과금 모델
ai-train	모델 학습 데이터로 사용	training / subscription
ai-input	추론 시점에 답 생성 입력으로 사용 (RAG 등)	use=inference
ai-index	AI 검색 색인에 포함	crawl / attribution
search	전통적 검색 색인	free / attribution

2.2RSL Collective — 개별 협상을 집단 권리로

표준만으로는 작은 퍼블리셔가 거대 AI 기업과 일대일로 협상할 힘이 생기지 않는다. RSL 진영은 이 문제를 음악 산업에서 빌려 온 모델로 푼다. 작곡가 수십만 명의 저작권을 한데 모아 방송국·스트리밍 서비스와 일괄 협상하는 ASCAP·BMI 같은 집단 관리 단체(collective)다. RSL Collective는 흩어진 퍼블리셔의 권리를 묶어 AI 기업을 상대로 한 교섭력을 만든다. Reddit이 이미 Google·OpenAI와 개별 딜을 가지고도 RSL을 지지하는 이유가 여기 있다. 개별 딜은 협상 한 번에 끝나지만, 집단 권리 모델은 구조적 레버리지를 남긴다.

▲ RSL Collective 구조 — 흩어진 퍼블리셔를 묶어 AI 기업과 교섭하는 ASCAP·BMI형 집단 관리 모델 | 페블러스 원본 도식

여기까지가 RSL의 강점이다. 사용 유형을 쪼개고, 과금 모델을 붙이고, 권리를 집단으로 묶는 일은 모두 선언의 표현력에 속한다. 그러나 표현할 수 있는 권리와 강제할 수 있는 권리는 다른 층위에 있다. 그 선언이 실제 세계에서 어디까지 집행되는지가 권리의 진짜 시험대다.

3

쉬운 절반과 어려운 절반 — pay-per-crawl vs pay-per-inference

RSL이 표현하는 과금 모델은 크게 두 세계로 갈린다. 데이터를 가져가는 행위에 값을 매기는 세계(pay-per-crawl)와, 그 데이터가 실제로 답을 만드는 데 쓰일 때마다 값을 매기는 세계(pay-per-inference)다. 둘은 표준 문서에서 나란히 한 줄씩 차지하지만, 현실에서의 난이도는 같은 차원에 있지 않다. 한쪽은 이미 작동하고, 다른 한쪽은 아무도 풀지 못했다. 이 비대칭이 보고서 전체를 꿰뚫는다. 선언은 쉽고, 추적은 어렵다.

3.1쉬운 절반 — 크롤은 관측 가능한 사건이다

크롤은 본질적으로 네트워크 위의 단일 HTTP 요청이다. 누가, 언제, 어떤 URL을 가져갔는지가 그대로 로그에 남는다. 관측 가능하다는 것은 곧 게이트할 수 있다는 뜻이다. 콘텐츠 앞에 선 CDN은 요청자의 신원을 확인하고, 조건을 만족하지 않으면 문을 닫거나 요금을 청구할 수 있다. 실제로 Cloudflare는 하루 10억 건이 넘는 HTTP 402(Payment Required) 응답을 돌려보낸다. 결제하지 않은 AI 크롤러에게 "값을 내라"고 말하는 응답이다. per-crawl은 어렵지 않다. 이미 인프라가 있다.

3.2어려운 절반 — 추론은 모델 안에서 일어난다

pay-per-inference는 전혀 다른 요구를 한다. "이 문서가 학습에 쓰였으니 값을 내라"가 아니라 "이 문서가 방금 생성된 이 답을 만드는 데 기여했으니 그만큼 값을 내라"는 것이다. 그러려면 모델이 어떤 답을 내놓을 때마다, 그 답에 어떤 학습 문서가 얼마나 기여했는지를 모델 내부에서 귀속(attribution)할 수 있어야 한다. 그런데 크롤과 달리 이 기여는 네트워크 경계에서 관측되지 않는다. 수십억 개 파라미터에 분산 흡수된 학습의 흔적은 출력만 봐서는 어디서 왔는지 읽히지 않는다. 두 세계의 차이는 결국 게이트가 설 수 있는 위치에서 갈린다.

3.3학습 데이터 귀속의 벽

학계는 이 귀속 문제를 학습 데이터 귀속(Training Data Attribution, TDA)이라는 이름으로 오래 연구해 왔다. 영향 함수, TracIn, Data Shapley 같은 방법들이 "어떤 학습 샘플이 이 예측에 얼마나 영향을 줬는가"를 추정하려 한다. 문제는 이들이 모두 실험실 규모를 벗어나는 순간 무너진다는 데 있다. 셋의 벽이 동시에 선다.

· 비용. 영향 함수를 대형 모델에 정확히 적용하려면 사전학습에 맞먹는 연산이 든다. 답 한 번에 과금하기 위해 모델을 다시 학습시키는 수준의 계산을 매번 돌릴 수는 없다.
· 근사성. 실제로 쓰는 것은 정확한 값이 아니라 근사치다. 대형 모델에서 그 근사가 얼마나 믿을 만한지는 충분히 검증되지 않았다. 과금의 근거로 삼기에는 오차가 크다.
· 다단계 학습의 불안정성. 사전학습 위에 RLHF 같은 정렬 단계가 겹치면 한 답에 대한 기여 신호가 단계마다 섞이고 흐려진다. "이 답은 그 문서에서 왔다"는 깔끔한 선이 그려지지 않는다.

결론은 냉정하다. pay-per-inference는 원리적으로 불가능한 것은 아니지만, 표준화된 런타임 인프라가 없는 미해결 문제에 가깝다. RSL은 이 과금 모델을 표현할 수 있지만, 세상에는 그 표현을 집행할 추적 장치가 아직 없다. 권리를 추론까지 따라가게 만드는 일을, 충분히 구축해 둔 곳은 거의 없다.

4

집행은 누가 하는가 — Fastly, Cloudflare, 그리고 무시할 자유

선언이 집행으로 이어지려면 누군가 문 앞에 서야 한다. RSL의 약점은 그 문지기 역할이 표준 바깥에 있다는 것이다. 라이선스는 콘텐츠에 새겨졌지만, 그 조건을 실제로 강제하는 일은 콘텐츠가 어느 인프라 뒤에 놓여 있느냐에 달렸다. 이 지점에서 두 가지 집행 모델이 충돌한다. 하나는 개방형, 다른 하나는 폐쇄형이다.

4.1개방형 집행 — RSL Collective와 Fastly

RSL 진영은 CDN 사업자 Fastly와 손잡고 라이선스 조건을 검사하는 집행 계층을 제공한다. 콘텐츠 앞에 선 "문지기(bouncer at the door)"가 들어오는 크롤러의 신원과 결제 상태를 확인해 RSL 선언과 대조하는 방식이다. 핵심은 개방성이다. 어떤 플랫폼에 올린 콘텐츠든 RSL 선언을 붙일 수 있고, 표준 자체는 특정 회사에 종속되지 않는다. 다만 실제 게이트가 작동하려면 Fastly 같은 집행 파트너 뒤에 있어야 한다. 선언은 누구나 할 수 있지만, 집행은 인프라를 갖춘 쪽만 할 수 있다.

4.2폐쇄형 집행 — Cloudflare는 경쟁자다

사실 정정. "레딧·AP·클라우드플레어가 RSL을 채택했다"는 서술은 정확하지 않다. Cloudflare는 RSL 채택사가 아니라 경쟁 방식의 운영자다. 자사 CDN 안에서 HTTP 402 기반의 독자적 Pay-Per-Crawl을 돌리며, CEO는 RSL을 두고 "보도자료에는 능하다"는 취지로 공개 비판한 바 있다. Reddit은 확정된 창립 지지사이고, AP는 이후 1,500곳이 넘는 지지 명단에 이름을 올렸으나 "창립 채택"과 "지지 표명"은 구분해야 한다.

Cloudflare의 모델은 폐쇄형이다. 콘텐츠가 자사 네트워크 뒤에 있을 때 강한 집행력을 발휘한다. 결제하지 않은 봇을 즉시 차단하거나 과금하는 일을, 자사 인프라 안에서는 확실하게 해낸다. 트레이드오프는 분명하다. RSL은 어떤 플랫폼에도 붙는 개방성을 택했고, Cloudflare는 자사 CDN 안에서의 강한 집행력을 택했다. 개방성을 원하면 RSL 쪽이고, 즉시 작동하는 집행을 원하면 Cloudflare 쪽이다. 둘은 같은 깃발 아래 있지 않다.

▲ AI 콘텐츠 권리 선언 방식의 포지셔닝 — 개방성과 집행력 두 축으로 본 경쟁 구도 | 페블러스 원본 도식

4.3무시할 자유 — 집행 공백의 정량화

Fastly나 Cloudflare 뒤에 있지 않은 대다수 퍼블리셔는 "요청은 하되 강제는 못 하는" 상태에 머문다. RSL이 robots.txt 위에 서 있는 한, AI 기업이 그 선언을 그냥 무시해도 표준이 할 수 있는 일은 없다. 수치가 이 공백을 보여 준다. AI 봇의 robots.txt 비준수율은 2024년 4분기 3.3%에서 2025년 2분기 13.26%로 급등했고, 2026년 6월 현재 RSL 준수를 공식적으로 서약한 메이저 AI 기업은 한 곳도 없다. 선언은 1,500곳이 했지만, 그 선언을 따르겠다고 약속한 AI 기업은 0곳이다.

▲ AI 봇 robots.txt 비준수율: 2024년 Q4 3.3%에서 2025년 Q2 13.26%로 4배 급등 | 출처: TechnologyChecker.io

4.4경쟁하는 표준들

선언 계층을 두고 경쟁하는 것은 RSL과 Cloudflare만이 아니다. Creative Commons는 콘텐츠에 AI 사용 선호를 표시하는 CC Signals를 준비하고, IETF는 robots.txt를 표준화하려는 AIPREF 작업을 진행한다. 표준의 난립은 역설적으로 이 영역에 아직 승자가 없다는 뜻이다. 그리고 이 모든 경쟁은 같은 층, 곧 "권리를 어떻게 선언할 것인가"의 층에서 벌어진다. 그 아래 "권리가 어떻게 따라가게 만들 것인가"의 층은 여전히 비어 있다.

5

권리가 추론까지 따라가려면 — 빠진 데이터 계층

지금까지의 이야기를 한 장의 그림으로 쌓으면 세 개의 계층이 보인다. 맨 위는 선언 계층이다. RSL·CC Signals·AIPREF가 라이선스를 콘텐츠에 새긴다. 그 아래는 집행 계층이다. Fastly와 Cloudflare가 네트워크 경계에서 크롤을 게이트한다. 그리고 맨 아래, 권리가 학습과 추론을 거쳐 끝까지 따라가게 만드는 추적 계층은 거의 비어 있다.

5.1추적은 시작점부터 끊겨 있다

추적 계층이 비어 있다는 말은 추상이 아니다. Data Provenance Initiative가 1,800여 개 학습 데이터셋을 감사한 결과는 그 빈자리를 숫자로 보여 준다. 라이선스 정보 누락률이 70%를 넘고, 라이선스 오분류율은 50%를 넘었다. 권리가 따라가려면 데이터가 어디서 왔는지(출처), 어떤 조건이 붙었는지(라이선스), 모델 안에서 어떤 표현으로 흡수됐는지(귀속)가 끊기지 않고 이어져야 하는데, 그 첫 고리부터 이미 끊겨 있다는 뜻이다.

▲ 원본 콘텐츠의 라이선스 정보가 데이터셋 수집·모델 학습을 거치며 사라지는 경로 | 페블러스 원본 도식 (Data Provenance Initiative 감사 결과 기반)

더 까다로운 사실은 데이터셋 라벨이 현실을 감춘다는 점이다. 같은 감사에서, 실제로 사용된 원본 콘텐츠의 80% 이상이 비상업 제한 조항을 달고 있었는데도, 데이터셋 단계의 라벨에서는 그 제한이 33% 미만으로만 표기됐다. 원본에 붙어 있던 권리가 데이터셋으로 묶이는 과정에서 증발한 것이다. 라이선스를 콘텐츠에 새기는 일(선언)과 그 라이선스가 데이터 파이프라인을 거쳐 끝까지 보존되는 일(추적)이 얼마나 다른 층위인지를 이보다 분명히 보여 주는 수치는 드물다.

5.2법적 판돈은 이미 현실이다

이 격차가 추상적 논쟁이 아닌 이유는 돈이 이미 움직이고 있기 때문이다. Bartz v. Anthropic 사건의 합의금 15억 달러는 미국 역사상 최대 규모의 저작권 합의로, 학습 데이터의 법적 리스크가 가설이 아님을 못 박았다. 작품당 약 3,000달러, 대상 저작물은 약 50만 건으로 추산된다. 다른 한쪽에서 Reddit은 Google·OpenAI와 연 수천만 달러 규모의 딜을 이미 체결한 상태에서도, 고정 수수료 대신 자사 콘텐츠 의존도에 비례한 동적 과금으로의 재협상을 밀고 있다. 선언만으로 멈춘 권리와, 추적 가능해야 비로소 정산되는 권리 사이의 거리가 곧 시장의 거리다.

5.3빈 층을 메우는 일

그래서 진짜 과제는 더 나은 선언 문법을 만드는 일이 아니라, 그 선언이 따라갈 수 있도록 데이터를 추적 가능하게 만드는 일이다. 데이터 계보(lineage), 콘텐츠 진본성(C2PA), 데이터셋 명세(datasheets), 학습 데이터 귀속(TDA)을 잇는 인프라가 받쳐 줄 때, "데이터가 사용 조건을 들고 다니게 만든다"는 RSL의 발상이 비로소 추론 단계까지 완성된다. 제조·센서·로봇 스트림처럼 출처 명시가 더 어려운 Physical AI 데이터에서는 이 격차가 한층 벌어진다. 라이선스를 새기는 일은 출발점이고, 그 권리가 끝까지 추적되게 만드는 일이 도착점이다. 지금 비어 있는 것은 그 사이의 길이다.

자주 묻는 질문 (FAQ)

독자들이 이 주제를 두고 자주 던지는 질문 아홉 개를 모았다. RSL의 정체, robots.txt와의 차이, pay-per-crawl과 pay-per-inference의 구분, per-inference 추적이 정말 불가능한지, AI 기업이 무시하면 어떻게 되는지, Cloudflare와의 관계, 적용 방법, Reddit이 지지하는 이유, 그리고 라이선스를 붙이는 것만으로 왜 부족한지까지. 결국 모든 질문은 "선언과 추적은 다른 층위"라는 한 문장으로 모인다.

R

참고문헌

RSL 표준 · 업계 보도

1.RSL Standard. (2025-12-10). "RSL AI Licensing 1.0 Now an Official Industry Standard." rslstandard.org/rsl
2.The Register. (2025-12-10). "Really Simple Licensing spec takes aim at AI scrapers." theregister.com
3.Search Engine Land. "Really Simple Licensing (RSL) explained." searchengineland.com/really-simple-licensing-461834
4.Digiday. "Arena Group, BuzzFeed, USA Today Co, Vox Media join RSL's AI content licensing efforts." Digiday.

집행 · 크롤러 데이터

5.Cloudflare. "From Googlebot to GPTBot: who's crawling your site in 2025." blog.cloudflare.com
6.Cloudflare. "Introducing pay per crawl: Enabling content owners to charge AI crawlers for access." Cloudflare Blog.
7.Cloudflare. "AI crawler traffic by purpose and industry." blog.cloudflare.com
8.TechnologyChecker.io. "We Analyzed robots.txt Across Cloudflare's Network." (AI 봇 robots.txt 비준수율 분석)

학술 — 추적성 · 귀속의 한계

9.Longpre, S., Mahari, R., Chen, A., 외. (2023). "The Data Provenance Initiative: A Large-Scale Audit of Dataset Licensing & Attribution in AI." arXiv preprint. arxiv.org/abs/2310.16787
10.Longpre, S., 외. (2024). "A large-scale audit of dataset licensing and attribution in AI." Nature Machine Intelligence. nature.com/articles/s42256-024-00878-8
11.Alignment Forum. "Training Data Attribution: Examining Its Adoption & Use." alignmentforum.org

법적 비용 · 라이선싱 딜

12.Courthouse News. (2025). "Authors, publishers near final approval of $1.5 billion Anthropic copyright settlement." courthousenews.com
13.Adweek / Reddit IR. "AI licensing deals with Google and OpenAI make up ~10% of Reddit's revenue." Adweek; Reddit 실적 발표.