검증 보상형 강화학습이 학습한 데이터는, 아무도 원자 단위로 추적하지 못한다

Pebblous Data Communication Team

Executive Summary

우리는 이제야 사전학습 데이터의 출처를 감사하기 시작했다. The Pile, C4, 잇따른 저작권 소송 — 'AI가 무엇을 학습했나'라는 질문은 지난 몇 년간 문서 코퍼스를 겨눴다. 그런데 그 사이 프런티어 모델의 능력을 끌어올리는 무게중심은 이미 검증 보상형 강화학습(RLVR)으로 옮겨갔다. 추론 학습에 투입되는 컴퓨트는 사전학습보다 훨씬 빠르게 불어나는데, 정작 그 학습을 조형하는 데이터 — 검증 가능한 과제, 정답 검사기, 보상 함수 — 는 코퍼스보다 더 얕게, 더 파편적으로만 추적된다. 이 글은 질문의 전선이 코퍼스에서 보상 신호로 이동했다는 것, 그리고 그 새 전선이 거의 비어 있다는 것을 다룬다.

ATLAS라는 최근 프레임워크가 이 공백을 정면으로 겨눴다. 145만 건의 RLVR 인스턴스를 거슬러 올라가 스무 개 남짓의 원자 소스로 거의 전부를 귀속시켰다. 성공처럼 보이는 이 결과가 역설을 드러낸다. 대부분의 RLVR 데이터셋은 소수 상류 소스의 변형이었고, 진짜 새 데이터를 들여온 경우는 드물었으며, 평가 벤치마크가 학습 데이터로 새어 든 오염이 곳곳에서 발견됐다. 더 중요한 건 ATLAS조차 닿지 못한 지점이다. 검사기 자체의 출처, 합성 과제가 만들어진 경로, 인간 필터링의 판단, 보상 함수의 설계는 '데이터셋'이 아니어서 계보 그래프 밖에 남는다.

데이터 신뢰의 다음 싸움터는 문서 코퍼스가 아니라 검증 가능한 과제와 보상 신호의 출처다. 규제와 감사와 재현성이 모두 이 공백 위에 서 있다. 사전학습 계보를 뒤늦게 좇는 사이, 진짜 전선은 지금 열리고 있다.

99.7%

원자 단위 귀속률

145만 RLVR 인스턴스를 20개 원자 소스로 역추적

70.4%

상위 5개 소스 집중

단 5개 소스가 전체의 3분의 2 이상 — cn_k12 홀로 23.6%

80% vs 33%

라이선스 역설

소스 콘텐츠 80%가 비상업 제약, 데이터셋 표기는 33% 미만

~10×

RL 컴퓨트 증가

몇 달마다 10배 — 사전학습(연 5배)을 압도하는 속도

1

전선의 이동: 코퍼스에서 보상 신호로

지난 몇 년간 'AI가 무엇을 학습했나'라는 질문은 하나의 대상을 향했다. 문서 코퍼스다. 웹에서 긁어모은 텍스트에 저작권 있는 책이 얼마나 섞였는지, The Pile과 C4에 어떤 출처가 들어갔는지, 소송과 데이터 감사가 이 질문을 좇았다. 답을 찾기까지 오래 걸렸고, 지금도 완전하지 않다.

그런데 그 사이 능력 향상의 무게중심이 조용히 옮겨갔다. 사전학습으로 기초 언어 능력을 쌓은 모델을, 이제는 검증 보상형 강화학습(RLVR, Reinforcement Learning with Verifiable Rewards)으로 다듬어 추론 능력을 끌어올린다. RLVR은 모델의 출력을 자동으로 채점 가능한 과제 — 수학 정답이 맞는지, 코드가 테스트를 통과하는지 — 에 대해 보상을 주며 학습시키는 방식이다. 사람의 선호를 학습하는 RLHF와 달리, 정답 검사기(verifier)가 보상을 결정한다.

이 단계가 얼마나 빠르게 커졌는지는 컴퓨트가 말해 준다. Epoch AI의 집계에 따르면 추론 학습에 투입되는 컴퓨트는 몇 달마다 약 10배씩 불어난다. 프런티어 전체 컴퓨트가 연 5배 남짓 성장하는 것과 비교하면 압도적인 속도다. 아래 도식이 두 성장 곡선의 격차를 보여준다.

그림 1. 학습 컴퓨트 증가 속도 비교. 추론(RL) 컴퓨트는 몇 달마다 10배, 사전학습은 연 5배 안팎이다. AIME 점프는 Epoch AI 보고 인용(원논문 대조 권장). 페블러스 원본 도식.

Epoch AI가 인용한 상징적 사례가 DeepSeek-R1-Zero다. 사전학습의 약 1/5 규모 컴퓨트에 불과한 RL 단계에서, AIME 2024 점수가 8,000 스텝 만에 10%에서 71%로 뛰었다. 상대적으로 적은 컴퓨트 투자에서 얻는 능력 향상이 변혁적이라는 뜻이다. 자본도 그 방향으로 움직였다. The Information의 2025년 9월 보도에 따르면 Anthropic은 RL 환경 구축 검토에 10억 달러 이상의 예산을 언급했다.

무게중심이 옮겨갔다는 것은, 감사해야 할 대상도 옮겨갔다는 뜻이다. 능력을 조형하는 데이터가 코퍼스에서 보상 신호로 바뀌었다면, '무엇을 학습했나'라는 질문도 함께 이동해야 한다. 그런데 추적 인프라는 여전히 코퍼스에 묶여 있다. 돈은 RL로, 감사는 코퍼스에 — 이 어긋남이 이 글의 출발점이다.

2

RLVR의 데이터: 코퍼스가 아니라 다섯 부품의 결합체

코퍼스의 출처를 추적하는 일은 어렵지만 질문 자체는 단순하다. '어떤 문서가 들어갔나'만 물으면 된다. RLVR에서는 그 질문이 성립하지 않는다. RLVR의 '데이터'는 단일한 텍스트 코퍼스가 아니라 여러 부품의 결합체이기 때문이다.

하나의 RLVR 학습 신호를 만들려면 최소한 다섯 가지가 맞물린다. 모델이 풀 과제 프롬프트, 정답이거나 정답 여부를 판정하는 검사기(verifier), 그 판정을 점수로 바꾸는 보상 함수, 모델이 실제로 뱉어 낸 롤아웃(응답 샘플), 그리고 무엇을 남기고 버릴지 정하는 필터링 규칙이다. 아래 도식은 코퍼스와 RLVR 데이터가 구조적으로 얼마나 다른 사물인지를 대비한다.

그림 2. 코퍼스와 RLVR 데이터의 구조 대비. 코퍼스가 단일 토큰 흐름이라면, RLVR 데이터는 다섯 부품이 맞물린 결합체다. 페블러스 원본 도식.

차이의 핵심은 이렇다. 코퍼스는 텍스트 토큰의 나열이지만, RLVR 데이터는 '행동을 채점하는 장치'다. 다섯 부품은 저마다 다른 출처를 갖는다. 과제는 합성으로 생성되거나 기존 데이터셋에서 변형되고, 검사기는 사람이 짠 코드이거나 또 다른 모델이며, 보상 함수는 설계자의 판단이 담긴 규칙이고, 필터링은 무엇을 신호로 남길지를 정하는 편집 행위다. 코퍼스 추적이 '문서 목록 확인'이라면, RLVR 추적은 이 다섯 계보를 각각 거슬러 올라가는 일이다. 그래서 구조적으로 더 어렵다.

더 곤란한 것은, 이 다섯 계보가 데이터셋이 공개돼 있을 때조차 잘 드러나지 않는다는 점이다. 파일은 내려받을 수 있어도, 그 과제가 어디서 왔는지·검사기를 누가 어떻게 짰는지를 적어 둔 출처 문서는 대개 따라오지 않는다. '열려 있으나 닫혀 있는' 상태다. 그래서 RLVR 데이터의 계보를 알려면, 공개된 파일을 거꾸로 뜯어 어느 상류에서 갈라져 나왔는지를 복원하는 수밖에 없다. 바로 그 일을 정면으로 시도한 것이 다음 절의 ATLAS다.

3

ATLAS: 원자 단위로 귀속했더니 드러난 것

2026년 5월 공개된 ATLAS(arXiv:2605.26971)는 그 어려운 일을 정면으로 시도했다. 16개 대표 오픈 RLVR 데이터셋의 1,450,827건 인스턴스를 거슬러 올라가, 각각이 어느 상류 소스에서 왔는지를 20개 원자 소스(더 이상 쪼갤 수 없는 단일 출처)로 99.7% 귀속시켰다. 1%도 안 되는 인스턴스만 출처 불명으로 남았다. '추적이 가능하다'는 이 증명은, 동시에 '지금껏 아무도 이걸 하지 않고 있었다'는 방증이기도 하다.

3.1 '새로움'은 착시였다 — 극단적 소스 집중

귀속 결과가 드러낸 첫 번째 사실은 집중이다. 145만 인스턴스의 70.4%가 단 5개 원자 소스에서 파생됐다. 중국 고교 수학(cn_k12)이 홀로 23.6%, 올림피아드 문제(olympiads)가 20.5%로 뒤를 잇는다. 서로 다른 이름의 '새 데이터셋'처럼 보여도, 뿌리를 캐면 같은 소수의 상류에서 갈라져 나온 변형이라는 뜻이다. 논문의 표현대로 "대부분의 RLVR 데이터셋은 소수 상류 소스의 변형이며, 진짜 새로운 데이터를 도입한 경우는 드물다."

그림 3. RLVR 원자 소스 집중도. 상위 5개 소스가 전체의 70.4%를 차지한다. 출처: ATLAS(arXiv:2605.26971) Table 7을 페블러스가 재구성.

집중 자체가 곧 위험은 아니다. 문제는 소수 상류에 오류·편향·오염이 있으면 그것이 수많은 하위 데이터셋으로 증폭된다는 데 있다. '새 데이터셋'을 열 개 섞어 다양성을 확보했다고 믿어도, 실은 같은 뿌리를 열 번 다시 쓴 것일 수 있다. 다양성과 독립성이 착시가 된다.

이 착시가 ATLAS 한 편의 관찰로 그치지 않는다는 점이 중요하다. 후처리 데이터의 상속 관계를 별도로 추적한 계보 연구(arXiv:2604.10480)는 83개 시드 데이터셋이 971개의 상속 관계를 거쳐 430여 개 파생 데이터셋으로 번지는 그래프를 그려 냈다. 이름과 버전이 제각각인 데이터셋을 계보로 펼쳐 놓으면, 결국 몇 갈래 뿌리에서 반복해 갈라져 나온 가지였다는 뜻이다. 서로 다른 두 연구가 같은 결론에 닿았다.

3.2 추적하지 않으면 보이지 않는 오염

두 번째로 드러난 것이 오염이다. ATLAS는 유사도 90% 이상 기준에서 36,148건의 벤치마크 누출 인스턴스를 찾아냈다. 평가에 쓰여야 할 문제가 학습 데이터로 새어 든 사례다. 특히 Omni-Math와 HARP는 평가 벤치마크를 직접 포함하고 있었다. 앞서 본 후처리 계보 연구(arXiv:2604.10480)도 83개 시드 데이터셋 가운데 19개에서 벤치마크 유출을 확인했고, open-instruct-v1은 중복률 46.48%를 보고했다.

오염이 무서운 이유는 능력 평가 자체를 무너뜨리기 때문이다. 평가 문제가 학습에 새어 들면, 모델이 '풀었다'가 실은 '외웠다'가 된다. 그 위에서 내려진 모델 선택, 투자, 규제 판단이 전부 흔들린다. 그리고 이 누출은 출처를 추적하지 않으면 보이지 않는다. ATLAS가 원자 단위로 거슬러 올라갔기에 3.6만 건이 드러난 것이지, 데이터셋 표면만 봐서는 잡히지 않는다.

그림 3-1. 벤치마크 오염 경로. 평가 벤치마크(Omni-Math, HARP)가 파생·포함을 통해 RLVR 학습 데이터셋으로 새어든다. ATLAS는 16개 데이터셋에서 36,148건(≥90% 유사도)을, 계보 연구(arXiv:2604.10480)는 83개 시드 중 19개에서 누출을 확인했다. 페블러스 원본 도식(Fig. 3 재해석).

ATLAS의 성공이 곧 폭로다. 145만 건을 99.7% 귀속시킬 수 있었다는 사실은 기술적 성취지만, 그렇게 들여다보니 나온 것이 소수 소스로의 집중과 3.6만 건의 오염이었다. 원자 단위 추적은 RLVR 데이터가 얼마나 깊은지가 아니라, 얼마나 얕고 서로 겹쳐 있는지를 드러냈다.

4

추적이 멈추는 지점

ATLAS의 99.7%에는 숨은 단서가 있다. 그 귀속은 '과제 데이터의 출처'에 한한다. 논문 스스로 추적하지 못한 영역을 명시했다. 앞서 본 RLVR 데이터의 다섯 부품 가운데, 계보 그래프에 담기는 것은 사실상 과제 프롬프트 하나뿐이다. 나머지는 '데이터셋'이 아니어서 그래프 밖에 남는다.

그림 4. 원자 귀속의 안과 밖. ATLAS가 99.7% 귀속시킨 것은 과제 데이터이며, 검사기·합성 생성·인간 필터·보상 설계는 계보 그래프 밖에 남는다. 출처: ATLAS(arXiv:2605.26971) 한계 논의를 페블러스가 재구성.

4.1 라이선스 역설이 RL에서 재현된다

추적이 멈추면 무엇을 놓치는지, 사전학습 데이터가 이미 실증해 놓았다. Longpre 등이 ICLR 2025에서 발표한 대규모 감사(arXiv:2412.17847)는 약 4,000개(정확히는 3,916개) 데이터셋을 608개 언어·798개 소스·67개국에 걸쳐 조사했다. 결과는 라이선스의 역설이었다. 데이터셋 단위로 표기된 라이선스만 보면 33% 미만이 제한적이지만, 파생 체인을 거슬러 실제 소스 콘텐츠까지 올라가면 80% 넘게가 비상업 제약을 갖고 있었다.

그림 5. 라이선스 역설. 데이터셋 표기와 실제 소스 콘텐츠의 제약 비율이 크게 어긋난다. 출처: Longpre et al.(arXiv:2412.17847)을 페블러스가 재구성.

RLVR은 파생과 합성이 더 심한 세계다. 과제가 다른 데이터셋에서 변형되고, 검사기가 또 다른 모델로 만들어지고, 그 위에 합성 생성이 겹친다. 사전학습에서 이미 확인된 라이선스 역설이, 추적이 더 얕은 RLVR에서 더 깊어지지 않을 이유가 없다. 오염, 보상 해킹(reward hacking), 재현 불가능성 — 이 세 가지가 모두 '추적이 멈추는 지점' 너머에서 자란다.

5

다음 데이터 신뢰의 싸움터

그렇다면 다음에 추적해야 할 대상은 무엇인가. 사전학습 코퍼스의 계보는 뒤늦게나마 업계 화두가 됐다. 데이터 출처를 다루는 관점에서 보면, 아직 아무도 자산화하지 않은 공백은 RLVR 보상 데이터의 계보다. 과제, 검사기, 보상 신호가 각각 어디서 왔는지를 잇는 계보 그래프 — 그것이 다음 싸움터다.

그림 6. 다음 추적 대상 로드맵. 과제·검사기·보상 신호를 상류 소스까지 잇는 계보 그래프. 페블러스 원본 도식.

5.1 규제는 아직 이 공백을 커버하지 않는다

규제부터 이 공백 위에 서 있다. EU AI Act Article 10은 학습·검증·테스트 데이터의 출처, 대표성, 편향을 문서화하도록 요구한다. 완전 적용은 2026년 8월이다. 그런데 verifiable reward를 위한 과제·검사기·보상 함수가 같은 의무에 속하는지는 아직 규제 해석이 확립돼 있지 않다. 조문이 상정한 '학습 데이터'는 문서 코퍼스에 맞춰져 있고, RL 보상 데이터·검사기·환경은 그 정의의 경계에 걸쳐 있다. 이 해석의 공백이 곧 규제 리스크다.

5.2 RLVR 파이프라인을 운영한다면

추상적인 이야기가 아니다. 고품질 RLVR 데이터셋 하나를 만드는 데 상당한 자원이 든다. DeepMath-103K는 제작에 13만 8천 달러와 12만 7천 GPU 시간이 들었다. 이만큼 쌓으면서 '무엇을 쌓았는지' 모른 채 학습을 돌리는 것은 자산 낭비다. RLVR 파이프라인을 운영하는 조직이 지금 점검할 수 있는 것은 네 가지다.

· 상류 소스 확인. 사용하는 오픈 RLVR 데이터셋이 실제로 어느 원자 소스에서 파생됐는지 계보를 거슬러 올라간다. '새 데이터셋'이 사실 같은 뿌리인지 확인하는 일이다.
· 오염 스크리닝. 평가 벤치마크가 학습 데이터로 새어 들지 않았는지 유사도(≥90%) 기준으로 걸러 낸다. 능력 평가의 신뢰가 여기 달려 있다.
· 자체 자산의 계보화. 직접 만든 과제·검사기·보상 함수의 출처와 설계 결정을 계보 그래프로 문서화한다. 재현·감사·디버깅이 전부 이 기록에서 나온다.
· 소스까지의 라이선스 검증. 라이선스를 데이터셋 표기가 아니라 실제 소스 콘텐츠까지 거슬러 확인한다. 표기된 33%가 아니라 잠재된 80%가 진짜 리스크다.

'AI가 무엇을 학습했나'라는 질문의 전선은 문서 코퍼스에서 검증 가능한 과제와 보상 신호로 이미 옮겨갔다. 추적 도구와 감사 관행이 그 이동을 아직 따라잡지 못했을 뿐이다. 다음에 추적해야 할 대상은 분명하다. 문제는 그것을 자산으로 다룰 언어와 도구를 누가 먼저 갖추느냐다.

Editor's Note

페블러스는 데이터의 출처·계보(provenance/lineage)를 자산으로 다뤄 온 회사다. DataClinic이 데이터 품질을 진단하고, AI-Ready Data 철학이 '학습에 들어가는 것을 알아야 한다'를 전제한다. 이 보고서가 짚은 RLVR 보상 데이터의 계보 공백은, 그 관점을 사전학습 코퍼스 너머로 확장하는 다음 장에 해당한다. ATLAS의 품질 점수 Q는 다운스트림 성능과 강하게 상관했는데(Pearson r=0.96), 이는 '출처를 알면 품질을 예측할 수 있다'는 명제의 정량 증거이기도 하다. 이 문단은 편집자 관점의 배경 설명이며, 본문의 분석 논지와는 분리해 읽어 주기 바란다.

R

참고문헌

학술 논문

1.Huang, H.-Y., Liu, W., Tang, C., Lee, S., Yang, K., Chen, Y., Yang, S., & Wu, Y. (2026). "RLVR Datasets and Where to Find Them: Tracing Data Lineage for Better Training Data" (ATLAS). arXiv:2605.26971. (발표 2026-05-26) — 1차 소스
2.Longpre, S., Mahari, R., et al. (2025). "Bridging the Data Provenance Gap Across Text, Speech and Video." ICLR 2025. arXiv:2412.17847. — 라이선스 역설(80% vs 33%)
3."Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs" (2026). arXiv:2604.10480. — 83 시드 → 430 데이터셋, 971 상속 엣지
4.Yu, Q., et al. (2025). "DAPO: An Open-Source LLM Reinforcement Learning System at Scale." arXiv:2503.14476.
5."DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset." (2025). arXiv:2504.11456. (제작 비용 $138K / 127K GPU시간)
6.Lambert, N., et al. (2024). "Tülu 3: Pushing Frontiers in Open Language Model Post-Training" (RLVR). arXiv:2411.15124.

정책·통계

7.Epoch AI (2025-05-09). "How Far Can Reasoning Models Scale?" epoch.ai. (RL 컴퓨트 10배/3~5개월; DeepSeek-R1-Zero AIME 10%→71%)
8.Epoch AI (2025). "The State of RL Environments." epoch.ai.
9.The Information (2025-09). Anthropic의 RL 환경 구축 검토 예산 $10억+ 보도. (Epoch AI 재인용 경유)
10.European Union (2024). "Artificial Intelligence Act — Article 10: Data and Data Governance." (학습·검증·테스트 데이터 문서화 의무; 완전 적용 2026-08)

데이터셋·페블러스 인접

11.Data Provenance Initiative. Publications & Multimodal Provenance Audit. dataprovenance.org.
12.NuminaMath-1.5. Hugging Face Datasets. huggingface.co/datasets/AI-MO/NuminaMath-1.5.
13.페블러스 데이터 커뮤니케이션팀 (2026-06-08). "AI-Ready 데이터란 무엇인가 — 품질·계보·거버넌스." Pebblous Blog.