Executive Summary
2024년을 지나며 사전학습 쪽의 뉴스가 조용해졌습니다. 모델을 더 키워도 손실 곡선이 예전처럼 가파르게 내려가지 않았고, 눈에 띄는 성능 향상은 대부분 사후학습과 추론 시점 연산에서 나왔습니다. 파라미터를 늘리는 전략이 한계에 가까워진 자리에서 성능을 다시 가르기 시작한 변수는 데이터의 품질입니다. 이 글은 그 전환이 왜 일어났고, 데이터 큐레이션이 어떻게 새 병목으로 돌아왔는지를 공개된 수치로 따라갑니다.
가장 또렷한 증거는 허깅페이스의 FineWeb-Edu에서 나왔습니다. 모델 기반 분류기로 교육적 가치가 높은 텍스트만 남기자, 38B 토큰으로 학습한 모델이 필터링하지 않은 350B 토큰 모델과 맞먹었습니다. 9배 적은 데이터로 같은 성능을 낸 것입니다. 그런데 이 큐레이션은 공짜가 아닙니다. 고품질 인간 텍스트는 빠르게 고갈되고 있고, 그 빈자리를 채우는 합성 데이터는 잘못 쓰면 모델을 망가뜨립니다. 성능의 레버가 데이터로 옮겨간 바로 그 순간, 데이터를 고르는 일 자체가 다음 병목이 되었습니다.
아래 글은 Chinchilla의 20:1 비율이 깨진 자리에서 출발해, 큐레이션이 어떻게 모델 크기를 대신하는 레버가 됐는지, 그러면서 어떻게 스스로 새 병목이 됐는지를 하나의 인과 사슬로 잇습니다. 사전학습 데이터셋의 증거에서 시작해 현장 라벨링 파이프라인까지 내려가니, 데이터를 만지는 분이라면 자기 작업에서 무엇을 먼저 점검할지 가늠하는 기준으로 읽으셔도 좋습니다.
큐레이션이 모델 크기를 대체하기 시작한 양상은 네 개의 숫자에 압축돼 있습니다. 큐레이션의 효율, 실무가 Chinchilla 최적점을 넘어선 폭, 소형 모델이 도달한 성능, 그리고 데이터를 다시 위험하게 만드는 오염의 규모입니다.
38B = 350B
FineWeb-Edu 효율
큐레이션한 38B가 미필터 350B와 동급, 9배 효율
1,875:1
Llama 3 토큰/파라미터
Chinchilla 최적 20:1의 약 94배 over-training
50.6%
Phi-1 HumanEval
1.3B 소형 모델이 훨씬 큰 모델을 능가
74%
신규 웹의 AI 생성 비율
2025년 4월 기준, 큐레이션 없으면 오염 가속
모델은 커졌는데 곡선은 꺾였다
파운데이션 모델의 성능을 예측하는 출발점은 오랫동안 scaling law였습니다. 2022년 딥마인드의 Chinchilla 연구는 같은 컴퓨트라면 모델 크기와 데이터 양을 함께 키워야 손실이 가장 낮아진다는 점을 보였습니다. 70B 모델이 같은 예산의 280B Gopher를 능가했고, 컴퓨트 최적 비율은 파라미터 하나당 약 20개 토큰으로 정리됐습니다. 한동안 이 20:1은 모델을 설계하는 사람들의 나침반이었습니다.
그런데 실무는 이 최적점에서 멀어졌습니다. 학습 비용만이 아니라 배포 후의 추론 비용까지 따지면, 같은 성능을 더 작은 모델로 내는 편이 운영에 유리하기 때문입니다. 그래서 작은 모델에 데이터를 훨씬 더 오래 부어 넣는 over-training이 표준이 됐습니다. 비율의 변화는 가파릅니다.
- • Llama 1 (7B): 약 142 토큰/파라미터에서 출발
- • Llama 2 (7B): 약 284 토큰/파라미터로 한 세대 만에 두 배
- • Llama 3 (8B, 15T 토큰): 1,875 토큰/파라미터, Chinchilla 최적의 약 94배
- • Qwen3-0.6B (36T 토큰): 60,000:1, 비율이 세 자릿수를 넘어 다섯 자릿수로
모델은 이렇게 더 오래, 더 많은 데이터로 배웠습니다. 그런데도 2024년 이후 사전학습에서 나오는 성능 뉴스는 눈에 띄게 줄었습니다. 화제의 중심은 사후학습과 추론 시점 연산으로 옮겨갔습니다. 사전학습 scaling law가 한계에 부딪혔다는 추정이 이 침묵에서 나옵니다. 파라미터를 늘리고 데이터를 더 부어도 과거 같은 성능 증가가 돌아오지 않는다면, 다음 질문은 자연스럽게 데이터의 양이 아니라 질로 향합니다.
Data Wall, 고품질 데이터가 바닥났다
데이터를 더 부어도 곡선이 안 오르는 이유 중 하나는 단순합니다. 부을 데이터가 동나고 있기 때문입니다. 웹에서 사람이 직접 쓴 고품질 텍스트는 유한하고, 프런티어 모델들은 이미 그 대부분을 학습에 써 버렸습니다. 남은 것은 품질이 낮거나, 갈수록 빠르게 늘어나는 기계 생성물입니다. 연구자들은 이 한계를 data wall이라 부릅니다.
오염의 속도는 가볍지 않습니다. 한 분석에 따르면 2025년 4월 기준 새로 만들어지는 웹페이지의 74% 이상이 AI가 생성한 텍스트를 포함합니다. 다음 모델이 별다른 필터 없이 웹을 긁어 학습한다면, 그 학습 데이터에는 이전 모델이 쏟아낸 출력이 점점 더 큰 비중으로 섞여 듭니다. 양으로 질을 덮던 과거의 가정이 약해지는 지점입니다.
병목의 자리가 바뀐 셈입니다. GPU와 컴퓨트가 부족하던 시절에는 더 큰 클러스터가 성능을 갈랐습니다. 이제는 컴퓨트를 확보해도, 그 컴퓨트에 먹일 만한 고품질 데이터가 충분한가가 더 까다로운 질문이 됐습니다. 성능을 가르는 전장이 '얼마나 많이 계산하느냐'에서 '남은 데이터 중 무엇을 골라 먹이느냐'로 이동한 것입니다.
38B가 350B를 이긴다
'더 나은 데이터가 더 많은 데이터를 이긴다'는 말은 구호로 들리기 쉽습니다. 그러나 최근 몇 년간 이 명제를 정량으로 뒷받침하는 결과가 쌓였습니다. 가장 선명한 사례가 허깅페이스의 FineWeb-Edu입니다.
FineWeb-Edu는 Llama-70B 기반 분류기로 웹 텍스트의 '교육적 가치'를 점수화한 뒤, 최상위만 남기고 하위 90%를 버렸습니다. 그렇게 추린 38B 토큰으로 학습한 모델이, 필터링하지 않은 350B 토큰으로 학습한 모델과 같은 성능을 냈습니다. 1.82B 모델은 같은 방식으로 만든 1.3T 토큰 서브셋으로 학습했을 때 FineWeb 전체, MassiveText, Dolma로 학습한 모델을 앞섰습니다. 데이터를 더 넣은 쪽이 아니라 잘 고른 쪽이 이겼습니다.
3.1소형 모델이 대형 모델을 넘은 순간
마이크로소프트의 Phi 계열은 이 논리를 더 멀리 밀었습니다. "Textbooks Are All You Need"의 Phi-1은 1.3B 파라미터에 불과한데도, 정제된 교과서 품질 데이터로 학습해 HumanEval에서 50.6%, MBPP에서 55.5%를 기록했습니다. 훨씬 큰 모델들을 코드 생성에서 앞선 수치입니다. 이어진 Phi-3-mini(3.8B)는 GPT-3.5나 총 45B 파라미터의 Mixtral 수준에 도달했습니다. scaling law의 곡선에서 의도적으로 이탈해, 데이터의 질로 체급을 끌어올린 것입니다.
Phi가 체급을 끌어올린 비결은 데이터를 고르는 두 가지 결정에 있었습니다. 먼저 웹 텍스트를 '지식이 담겼는가'와 '추론 능력을 키울 만한가'라는 기준으로 추려 냈고, 거기에 모델이 직접 생성한 교과서 품질의 합성 데이터를 더했습니다. Phi-3는 이 과정을 두 단계로 나눠, 1단계에서 일반 지식을 웹에서 익히고 2단계에서 정제된 합성 데이터로 추론을 집중 훈련했습니다. 작은 모델이 큰 모델을 앞선 동력은 파라미터 수가 아니라 무엇을 먹일지에 대한 설계였던 셈입니다. 모델이 만든 데이터를 학습에 끌어들였다는 점은 뒤에서 다룰 합성 데이터의 양면성과도 곧장 맞닿습니다.
3.2필터링은 휴리스틱에서 모델로 진화했다
큐레이션 전략을 공정하게 비교하려는 표준도 생겼습니다. DCLM(DataComp-LM)은 같은 풀에서 서로 다른 큐레이션을 겨루게 하는 벤치마크로, 단순한 binary fastText 분류기만으로도 정교한 전략에 버금가는 성능을 낼 수 있음을 보였습니다. 데이터셋의 진화 방향도 일관됩니다. perplexity 필터(Dolma)에서 휴리스틱(FineWeb)으로, 다시 모델·분류기 기반 필터(FineWeb-Edu, DCLM)로 옮겨갔습니다. 규모는 RefinedWeb 600B에서 FineWeb 15T, DCLM 240T 토큰까지 커졌지만, 거듭 확인된 교훈은 같습니다. 정밀한 필터링이 대량의 미필터 데이터를 압도합니다.
프런티어 모델은 모델로 데이터를 거른다
큐레이션이 변두리 기법이 아니라는 사실은, 최정상 모델의 레시피를 보면 분명해집니다. Llama 3는 15T 멀티링구얼 토큰으로 학습했습니다. Llama 2의 1.8T에서 여덟 배 넘게 늘어난 양인데, 정작 보고서가 공들여 설명하는 부분은 양이 아니라 거르는 과정입니다.
파이프라인은 여러 단계로 짜여 있습니다. 휴리스틱 필터와 NSFW 필터로 명백한 쓰레기를 걷어내고, 의미 기반 중복 제거로 같은 내용을 솎아내고, 텍스트 품질 분류기로 남길 글을 점수화합니다. 특히 눈여겨볼 대목은 이 품질 분류기입니다. 위키피디아에서 참조될 만한 글인지를 예측하는 fastText와, Llama 2의 판단으로 학습한 RoBERTa 계열 분류기를 함께 썼습니다. 다시 말해, Llama 2가 자기 후속 모델의 학습 데이터를 큐레이션한 것입니다. 모델로 데이터를 거르고, 그 데이터로 더 나은 모델을 만드는 재귀 구조입니다.
4.1데이터 믹스는 설계의 결과다
무엇을 얼마나 섞느냐도 우연이 아니라 결정입니다. Llama 3의 최종 데이터 믹스는 대략 일반지식 50%, 수학·추론 25%, 코드 17%, 멀티링구얼 8%로 맞춰졌습니다. 예술이나 엔터테인먼트처럼 웹에 과대표집된 영역은 의도적으로 다운샘플했고, 코드와 추론 데이터는 별도 추출 파이프라인으로 따로 챙겼습니다. 데이터의 품질이 개별 문서의 문제만이 아니라, 도메인 사이의 비율을 어떻게 설계하느냐의 문제이기도 하다는 점을 보여 줍니다.
여기서 데이터 품질의 정의가 한 단계 넓어집니다. 좋은 데이터는 단지 깨끗한 문장이 아니라, 모델이 무엇을 잘하게 만들지를 겨냥해 도메인 비율까지 조율된 데이터입니다. 큐레이션은 청소를 넘어 설계에 가까워집니다.
합성 데이터는 탈출구인가 함정인가
고품질 인간 텍스트가 동난다면, 모델이 직접 데이터를 만들어 쓰면 되지 않을까요. 합성 데이터는 data wall의 가장 유력한 우회로로 떠올랐습니다. Phi의 교과서 품질 데이터 상당량도 사실 모델이 생성한 것입니다. 그러나 같은 합성 데이터가 모델을 망가뜨리는 방향으로도 작동합니다.
2024년 네이처에 실린 model collapse 연구는 그 위험을 또렷이 보여 줬습니다. AI가 만든 데이터로 다시 AI를 학습시키기를 반복하면, 분포의 꼬리에 있던 드문 패턴부터 먼저 사라집니다. 세대를 거듭할수록 모델은 평균적인 출력만 되풀이하게 되고, 일부 분석은 순수 재귀 환경에서 다섯 세대 안에 측정 가능한 열화가 나타난다고 봅니다. 이 현상은 특정 구조에 국한되지 않고 VAE, GMM, LLM 전반에서 관찰됐습니다.
5.1문제는 합성이 아니라 무분별함이다
다만 결론을 '합성 데이터는 위험하다'로 줄이면 핵심을 놓칩니다. collapse 연구가 지목한 핵심어는 '무분별한(indiscriminate)' 사용입니다. 출처를 따지지 않고, 다양성을 잃은 채, 인간 데이터를 합성물로 통째로 대체할 때 붕괴가 일어납니다. 반대로 다양성을 높이고 provenance를 추적하며 큐레이션 규율을 지킨 합성 데이터는, 소형 모델의 벤치마크 성능을 실제로 끌어올렸습니다. Phi가 내건 '교과서 품질'이라는 표현은, 합성 데이터를 쓰되 그 질을 보증하겠다는 공개 성명서에 가깝습니다.
그래서 합성 데이터 시대에 큐레이션은 덜 중요해지는 게 아니라 더 중요해집니다. 무엇을 생성할지, 생성한 것 중 무엇을 남길지, 어디서 왔는지를 어떻게 추적할지가 collapse와 도약을 가르기 때문입니다. 큐레이션의 규율이 곧 합성 데이터의 안전장치입니다.
큐레이션이 다시 병목인 진짜 이유
여기까지는 사전학습 데이터셋의 이야기였습니다. 그러나 큐레이션이 '병목'이라 불리는 더 직접적인 이유는 현장의 파이프라인에 있습니다. 데이터를 고르고 라벨링하는 작업은 여전히 비싸고, 느리고, 오류가 잦습니다.
규모부터 만만치 않습니다. 데이터 라벨링·큐레이션 시장은 2024년 약 37억 달러에서 2030년 170억 달러 이상으로, 연 25%를 넘는 속도로 커지고 있습니다. 바운딩 박스 하나에 약 4센트라는 단가는 작아 보이지만, 중간 규모 프로젝트만 돼도 비용이 쉽게 여섯 자리를 넘깁니다. 가트너는 저품질 데이터로 조직당 연 1,290만 달러가 새어 나간다고 추산합니다.
더 까다로운 건 품질입니다. 잘 정돈됐다는 벤치마크조차 3~6%의 라벨 오류를 안고 있고, 실무 파이프라인은 보통 그보다 나쁩니다. 오류가 학습 몇 주 뒤에야 드러나면 값비싼 재작업으로 이어집니다. 병목은 한 곳이 아니라 여러 갈래입니다.
- • 확장성: 수천 명의 라벨러를 동시에 관리하면서 일관성을 유지하기 어렵다
- • 가이드라인 드리프트: 시간이 지나며 라벨링 기준이 조금씩 흔들린다
- • 속도와 정확도의 상충, 도메인 전문 라벨러 부족, 자동화의 한계
- • 툴 사일로: 수집·검수·학습 도구가 끊겨 있어 데이터가 매끄럽게 흐르지 못한다
6.1해법의 방향, 라벨링 전에 큐레이션
현장이 찾은 답은 순서를 바꾸는 것입니다. 모은 데이터를 전부 라벨링한 뒤 골라내는 대신, 라벨링 이전에 먼저 큐레이션해 군더더기를 줄입니다. Voxel51이 소개한 사례에서 Automotus는 이 방식으로 데이터셋을 35% 줄이고 라벨링 비용을 33% 넘게 절감했습니다. 같은 곳의 VAL은 전문가 라벨과 약 95% 일치하면서 비용을 크게 낮췄습니다. 물론 long-tail의 희귀 클래스에서는 여전히 사람의 손길이 필요합니다. 그래도 방향은 분명합니다. 잘 고르는 일을 앞당길수록 뒤따르는 비용과 오류가 줄어듭니다.
데이터와 모델은 분리되지 않는다
'더 큰 모델이냐, 더 나은 데이터냐'는 이분법은 편리하지만 정확하지 않습니다. 최근 이론은 둘을 함께 다뤄야 한다고 말합니다. 전통적인 scaling law는 데이터가 균질하게 고품질이고 서로 대체 가능하다고 가정했는데, 실제 데이터에는 중복과 불균형, 개념 커버리지의 공백이 있습니다.
그래서 2025년의 quality-aware scaling law는 데이터 품질을 나타내는 차원 없는 파라미터 Q를 도입해, Chinchilla의 손실 함수를 모델 크기·데이터 양·데이터 품질의 결합 함수로 확장했습니다. 같은 맥락에서 "Data curation cannot be compute-agnostic"는 최적의 필터링 전략이 컴퓨트 예산에 따라 달라진다는 점을 보였습니다. 큐레이션과 스케일을 따로 떼어 최적화하면 답이 어긋난다는 뜻입니다.
반대 방향의 증거도 있습니다. LIMO와 s1 같은 연구는 작지만 유효하고 도전적인 예제만 잘 추리면, 데이터를 대량으로 붓는 것보다 추론 성능이 더 오를 수 있음을 보였습니다. '많을수록 좋다'는 직관과 정면으로 부딪히는 결과입니다. 언제 큐레이션이 이기고 언제 전량 학습이 최적인가는 이제 그 자체로 핵심 연구 질문이 됐습니다.
하나로 모으면 결론은 단순합니다. 모델 크기 경쟁이 한계에 가까워진 자리에서 성능을 가르는 변수는 데이터의 품질로 옮겨갔고, 그 품질을 만드는 큐레이션은 컴퓨트·스케일과 분리할 수 없는 일급 엔지니어링 과제가 됐습니다. 데이터 큐레이션 역량이 곧 모델 성능의 경쟁력입니다.
Editor's Note
페블러스는 학습에 들어가기 전 데이터의 품질을 진단하고 정비하는 일을 다룹니다. 이 글이 따라간 증거를 우리의 언어로 옮기면 이렇습니다. 데이터 큐레이션은 모델이 완성된 뒤의 정리 작업이 아니라, 무엇을 먹일지 정하는 사전 투입입니다. 더 큰 모델을 좇기 전에 더 나은 데이터를 만드는 일, 즉 AI-Ready Data가 성능의 다음 레버라는 것이 이 글이 닿은 자리입니다.
참고문헌
학술 논문
- 1.Meta AI. (2024). "The Llama 3 Herd of Models." arXiv:2407.21783.
- 2.Li et al. (2024). "DataComp-LM: In search of the next generation of training sets for language models." arXiv:2406.11794.
- 3.Penedo, G., Kydlíček, H., et al. (2024). "FineWeb: Decanting the Web for the Finest Text Data at Scale." Hugging Face / arXiv.
- 4.Gunasekar, S., Zhang, Y., Aneja, J., et al. (2023). "Textbooks Are All You Need." arXiv:2306.11644.
- 5.Abdin, M., Jacovi, A., et al. (2024). "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone." arXiv:2404.14219.
- 6.Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). "Training Compute-Optimal Large Language Models." arXiv:2203.15556.
- 7.Shumailov, I., Shumaylov, Z., Zhao, Y., et al. (2024). "AI models collapse when trained on recursively generated data." Nature. DOI:10.1038/s41586-024-07566-y.
- 8.Dohmatob et al. (2024). "A Tale of Tails: Model Collapse as a Change of Scaling Laws." arXiv:2404.05090.
- 9.Ozturkler et al. (2024). "Synthetic Eggs in Many Baskets: Impact of Synthetic Data Diversity on LLM Fine-Tuning." arXiv:2511.01490.
- 10.Ye et al. (2025). "Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining." arXiv:2510.03313.
- 11.Taylor et al. (2024). "Scaling Laws for Data Filtering — Data Curation cannot be Compute Agnostic." arXiv:2404.07177.
- 12.Wu et al. (2024). "Why Less is More (Sometimes): A Theory of Data Curation." arXiv:2511.03492.
- 13.Zheng et al. (2025). "Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data." arXiv:2505.05427.
업계·보도
- 14.Vet, J. (2025). "A brief history of LLM Scaling Laws and what to expect in 2025." jonvet.com.
- 15.SunTec India. (2024). "Data Annotation Is the New AI Bottleneck." suntecindia.com.
- 16.Voxel51. (2024). "Curation Before Annotation for Efficient ML Workflows." voxel51.com.
- 17.Towards Data Science. (2024). "Computer Vision's Annotation Bottleneck Is Finally Breaking." towardsdatascience.com.
- 18.InfoWorld. (2024). "The next AI breakthrough won't come from bigger models, but from better data." infoworld.com.