|

주요 발견: 오픈 데이터의 힘

Meta(LLaMA), EleutherAI(Pythia), Allen AI(OLMo) 등 주요 AI 연구소들은 공개 라이선스 데이터만으로 최첨단 LLM을 성공적으로 학습시켰습니다. 이는 저작권 리스크 없이도 높은 성능을 달성할 수 있음을 증명합니다.

상업적 활용 가능성

CommonCrawl, The Stack, Wikipedia, arXiv 등 방대한 오픈 데이터셋과 ODC-BY, Apache 2.0, CC-BY-SA 등 상업적 활용이 가능한 라이선스를 통해 GPT-3를 능가하는 모델 구축이 가능합니다.

1~5조 토큰 규모 구축

LLaMA, OLMo 등 성공적인 모델들의 데이터 혼합 전략을 벤치마킹하고, 검증된 오픈 데이터 소스를 적절히 조합하여 1조에서 5조 토큰 규모의 고품질 학습 데이터를 구축하는 실용적인 가이드를 제공합니다.

대규모 오픈 데이터셋: 핵심 기반

RedPajama (1.2T 토큰)

LLaMA 학습 데이터를 재현한 데이터셋. CommonCrawl, GitHub, arXiv 등으로 구성되어 있으며 Apache 2.0 라이선스로 상업적 사용이 가능합니다. v2는 30조 토큰으로 확장되었습니다.

The Pile (825GB)

EleutherAI가 공개한 고품질 데이터셋으로, 22개 소스를 통합했습니다. arXiv, PubMed 등 기술 문서가 풍부하며 Pythia 모델 학습에 사용되었습니다.

C4 (Colossal Clean Crawled Corpus, 750GB)

Google T5 학습용으로 개발되었으며, CommonCrawl을 엄격하게 필터링했습니다. ODC-BY 라이선스로 상업적 활용이 자유롭습니다.

Dolma (3T 토큰) & OLMo

Allen AI가 OLMo 모델 학습을 위해 구축. Semantic Scholar 논문, 수학 콘텐츠 등 AI/ML 기술 문서 비중이 높아 관련 분야 학습에 특히 적합합니다.

FineWeb (15T 토큰)

HuggingFace가 2024년 공개한 데이터셋으로, 96개 CommonCrawl 덤프를 처리하여 C4, Dolma 등을 벤치마크에서 능가했습니다. ODC-BY 라이선스입니다.

실제 LLM 학습 사례: 검증된 전략

LLaMA (Meta)

핵심 교훈: 공개 데이터만으로 최첨단 성능 달성이 가능하며, 대규모 웹 데이터(CommonCrawl 67%)와 고품질 전문 소스(GitHub, Wikipedia, arXiv 등)를 보완하는 전략이 핵심입니다.

Pythia (EleutherAI)

핵심 교훈: The Pile 데이터셋을 사용하여 학습 과정의 모든 체크포인트와 데이터를 공개. 철저한 문서화와 투명성이 과학적 재현성과 커뮤니티 신뢰 구축에 필수적임을 보여줍니다.

OLMo (Allen AI)

핵심 교훈: 2단계 학습 전략 사용. 1단계에서 대규모 범용 데이터로 광범위하게 학습한 후, 2단계에서 고품질 타겟 데이터(수학, Q&A 등)로 특정 능력을 보완하는 방식이 효과적입니다.

Falcon (TII)

핵심 교훈: 웹 데이터(RefinedWeb)만으로도 SOTA 달성이 가능함을 입증. 극도로 엄격한 중복 제거를 통해 데이터 품질이 다양성보다 중요할 수 있음을 시사했습니다.

주요 데이터셋 요약

데이터셋 크기 토큰 라이선스 언어
RedPajama-v11.2T1.2조Apache 2.0EN+20개
The Pile825GB300BMIT+개별EN
C4750GB~750BODC-BY100+개
Dolma v1.74.5TB2.3조ODC-BY주로 EN
FineWeb44TB15조ODC-BYEN (v2: 다국어)
The Stack v232.1TB900B허용 라이선스658개
Wikipedia (EN)~58GB~2.24BCC-BY-SA 4.0338개

권장 시작 믹스 (7B 모델, 1조 토큰 기준)

범용 모델

  • CommonCrawl (필터링): 65%
  • C4: 10%
  • The Stack (코드): 5%
  • GitHub (코드): 5%
  • Wikipedia: 5%
  • Books (Gutenberg): 5%
  • arXiv (논문): 3%
  • StackExchange (Q&A): 2%

데이터 구성 시각화

웹 (75%)
코드 (10%)
도서/위키 (10%)
학술/Q&A (5%)

코드 중심 모델

  • The Stack: 70%
  • GitHub: 15%
  • StackExchange (코딩 태그): 5%
  • 문서: 5%
  • arXiv (CS 논문): 3%
  • 일반 웹 (필터링): 2%

데이터 구성 시각화

코드 (85%)
Q&A/학술 (8%)
문서 (5%)
웹 (2%)

결론 및 제언

주요 AI 연구소들의 성공 사례는 공개 라이선스 데이터만으로 최첨단 LLM을 구축할 수 있다는 사실을 명확히 보여줍니다. 성공의 핵심은 검증된 소스를 전략적으로 혼합하고, 엄격한 전처리와 중복 제거를 통해 데이터 품질을 극대화하는 데 있습니다.

즉시 시작 가능한 조합으로는 범용 웹 지식을 위해 FineWeb을, 기술 문서를 위해 Dolma 또는 SlimPajama를, 그리고 코드를 위해 The Stack v2를 혼합하는 것을 추천합니다.

2025년 법적 판례는 합법적으로 취득한 데이터로 학습하는 것이 '공정 사용'에 해당할 가능성이 높음을 시사하지만, Books3, LibGen 등 불법 복제 저장소는 심각한 법적 리스크를 초래하므로 반드시 피해야 합니다.

관련 자료 다운로드

법적 방어 가능 데이터 큐레이션 전략 가이드

AI 및 데이터 과학 분야 LLM 학습을 위한 상세한 법률 및 전략 가이드 PDF 문서를 다운로드하세요.

PDF 다운로드

추후 공개될 자료 1

새로운 가이드 또는 보고서가 준비 중입니다. 곧 업데이트될 예정입니다.

공개 예정

추후 공개될 자료 2

새로운 가이드 또는 보고서가 준비 중입니다. 곧 업데이트될 예정입니다.

공개 예정

Disclaimer

본 리서치는 페블러스에서 수행하는 AADS (Agentic AI Data Scientist, 자율형 AI 데이터 과학자) 기술 개발 과제를 위해 수행되었습니다. 본문의 조사와 웹페이지 제작 과정에 인공지능이 활용되었습니다.