대규모 오픈 데이터셋: 핵심 기반
RedPajama (1.2T 토큰)
LLaMA 학습 데이터를 재현한 데이터셋. CommonCrawl, GitHub, arXiv 등으로 구성되어 있으며 Apache 2.0 라이선스로 상업적 사용이 가능합니다. v2는 30조 토큰으로 확장되었습니다.
The Pile (825GB)
EleutherAI가 공개한 고품질 데이터셋으로, 22개 소스를 통합했습니다. arXiv, PubMed 등 기술 문서가 풍부하며 Pythia 모델 학습에 사용되었습니다.
C4 (Colossal Clean Crawled Corpus, 750GB)
Google T5 학습용으로 개발되었으며, CommonCrawl을 엄격하게 필터링했습니다. ODC-BY 라이선스로 상업적 활용이 자유롭습니다.
Dolma (3T 토큰) & OLMo
Allen AI가 OLMo 모델 학습을 위해 구축. Semantic Scholar 논문, 수학 콘텐츠 등 AI/ML 기술 문서 비중이 높아 관련 분야 학습에 특히 적합합니다.
실제 LLM 학습 사례: 검증된 전략
LLaMA (Meta)
핵심 교훈: 공개 데이터만으로 최첨단 성능 달성이 가능하며, 대규모 웹 데이터(CommonCrawl 67%)와 고품질 전문 소스(GitHub, Wikipedia, arXiv 등)를 보완하는 전략이 핵심입니다.
Pythia (EleutherAI)
핵심 교훈: The Pile 데이터셋을 사용하여 학습 과정의 모든 체크포인트와 데이터를 공개. 철저한 문서화와 투명성이 과학적 재현성과 커뮤니티 신뢰 구축에 필수적임을 보여줍니다.
OLMo (Allen AI)
핵심 교훈: 2단계 학습 전략 사용. 1단계에서 대규모 범용 데이터로 광범위하게 학습한 후, 2단계에서 고품질 타겟 데이터(수학, Q&A 등)로 특정 능력을 보완하는 방식이 효과적입니다.
주요 데이터셋 요약
| 데이터셋 | 크기 | 토큰 | 라이선스 | 언어 |
|---|---|---|---|---|
| RedPajama-v1 | 1.2T | 1.2조 | Apache 2.0 | EN+20개 |
| The Pile | 825GB | 300B | MIT+개별 | EN |
| C4 | 750GB | ~750B | ODC-BY | 100+개 |
| Dolma v1.7 | 4.5TB | 2.3조 | ODC-BY | 주로 EN |
| FineWeb | 44TB | 15조 | ODC-BY | EN (v2: 다국어) |
| The Stack v2 | 32.1TB | 900B | 허용 라이선스 | 658개 |
| Wikipedia (EN) | ~58GB | ~2.24B | CC-BY-SA 4.0 | 338개 |
권장 시작 믹스 (7B 모델, 1조 토큰 기준)
범용 모델
- CommonCrawl (필터링): 65%
- C4: 10%
- The Stack (코드): 5%
- GitHub (코드): 5%
- Wikipedia: 5%
- Books (Gutenberg): 5%
- arXiv (논문): 3%
- StackExchange (Q&A): 2%
데이터 구성 시각화
코드 중심 모델
- The Stack: 70%
- GitHub: 15%
- StackExchange (코딩 태그): 5%
- 문서: 5%
- arXiv (CS 논문): 3%
- 일반 웹 (필터링): 2%
데이터 구성 시각화
결론 및 제언
주요 AI 연구소들의 성공 사례는 공개 라이선스 데이터만으로 최첨단 LLM을 구축할 수 있다는 사실을 명확히 보여줍니다. 성공의 핵심은 검증된 소스를 전략적으로 혼합하고, 엄격한 전처리와 중복 제거를 통해 데이터 품질을 극대화하는 데 있습니다.
즉시 시작 가능한 조합으로는 범용 웹 지식을 위해 FineWeb을, 기술 문서를 위해 Dolma 또는 SlimPajama를, 그리고 코드를 위해 The Stack v2를 혼합하는 것을 추천합니다.
2025년 법적 판례는 합법적으로 취득한 데이터로 학습하는 것이 '공정 사용'에 해당할 가능성이 높음을 시사하지만, Books3, LibGen 등 불법 복제 저장소는 심각한 법적 리스크를 초래하므로 반드시 피해야 합니다.
관련 자료 다운로드
법적 방어 가능 데이터 큐레이션 전략 가이드
AI 및 데이터 과학 분야 LLM 학습을 위한 상세한 법률 및 전략 가이드 PDF 문서를 다운로드하세요.
추후 공개될 자료 1
새로운 가이드 또는 보고서가 준비 중입니다. 곧 업데이트될 예정입니다.
추후 공개될 자료 2
새로운 가이드 또는 보고서가 준비 중입니다. 곧 업데이트될 예정입니다.
Disclaimer
본 리서치는 페블러스에서 수행하는 AADS (Agentic AI Data Scientist, 자율형 AI 데이터 과학자) 기술 개발 과제를 위해 수행되었습니다. 본문의 조사와 웹페이지 제작 과정에 인공지능이 활용되었습니다.