데이터 없이 AI를 개선하는 법 — Self-Distillation과 합성데이터의 만남

Executive Summary

자기 증류(Self-Distillation)는 외부 데이터나 교사 모델 없이, AI가 자기 자신의 출력만으로 성능을 개선하는 기술이다. 2026년 4월 Apple 연구팀이 발표한 SSD(Simple Self-Distillation) 기법은 Qwen3-30B 모델의 코드 생성 pass@1을 42.4%에서 55.3%로(+12.9pp, 상대 +30.4%) 끌어올렸다. 검증기도 강화학습도 없이, "당혹스러울 정도로 단순한" 2단계 절차만으로 달성한 결과다. 특히 어려운 문제에서 +15.3pp 개선이라는 수치는 자기 증류가 단순 암기가 아닌 구조적 역량 강화임을 시사한다.

그러나 자기 증류는 "공짜 점심"이 아니다. Microsoft Research는 동일한 기법이 수학 추론 과제에서 AIME24 성능을 54.79에서 20.21로 63.1% 급락시키는 사례를 보고했다. 핵심 원인은 모델이 불확실성을 표현하는 인식론적 언어화가 95.2% 억제되면서 일반화 역량이 치명적으로 훼손된 것이다. Nature에 게재된 연구는 모델 생성 데이터로 반복 학습하면 분포의 꼬리가 비가역적으로 소멸하는 '모델 붕괴'가 불가피함을 경고한다.

자기 증류의 확산은 학습 데이터의 품질을 진단하고 분포 붕괴를 조기에 탐지하는 역할을 필수적으로 요구한다. DataClinic의 3단계 진단 체계는 자기 증류 파이프라인의 "안전장치"로 기능할 수 있으며, DataGreenhouse는 합성 데이터 생성 시 품질 기준을 적용하는 "품질 게이트" 역할을 할 수 있다. 자기 증류가 합성데이터 전략의 가장 극단적인 형태라면, 데이터 품질 진단은 그 극단에서 균형을 잡아주는 존재다.

1. 자기 증류란 무엇인가

지식 증류(Knowledge Distillation)는 "교사 모델"이 "학생 모델"을 가르치는 구조다. 대형 모델이 만든 결과물을 소형 모델이 따라 배운다. 자기 증류(Self-Distillation)는 이 구조에서 교사와 학생을 동일한 모델로 놓는다. 외부의 도움 없이, 모델이 자기 자신의 출력을 교재 삼아 스스로 나아지는 것이다.

비유하자면, 학생이 자기 시험지를 다시 풀며 공부하는 것과 같다. 처음 풀 때 틀린 답도 있고 맞은 답도 있다. 그런데 여러 번의 시험지를 모아서 공부하면, 자주 나타나는 정답 패턴이 강화되고 드물게 나타나는 오류는 희석된다. 이것이 자기 증류의 핵심 메커니즘이다.

구분	지식 증류	자기 증류
교사 모델	별도의 대형 모델	자기 자신
학습 데이터	교사가 생성한 데이터	자기 자신의 출력
외부 의존	교사 모델 접근 필요	없음
비용	교사 추론 비용 발생	자기 추론 비용만
핵심 위험	교사 품질에 의존	모델 붕괴, 오류 증폭

자기 증류가 주목받는 이유는 명확하다. 외부 레이블링 비용이 제로이고, 교사 모델에 대한 접근 권한도 필요 없다. 오픈 소스 모델이라면 누구나 시도할 수 있다. 2026년 초, 이 단순한 아이디어가 코드 생성 AI에서 놀라운 결과를 보여주기 시작했다.

2. 작동 원리 — 정밀도와 탐색의 딜레마

LLM이 코드를 생성할 때, 매 토큰마다 선택의 기로에 선다. 어떤 지점에서는 하나의 정확한 토큰만이 올바르고("잠금(Lock) 맥락"), 다른 지점에서는 여러 유효한 토큰 중 어느 것이든 괜찮다("분기(Fork) 맥락"). 문제는 LLM이 이 두 맥락을 하나의 고정된 온도(temperature)로 처리한다는 것이다.

정밀도-탐색 충돌

잠금 맥락에서는 낮은 온도가 필요하다 — 하나의 정답 토큰을 확실하게 선택해야 하므로. 분기 맥락에서는 높은 온도가 필요하다 — 다양한 유효 경로를 골고루 탐색해야 하므로. 하나의 고정 온도는 이 두 요구를 동시에 만족시킬 수 없다. SSD 논문은 이를 "정밀도-탐색 충돌(precision-exploration conflict)"이라 명명했다.

SSD 2단계 절차

샘플링: 문제 집합에 대해 모델 자체에서 여러 개의 코드 솔루션을 생성한다. 정답 검증도, 품질 필터링도 하지 않는다. 원시(raw) 출력 그대로 사용한다.
파인튜닝: 수집된 원시 출력으로 표준 지도 미세조정(SFT)을 수행한다. 8×B200 GPU에서 2,500 이터레이션, 이것이 전부다.

자기 증류가 이 충돌을 해소하는 메커니즘은 다음과 같다. 여러 번 샘플링하면, 잠금 맥락에서는 정답 토큰이 반복적으로 등장하여 확률이 강화된다. 분기 맥락에서는 다양한 유효 토큰이 골고루 등장하여 탐색 공간이 보존된다. 결과적으로, 자기 증류된 모델은 맥락에 따라 "적응적 온도"를 갖게 된다. SSD 논문은 이 효과적 온도를 T_eff ≈ 1.2로 측정했다 — 잠금 맥락에서는 더 낮게, 분기 맥락에서는 더 높게 작동하는 것이다.

Hacker News에서 585포인트, 172개 댓글을 기록한 이 논문에 대해, 한 개발자는 "수면 중 기억 강화"에 비유했다. 새로운 것을 배우는 것이 아니라, 이미 아는 것에 더 잘 접근하게 되는 것이다. 이 비유는 SSD의 핵심 실험 — 62%가 추출 가능한 코드를 포함하지 않는 "나쁜 데이터"로도 +5.7pp 향상이 관찰된 것 — 과 정확히 들어맞는다.

3. 코드 생성 AI에서의 돌파구

SSD: 단순함의 위력

Apple 연구팀의 SSD(Embarrassingly Simple Self-Distillation) 결과는 모델 규모와 난이도 양쪽에서 일관된 개선을 보여준다. Qwen3-30B 모델에서 LiveCodeBench v6 기준 pass@1이 42.4%에서 55.3%로 +12.9pp 상승했으며, 이는 상대적으로 +30.4%에 해당한다.

지표	SSD 이전	SSD 이후	변화
pass@1 (전체)	42.4%	55.3%	+12.9pp
pass@1 (Hard)	27.3%	42.6%	+15.3pp
pass@5 (Hard)	31.1%	54.1%	+23.0pp

어려운 문제일수록 효과가 크다는 점이 주목할 만하다. 쉬운 문제(Easy)에서는 이미 높은 성능을 보이므로 개선 여지가 적지만, 난이도 Hard에서는 pass@5가 +23.0pp라는 극적인 향상을 보인다. 이는 자기 증류가 단순 암기가 아니라 구조적 문제 해결 역량을 강화한다는 근거다.

SCoder: 소규모 모델의 부트스트래핑

EMNLP 2025에서 발표된 SCoder는 반복적 자기 증류(iterative self-distillation)를 통해 소규모 모델을 데이터 합성기(data synthesizer)로 부트스트래핑한다. 60K개의 자기 증류 데이터만으로 90K개 이상의 독점(proprietary) 데이터를 능가하는 결과를 보였으며, HumanEval 80.5, MBPP 81.0을 달성했다. 더 적은 데이터로 더 나은 결과를 얻은 것이다.

SCoder의 핵심 통찰은 자기 증류가 "데이터의 양"이 아니라 "데이터의 분포"를 최적화한다는 것이다. 모델이 자기 역량에 맞는 난이도의 문제를 스스로 생성하고 해결하므로, 학습에 가장 효과적인 데이터 분포가 자연스럽게 형성된다.

OPSD: 온-폴리시 자기 증류

On-Policy Self-Distillation(OPSD)은 보상 모델 없이 모델 자체의 추론 궤적을 증류하는 접근이다. 기존 오프-폴리시 증류가 고정된 교사 데이터에 의존하는 반면, OPSD는 학습 중인 모델의 현재 상태에서 지속적으로 새로운 궤적을 생성한다. 이는 자기 증류의 "실시간" 버전이라 할 수 있으며, 학습 효율성을 높이면서도 분포 이탈(distribution shift)을 줄인다.

4. 어두운 면 — 모델 붕괴, 추론 저하, 오류 증폭

자기 증류의 성공 사례 이면에는 치명적인 실패 사례가 존재한다. 동일한 기법이 과제 유형에 따라 극적으로 다른 결과를 낳는다는 사실은 이 기술의 본질적 위험을 드러낸다.

수학 추론의 붕괴

Microsoft Research(2026)는 자기 증류가 수학 추론 과제에서 AIME24 성능을 54.79에서 20.21로 63.1% 급락시키는 현상을 보고했다. 코드 생성에서는 다양한 정답 경로가 허용되지만, 수학 추론에서는 단일 정답 경로의 정밀한 추적이 필요하다. 자기 증류가 강화하는 "빈번한 패턴"이 정답 경로와 일치하지 않을 때, 성능은 향상이 아닌 파괴적 저하로 이어진다.

인식론적 언어화의 억제

MS Research가 밝힌 핵심 메커니즘은 인식론적 토큰(epistemic tokens)의 소멸이다. 자기 증류 전 평균 182.5개였던 불확실성 표현 토큰이, Solution-Guided 증류 후 8.8개로 95.2% 감소했다. 응답 길이도 13,054 토큰에서 1,873 토큰으로 85.7% 단축되었다. 모델이 "모른다"고 표현하는 능력이 소거된 것이다.

이것은 단순한 성능 저하가 아니다. 모델이 확신 없는 영역에서도 확신에 찬 답을 내놓게 되면서, 알려진 과제에서는 빠른 응답이 가능하지만 새로운 유형의 문제에서는 치명적으로 실패한다. 자기 증류는 정답 패턴만 강화하는 것이 아니라, "적절한 불확실성의 보존"이 전제되어야 안전하다.

모델 붕괴: 구조적 위험

Shumailov et al.(Nature, 2024)은 모델이 자기 생성 데이터로 반복 학습하면, 원본 분포의 꼬리(tail) — 희귀하지만 중요한 패턴 — 가 비가역적으로 소멸한다는 것을 입증했다. 합성 데이터 비율이 30~50%를 초과하면 성능과 다양성 모두 저하되기 시작한다. 500세대 반복 후에는 분포가 원래의 형태를 완전히 잃는다.

그러나 회피 전략도 존재한다. Gerstgrasser et al.은 데이터를 "교체(Replace)"하면 붕괴가 불가피하지만, "축적(Accumulate)" 전략 — 이전 세대 데이터를 보존하면서 새 데이터를 추가하는 방식 — 을 사용하면 오류에 유한 상한(finite upper bound)이 존재함을 수학적으로 증명했다. 또한 10%의 실제 데이터 혼합만으로도 붕괴 속도가 감소한다. SSD가 1회 반복에서 성공한 것은 이 위험을 우회한 것이지, 해소한 것이 아니다.

5. 데이터 품질의 역할 — 자기 증류의 생사를 가르는 변수

SSD 논문의 "62% 노이즈에서도 +5.7pp" 결과는 역설적으로 데이터 품질의 중요성을 강화한다. 노이즈가 아예 해롭지 않은 것이 아니라, 최적 조건(정상 샘플링) 대비 7.2pp의 기회비용을 발생시킨다. 데이터 품질이 완벽하지 않아도 작동하지만, 더 좋은 데이터는 더 큰 효과를 낳는다.

더 중요한 것은 "정답률"이 아니라 "분포의 형태"다. MS Research가 보여준 것처럼, 과제 범위(task coverage)의 다양성이 부족하면 자기 증류는 오히려 독이 된다. 코드 생성에서 성공하고 수학 추론에서 실패한 차이는, 전자의 학습 데이터가 다양한 정답 경로를 포함하고 후자의 데이터가 단일 경로에 집중되어 있었기 때문이다.

모델 붕괴 회피의 3가지 조건

분포 다양성 보존: 초기 학습 데이터의 꼬리 분포가 건전해야 한다. 자기 증류는 기존 분포를 강화하므로, 출발점의 다양성이 결과의 다양성을 결정한다.
실제 데이터 혼합: 합성 데이터만으로 반복 학습하면 분포가 수렴한다. 최소 10%의 실제 데이터를 혼합하면 붕괴 속도를 감소시킬 수 있다.
세대별 분포 모니터링: 반복 증류 시 매 세대의 출력 분포를 이전 세대와 비교하여, 꼬리 소멸의 조기 징후를 탐지해야 한다.

이 세 가지 조건은 자기 증류의 안전한 운용을 위한 최소 요건이다. 특히 Shumailov et al.이 경고한 "합성 데이터 30~50% 임계점"은 모든 자기 증류 파이프라인에서 모니터링해야 할 핵심 지표다. 이 임계점을 넘는 순간, 성능 향상은 멈추고 붕괴가 시작된다.

6. 산업 지형과 미래 전망

빅테크의 자기 증류 경쟁

자기 증류와 합성 데이터는 이미 빅테크의 핵심 파이프라인에 통합되어 있다. ByteDance의 Seed-Coder는 6조 토큰 규모의 코드 데이터를 모델 자체가 큐레이션하고, Alibaba의 Qwen2.5-Coder는 합성 데이터를 5대 학습 데이터 유형의 하나로 명시적으로 포함한다. GitHub Copilot은 2026년 4월부터 사용자 상호작용 데이터를 모델 학습에 활용하기 시작했으며, Fortune 100 기업의 90%가 Copilot을 채택하고 있다.

그러나 양적 확장의 이면에는 품질 문제가 잠재한다. GitClear의 2.11억 변경 라인 분석에 따르면, AI 생성 코드의 클론(copy-paste) 비율이 4배 증가하고, 2주 내 수정이 필요한 비율이 84% 높으며, 미검토 코드의 버그 밀도가 23% 높다. AI 코딩 생산성이 55% 향상되었다는 GitHub 연구(4,800명 대상)의 이면이다. 품질 검증 없는 자기 증류의 위험이 실제로 발현되고 있는 셈이다.

합성데이터 시장의 폭발적 성장

복수 시장조사 기관의 전망을 종합하면, 합성데이터 생성 시장은 2030년까지 $1.8B~$3.7B 규모로 성장할 것으로 예상된다(CAGR 35~46%). Gartner는 2030년 AI 학습 이미지와 비디오의 95% 이상이 합성 데이터가 될 것으로 전망한다. 자기 증류는 이 합성데이터 생태계의 가장 극단적인 형태 — 모델이 스스로 데이터를 만들고 소비하는 완전한 폐쇄 루프 — 로서, 시장 성장의 핵심 동력이자 동시에 최대의 품질 위험이다.

규제 환경의 변화

규제 환경도 자기 증류의 투명성을 요구하기 시작했다. 캘리포니아 AB 2013(2026년 1월 1일 발효)은 생성 AI 개발자에게 "합성 데이터 사용 여부 및 기능적 목적"의 웹 공개를 의무화했으며, EU AI Act 제53조는 학습 콘텐츠의 상세 요약 공개를 요구한다. 자기 증류로 생성된 학습 데이터도 이 규정의 적용 대상이다.

한국에서도 K-AI 프로젝트(총 328억원)가 진행 중이며, 크라우드웍스 등 합성 데이터 전문 기업이 성장하고 있다. 데이터 품질과 투명성에 대한 제도적 요구가 글로벌하게 강화되고 있으며, 자기 증류 파이프라인의 품질 관리와 문서화는 선택이 아닌 필수가 되어가고 있다.

7. 페블러스가 이 연구에 주목하는 이유

자기 증류는 합성데이터 전략의 가장 극단적인 형태다. 모델이 스스로 만든 데이터로 자신을 개선하는 완전한 폐쇄 루프. 이 루프의 안전성은 전적으로 초기 데이터의 품질과 합성 과정에서의 분포 모니터링에 달려 있다. 그리고 이것이 페블러스의 AI-Ready Data 비전과 직결되는 지점이다.

자기 증류 루프의 3가지 위험

자기 증류 파이프라인에는 세 가지 구조적 위험이 존재한다. 첫째, 모델 붕괴 — 반복 증류 시 분포의 꼬리가 소멸하여 다양성이 영구적으로 훼손된다. 둘째, 오류 증폭 — 초기 데이터의 편향이 반복될수록 기하급수적으로 증폭된다. 셋째, 분포 편향 — 합성 데이터가 특정 패턴에 과도하게 집중되어 일반화 역량을 잃는다. MS Research가 보고한 AIME24 -63.1% 급락은 이 세 가지 위험이 동시에 발현된 사례다.

DataClinic: 루프의 입구 안전장치

DataClinic의 3단계 진단 체계(L1/L2/L3)는 자기 증류 루프의 "입구 안전장치"로 기능할 수 있다. L1은 클래스 분포 균형을 점검하고, L2는 특징 공간 커버리지를 분석하며, L3는 도메인 특화 품질 기준을 적용한다. 이 진단이 자기 증류의 시작점에서 수행되면, Shumailov et al.이 경고한 "합성 데이터 30~50% 임계점"을 사전에 관리할 수 있다.

DataGreenhouse: 합성 데이터의 품질 게이트

DataGreenhouse는 합성 데이터 생성 파이프라인에서 품질 기준 — 분포 다양성, 꼬리 보존, 노이즈 비율 — 을 적용하는 "품질 게이트"다. 자기 증류가 생성한 합성 데이터가 다음 학습 사이클에 투입되기 전에, 분포 건전성을 검증하는 중간 관문 역할을 한다.

자기 증류 파이프라인에서의 4단계 포지셔닝

입구(Entry): DataClinic으로 초기 학습 데이터의 분포 건전성, 클래스 균형, 꼬리 보존 여부 진단
중간(Gate): DataGreenhouse로 합성 데이터 생성 시 품질 기준 적용
출구(Exit): 자기 증류 후 모델 출력의 분포 변화 모니터링 — 붕괴 징후 조기 탐지
피드백(Loop): 반복 증류 시 세대별 분포 비교를 통한 붕괴 시점 예측 및 경보

이 포지셔닝의 차별점은 DataClinic이 단순한 데이터 라벨링 품질이 아닌 "분포 수준의 건전성"을 진단한다는 점이다. 자기 증류의 핵심 위험이 분포 붕괴인 만큼, 분포 진단 역량이 곧 자기 증류 안전장치의 핵심 역량이다. 자기 증류 루프가 산업 전반으로 확산될수록, 이 안전장치의 가치는 비례하여 커질 것이다.

자주 묻는 질문

자기 증류와 지식 증류는 어떻게 다른가요?

지식 증류는 별도의 "교사 모델"이 "학생 모델"을 가르치는 반면, 자기 증류는 교사와 학생이 같은 모델이다. 외부 의존 없이 자기 출력만으로 학습하므로, 추가 비용이나 접근 권한 없이 누구나 시도할 수 있다.

SSD는 구체적으로 어떤 과정인가요?

(1) 모델 자체에서 코드 솔루션을 샘플링하고, (2) 그 원시 출력으로 표준 파인튜닝(SFT)을 수행하는 2단계 프로세스다. 정답 검증도, 품질 필터링도, 강화학습도 없다. "당혹스러울 정도로 단순한" 방법이다.

왜 검증 없이도 성능이 향상되나요?

"정밀도-탐색 충돌" 해소 때문이다. 고정 온도로는 정밀한 선택이 필요한 맥락과 다양한 탐색이 필요한 맥락을 동시에 만족시킬 수 없는데, 자기 증류가 맥락별로 토큰 분포를 재형성한다. 새로운 것을 배우는 것이 아니라, 이미 아는 것에 더 잘 접근하게 되는 것이다.

자기 증류가 항상 성능을 향상시키나요?

아니다. Microsoft Research는 수학 추론에서 AIME24 성능이 63.1% 하락한 사례를 보고했다. 코드 생성처럼 다양한 정답이 허용되는 과제에서 효과적이지만, 정밀 추론처럼 단일 정답 경로가 필요한 과제에서는 역효과가 날 수 있다.

모델 붕괴란 무엇이며 자기 증류와 무슨 관계인가요?

모델이 자기 생성 데이터로 반복 학습하면 원본 분포의 꼬리(희귀 패턴)가 영구적으로 소멸하는 현상이다. 합성 데이터 비율이 30~50%를 초과하면 저하가 시작된다. SSD의 1회 성공이 반복 시에도 보장되지 않는 이유다.

합성 데이터 시장은 얼마나 성장하고 있나요?

복수 기관 전망 종합 시 2030년 $1.8B~$3.7B(CAGR 35~46%). Gartner는 2030년 AI 학습 이미지/비디오의 95% 이상이 합성 데이터가 될 것으로 전망한다.

기업이 자기 증류를 도입할 때 가장 주의해야 할 점은?

(1) 과제 특성에 맞는 적용 — 코드 생성에서는 효과적이지만 추론/판단 과제에서는 역효과 위험, (2) 반복 횟수 제한 또는 실제 데이터 혼합, (3) 세대별 분포 모니터링, (4) 캘리포니아 AB 2013 등 합성 데이터 사용 문서화 규제 준수가 핵심이다.

DataClinic이 자기 증류 파이프라인에서 어떤 역할을 할 수 있나요?

초기 학습 데이터의 분포 건전성 진단(L1: 클래스 분포, L2: 특징 공간, L3: 도메인 특화), 합성 데이터의 분포 편향 탐지, 반복 증류 시 붕괴 조기 경보 등 자기 증류 루프의 "입구 안전장치" 역할이다.

AI 생성 코드의 품질 문제는 실제로 얼마나 심각한가요?

GitClear의 2.11억 변경 라인 분석에 따르면 클론 코드 비율이 4배 증가하고, 2주 내 수정 비율이 84% 높으며, 미검토 코드의 버그 밀도가 23% 높다. AI 코딩 생산성 55% 향상의 이면이다.

자기 증류의 규제적 함의는 무엇인가요?

캘리포니아 AB 2013은 합성 데이터 사용 여부의 웹 공개를 의무화했고, EU AI Act 제53조는 학습 콘텐츠 요약 공개를 요구한다. 자기 증류 데이터도 "합성 데이터"에 해당하므로 투명성 요건의 적용 대상이다.

참고문헌

Zhang, R. et al. (2026). "Embarrassingly Simple Self-Distillation Improves Code Generation." arXiv:2604.01193
Kim, J. et al. (2026). "Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?" arXiv:2603.24472
Shumailov, I. et al. (2024). "AI Models Collapse When Trained on Recursively Generated Data." Nature 631, 755–759.
Gerstgrasser, M. et al. (2024). "Is Model Collapse Inevitable?" arXiv:2404.01413
Chen, Z. et al. (2024). "Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models (SPIN)." arXiv:2401.01335
Zelikman, E. et al. (2022). "STaR: Bootstrapping Reasoning With Reasoning." arXiv:2203.14465
Zhang et al. (2025). "SCoder: Iterative Self-Distillation for Bootstrapping Small-Scale Data Synthesizers." EMNLP 2025
Hacker News Discussion (585pts, 172 comments). news.ycombinator.com
ByteDance. "Seed-Coder: Let the Code Model Curate Data for Itself."
Alibaba. Qwen2.5-Coder Technical Report.
GitHub Copilot Policy Change (effective 2026.04.24).
GitClear (2024). "Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality." 211M lines analyzed.
Bloomberg (2024.05). "Microsoft, Google and Meta Bet on Fake Data to Train AI Models."
Mordor Intelligence — Synthetic Data Generation Market ($5.1B 2025, CAGR 39.4%).
Grand View Research — Synthetic Data Generation Market ($1.79B 2030, CAGR 35.3%).
MarketsandMarkets — Synthetic Data Generation Market ($2.1B 2028, CAGR 45.7%).
Gartner — AI Training Data Outlook (95%+ synthetic images/video by 2030).
McKinsey — AI Coding Productivity Study (4,500 developers, 46% reduction in routine coding).
GitHub — Copilot Productivity Study (4,800 developers, 55% improvement).
California AB 2013 (effective 2026.01.01) — Synthetic Data Disclosure Mandate.
EU AI Act Article 53(1)(d) — Training Content Summary Disclosure.