문장 몇 개만 바꾸면 학습 데이터 추적이 지워진다

(주)페블러스 데이터 커뮤니케이션팀

Executive Summary

데이터 권리는 단순한 전제 하나에 기대고 있습니다. 내 데이터가 어떤 모델에 들어갔다면, 그 흔적을 다시 찾아낼 수 있다는 믿음입니다. 멤버십 추론 공격(MIA)이 그 믿음을 떠받칩니다. 모델이 어떤 문장을 학습했다면 그 문장에 유독 높은 확신을 보일 테니, 그 확신을 측정하면 학습 여부를 가려낼 수 있다는 발상입니다. 그런데 학습 직전에 원문의 의미는 그대로 둔 채 문체와 구조만 바꿔 버리면, 이 전제가 통째로 무너집니다.

모델은 변형본만 기억하고 원본 질의에는 반응하지 않습니다. 한 실험에서 Llama-2가 위키피디아 문단을 서정체로 바꾼 버전만 학습하자, 원본에 대한 탐지 정확도(AUC)는 0.54까지 주저앉았습니다. 동전 던지기와 구분되지 않는 수치입니다. 이 글은 이 현상을 '데이터 세탁(data laundering)'으로 부르고, 사라진 신호를 다시 끌어올리는 역추적 기법 SDR(Synthesis Data Reversion)이 표준 탐지를 62.7%에서 75.5%로 되살리는 과정을 정리합니다.

결론은 기술 하나로 끝나지 않습니다. SDR이 신호를 되살리면 공격자는 그 탐지 경계 밖으로 변형을 옮기고, 다시 새 탐지가 따라붙습니다. 데이터 주권은 한 번 찍어 두는 표식이 아니라, 데이터가 어떻게 변형돼 흘러갔는지를 끝까지 따라가는 능력의 문제라는 뜻입니다.

주요 수치

출처: Combating Data Laundering in LLM Training (arXiv 2604.01904), DebugLM (arXiv 2603.17884)

네 숫자가 세탁과 역추적의 줄다리기를 압축합니다. 세탁이 탐지 신호를 어디까지 무너뜨리는지, 역추적이 그것을 얼마나 되살리는지, 최신 모델에서도 통하는지, 그리고 어디서부터 다시 신호를 놓치는지입니다.

0.54

세탁 후 표준 탐지 AUC

Llama-2가 서정체 변형본만 학습하면 원본 탐지가 무작위 추측(0.5) 수준으로 추락

75.5%

SDR 복구 후 탐지 AUC

위키피디아 서정체 세탁에서 표준 62.7%에 그치던 Loss AUC를 역추적으로 끌어올린 값

0.81

최신 모델 복구 AUC

DeepSeek-v3로 세탁한 데이터에서 Loss AUC 0.65 → 0.81. 강력한 최신 모델에서도 작동

23개

SDR이 훑는 문체 범주

서정체·뉴스·법률·인터뷰 등. 이 경계 밖 변형(저자원 언어 의사번역 등)은 탐지 사각으로 남음

1

문장을 바꾸면 데이터 세탁이 된다

데이터 세탁은 저작권이 있는 데이터를 모델에 먹이되, 탐지를 피하려고 의미는 보존한 채 표면만 바꾸는 행위입니다. 자금 세탁이 돈의 출처를 흐리듯, 데이터 세탁은 텍스트의 출처를 흐립니다. 핵심 도구는 거창하지 않습니다. 그냥 보조 LLM에게 "이 문단을 다른 문체로 다시 써 달라"고 부탁하면 됩니다.

백과사전 항목 하나를 떠올려 봅시다. 같은 내용을 서정적인 에세이로 옮길 수도, 딱딱한 법률 문서 투로 바꿀 수도, 인터뷰 대화체로 풀 수도 있습니다. 문장은 전혀 달라 보이지만 담긴 사실은 똑같습니다. 자연어의 이 유연성이 그대로 취약점이 됩니다. 동일한 정보가 뉴스 보도, 학술 초록, 이커머스 상품 설명, SNS 포스트 형식으로 사실상 무한히 변형될 수 있기 때문입니다.

문제의 핵심 논문 Combating Data Laundering in LLM Training은 이 변형 형식을 23개 언어 레지스터로 정리했습니다. 서정체, 뉴스, 법률문서, 인터뷰처럼 각기 다른 글쓰기 장르입니다. 데이터를 세탁하려는 쪽은 이 가운데 하나를 골라 원문을 통째로 갈아 끼우기만 하면 됩니다. 모델에 들어가는 것은 원본이 아니라 그 변형본이고, 원본은 어디에도 직접 등장하지 않습니다.

▲ 데이터 세탁이 멤버십 추론 탐지를 무력화하는 구조 | 페블러스 원본 도식 (arXiv:2604.01904 개념 재해석)

핵심: 데이터 세탁은 내용을 훔치되 형태를 바꾸는 일입니다. 의미가 보존되니 모델은 똑같이 똑똑해지지만, 표면이 달라지니 원본을 찾는 추적은 헛손질을 합니다.

2

탐지 신호가 사라지는 이유

내 데이터가 어떤 모델에 들어갔는지 확인하는 표준 도구가 멤버십 추론 공격(MIA)입니다. 원리는 직관적입니다. 모델은 학습 중에 본 문장을 더 익숙해하고, 그 문장에 더 높은 확신(낮은 손실)을 보입니다. 그래서 의심되는 원문을 모델에 던졌을 때 확신이 유난히 높으면 "이 데이터를 봤다"고 판정합니다.

세탁은 바로 이 연결고리를 끊습니다. 모델이 학습한 것은 변형본이지 원본이 아닙니다. 그러니 원본을 던져도 모델은 그것을 특별히 익숙해하지 않습니다. 학습에 쓴 적 없는 아무 문장과 반응이 구분되지 않습니다. 권리자가 가진 것은 원본뿐인데, 정작 모델 안에는 원본의 흔적이 직접 남아 있지 않은 상황입니다.

수치는 가혹합니다. Llama-2-7B에 위키피디아 텍스트를 서정체로 바꾼 버전만 학습시킨 뒤 원본 위키피디아로 탐지를 시도하면, AUC가 0.54에서 0.60 사이에 머뭅니다. AUC 0.5는 동전 던지기, 즉 아무 정보도 없는 무작위 추측입니다. 표준 MIA가 사실상 작동을 멈춘 셈입니다. 게다가 이 과정은 조용히 일어납니다. 학습 데이터는 공개되지 않고 변형 과정도 불투명하니, 권리자는 자기 데이터가 세탁됐다는 사실조차 알기 어렵습니다.

▲ 세탁 전후 탐지 정확도(AUC) 비교 — SDR이 신호를 20%p 되살린다 | 페블러스 원본 도식 (arXiv:2604.01904 수치 재해석)

왜 중요한가: 탐지는 "모델이 원본을 더 익숙해한다"는 가정 위에 서 있습니다. 세탁은 그 익숙함을 변형본 쪽으로 옮겨 버려, 원본으로 묻는 질문에는 아무 신호도 돌아오지 않게 만듭니다.

3

SDR: 사라진 신호를 역추적한다

SDR(Synthesis Data Reversion)의 발상은 단순한 뒤집기입니다. 권리자가 원본밖에 없다면, 보조 LLM을 동원해 "모델이 실제로 봤을 법한 변형본"을 거꾸로 합성해 내자는 것입니다. 원본을 그대로 묻는 대신, 모델이 익숙해할 만한 변형 형태로 다시 만들어 던지면 사라졌던 확신의 차이가 되살아납니다.

3.1두 단계 파이프라인

첫 단계는 목표 식별입니다. 23개 언어 레지스터 각각으로 원문을 변형해 앞부분을 모델에 넣고, 모델이 이어 쓸 때 보이는 확신을 측정합니다. 가장 강하게 반응하는 상위 다섯 개 레지스터를 추려, 세탁에 쓰였을 가능성이 높은 문체 후보를 좁힙니다. 둘째 단계는 세부 추론입니다. 추려진 레지스터 안에서 보조 모델이 변형본을 만들고, 목표 모델의 반응에서 공통 패턴을 뽑아내는 과정을 열 번가량 반복합니다. 탐지 성능이 더 오르지 않을 때까지 변형본을 원본 학습 데이터에 가깝게 다듬어 가는 것입니다.

▲ SDR(Synthesis Data Reversion) 두 단계 작동 구조 | 페블러스 원본 도식 (arXiv:2604.01904 Fig. 2 재해석)

3.2되살아난 수치

결과는 분명합니다. 위키피디아 서정체 세탁에서 표준 기법이 62.7%에 머물던 Loss AUC를 SDR은 75.5%로 끌어올렸고, Min-K 기준으로도 64.2%에서 73.6%로 올랐습니다. 여러 문체를 섞은 세탁(Mixed Prompt)에서는 Recall AUC가 0.559에서 0.757로 회복됐습니다. DeepSeek-v3처럼 강력한 최신 모델로 세탁한 경우에도 Loss AUC가 0.65에서 0.81로 올랐습니다. 반대로 세탁하지 않은 정상 데이터에서는 AUC가 0.5 근처에 머물러, 엉뚱한 데이터를 학습했다고 잘못 짚는 일은 드물었습니다.

SDR이 사후 탐지라면, 보완적으로 학습 시점에 손을 쓰는 접근도 있습니다. DebugLM은 모델을 학습시킬 때 데이터의 출처 태그를 함께 학습시켜, 나중에 특정 응답이 어느 데이터에서 비롯됐는지 런타임에 추적하게 합니다. 문제 데이터를 발견하면 전체 재학습 없이 표적 보정이 가능합니다. 다만 이 방법은 학습을 처음부터 그렇게 설계해야 쓸 수 있어, 이미 배포된 모델에는 적용되지 않습니다. 이미 세상에 나온 모델을 상대로는 결국 SDR 계열의 사후 탐지가 필요합니다.

한 줄 요약: SDR은 원본을 변형본 쪽으로 되돌려 던지는 방식으로 사라진 신호를 20%포인트 안팎 되살립니다. 세탁이 탐지를 끝낸 게 아니라는 증거이자, 동시에 그 복구가 어디까지인지를 보여 주는 경계선입니다.

4

군비경쟁과 데이터 주권의 현주소

SDR의 한계는 그 강점과 같은 자리에 있습니다. 23개 레지스터를 훑어 변형 문체를 좁히는 방식이라, 세탁이 그 23개 범주를 벗어나면 탐지가 흔들립니다. 예컨대 저자원 언어로 한 번 의사번역을 거친 변형은 이 분류 체계가 잘 잡아내지 못합니다. 더 결정적인 문제는 논문 스스로 인정하는 지점입니다. 공격자가 SDR의 탐지 방식을 학습하면, 그 경계 밖의 변형 전략으로 옮겨 가면 그만입니다.

그래서 이 싸움의 진짜 모양은 한 판의 승부가 아니라 군비경쟁입니다. 세탁이 신호를 지우면 SDR이 되살리고, SDR이 경계를 그으면 공격자가 그 밖으로 나가고, 다시 새 탐지가 따라붙습니다. 탐지와 회피가 서로를 밀어내며 끝없이 자리를 옮깁니다. 어느 한쪽이 영구히 이기는 구조가 아닙니다.

▲ 탐지와 회피가 끝없이 밀어내는 군비경쟁 구조 | 페블러스 원본 도식 (논문 §5 한계 논의 재해석)

제도도 이 흐름을 압박하는 방향으로 움직입니다. EU AI Act는 2025년 8월 범용 모델(GPAI) 조항이 발효되면서 학습 데이터의 출처와 구성을 공개하도록 요구하기 시작했고, 미국에서는 Anthropic·Meta·OpenAI를 겨냥한 저작권 소송이 활발합니다. 법원이 "훈련은 공정이용" 쪽으로 기우는 추세라 해도, 불법으로 수집한 데이터를 합성 변형으로 덮는 행위까지 면죄될 가능성은 낮습니다. 출처가 불명확한 데이터는 점점 리스크 자산이 되어 갑니다.

여기서 데이터를 다루는 쪽이 받아야 할 신호는 분명합니다. "나는 이 데이터를 소유한다"는 표식 한 번으로 주권이 지켜지지 않는다는 것입니다. 데이터가 어떤 모델에 어떤 형태로 변형돼 흘러 들어갔는지, 그 흐름을 끝까지 따라갈 수 있느냐가 진짜 자산입니다. 깨끗한 출처 증명은 출발점일 뿐이고, 그 뒤로 이어지는 변형의 궤적을 추적하는 능력이 데이터 주권의 실제 내용입니다.

마무리: 데이터 주권은 한 번 찍는 도장이 아니라, 변형을 따라 끝까지 가는 추적 능력입니다. SDR은 그 추적을 한 발 앞으로 밀었지만, 다음 한 발은 또 다른 변형이 기다리고 있습니다.

R

참고문헌

학술 논문

1.Li, M., Ye, Z., Li, S., & Liu, F. (2026). "Combating Data Laundering in LLM Training." arXiv:2604.01904.
2.Mo, W. J., Liu, Q., Wen, X., Zhou, W., Zhao, Z., & Chen, M. (2026). "DebugLM: Learning Traceable Training Data Provenance for LLMs." arXiv:2603.17884.
3.Ertan, M. B., Böge, E., Chen, M., Mahmood, K., & van Dijk, M. (2026). "On the Evidentiary Limits of Membership Inference for Copyright Auditing." arXiv:2601.12937.
4.Naseh, A., & Mireshghallah, N. (2025). "Synthetic Data Can Mislead Evaluations: Membership Inference as Machine Text Detection." arXiv:2501.11786.