Executive Summary
2026년 9월 11일, 개정 개인정보보호법이 시행됩니다. 헤드라인은 과징금 상한이 관련 매출의 일부에서 전체 매출의 10%로 올라간 '제재 강화'이지만, 페블러스 독자가 주목해야 할 진짜 변화는 다른 곳에 있습니다. 데이터 사고의 책임이 보안 실무자의 책상을 떠나 대표이사와 이사회의 의제로 올라갔다는 점, 그리고 법이 처음으로 'AI 시대에 데이터를 합법적으로 쓰는 길'을 구체적인 절차로 제시하기 시작했다는 점입니다.
개정의 무게중심은 벌을 키우는 데 있지 않습니다. 가명정보를 안전하게 분석할 공공 인프라, AI 학습을 위한 가명처리 특례, 생성형 AI를 서비스형·기성·자체개발로 나눠 단계별로 위험을 관리하는 지침까지 — 규제는 '쓰지 마라'가 아니라 '이렇게 쓰면 합법'이라는 경로를 깔고 있습니다. 그 대가로 기업에는 데이터의 출처와 처리 이력을 증명할 책임이 생깁니다.
이 리포트는 9월 시행을 앞둔 개정법이 데이터 거버넌스를 CPO 실무에서 CEO 의제로 격상시키는 과정을 따라가며, 그 변화가 '데이터 품질'의 정의 자체를 어떻게 바꾸는지 짚습니다. 결론을 미리 말하면, AI-Ready 데이터는 이제 품질·구조만의 문제가 아니라 그것을 쓸 법적 근거와 추적가능성까지 갖춘 상태를 뜻하게 됐습니다.
3% → 10%
과징금 상한
전체 매출 기준. GDPR 4%·EU AI Act 7%를 넘어선 글로벌 최고 수준
6,246억 원
역대 최대 과징금
쿠팡 개인정보 유출 — 3,755만 명 영향, 강화된 제재의 예고편
1,000만 명
징벌 과징금 발동 임계
피해 규모·3년 내 반복·시정명령 불이행이 가중 사유
70%
전담 인력 1명 이하 조직
규제는 이사회로 올라갔지만 실무 준비는 여전히 비어 있다
책임이 옮겨간 자리
그동안 데이터 유출 사고가 터지면 가장 먼저 호출되는 사람은 보안팀장이나 개인정보 보호책임자(CPO)였습니다. 책임의 무게는 실무 라인에 머물렀고, 경영진은 사과문을 읽는 역할에 가까웠습니다. 9월 시행되는 개정 개인정보보호법은 이 구도를 바꿉니다. 안전조치 의무의 최종 책임을 조직의 대표와 경영진 차원으로 끌어올려, 데이터 사고를 더 이상 '담당자의 실수'가 아니라 '거버넌스의 실패'로 다루게 합니다(보안뉴스).
변화의 신호는 제재의 설계에서 읽힙니다. 과징금이 위반과 직접 관련된 매출이 아니라 '전체 매출'을 기준으로 산정되기 시작하면, 그 숫자는 더 이상 한 부서의 예산 항목으로 흡수되지 않습니다. 회사 전체의 손익에 직접 꽂히는 금액은 자연히 이사회의 안건이 됩니다. 데이터 거버넌스가 '비용 센터의 리스크'에서 '기업 가치의 변수'로 재분류되는 순간입니다.
핵심은 처벌의 크기가 아니라 책임의 좌표가 바뀌었다는 데 있습니다. 데이터를 어떻게 수집·보관·활용하는지가 대표이사가 답해야 할 질문이 되면, 데이터 거버넌스는 연말 점검 항목이 아니라 상시 경영 의제가 됩니다.
이 격상은 글로벌 흐름과도 맞물립니다. GDPR이 데이터 보호책임자(DPO)의 독립성과 직접 보고라인을 요구하고, EU AI Act가 고위험 AI 시스템의 거버넌스를 경영 책임으로 명시한 것과 같은 방향입니다. 한국의 개정법은 여기에 '전체 매출 10%'라는 가장 강한 금전적 신호를 더해, 경영진이 데이터 문제를 외면할 수 없게 만들었습니다.
왜 3%가 10%로 뛰었나
과징금 상한이 3.3배로 뛴 데에는 배경이 있습니다. 강화 이전 체제에서 실제로 부과된 과징금을 유출된 개인정보 건수로 나누면 1건당 약 1,019원에 불과했습니다. 한 사람의 이름·연락처·결제 이력이 1,019원짜리 위험으로 계산되는 구조에서는, 사전 투자보다 사후 벌금을 감수하는 편이 합리적인 선택이 되어버립니다. 그런데 같은 기간 유출된 개인정보 규모는 13배 가까이 폭증했습니다. 위험 한 건의 값은 1,019원에 묶여 있는데 그 위험의 총량은 폭증하는 구조에서, 제재가 억지력을 잃었다는 진단이 '왜 10%인가'의 정량적 근거가 됩니다.
강화된 제재의 예고편은 이미 등장했습니다. 개인정보보호위원회가 쿠팡에 부과한 6,246억 원은 역대 최대 규모로, 3,755만 명의 정보가 영향을 받은 사건이었습니다. 위원회는 그 원인을 화려한 해킹이 아니라 '기본적인 안전관리 체계의 미비'로 규정했습니다. 강화된 법에서는 이런 규모의 제재가 예외가 아니라 기준선이 됩니다.
다만 10%가 자동으로 적용되는 것은 아닙니다. 징벌적 수준의 과징금은 일정한 가중 사유가 겹칠 때 발동되도록 설계됐습니다. 피해 규모가 1,000만 명을 넘거나, 3년 내 위반이 반복되거나, 시정명령을 이행하지 않은 경우가 대표적입니다. 반대로 사전에 안전조치에 투자했음을 입증하면 최대 40%까지 과징금을 감경받을 수 있습니다. 제재 설계 자체가 '벌'이 아니라 '투자를 유도하는 인센티브'로 작동하도록 짜여 있다는 뜻입니다.
글로벌 비교 — 한국이 가장 높다
개정법의 상한은 국제 기준으로도 가장 강한 축에 속합니다. 아래 표는 주요 규제의 과징금 상한을 전체 매출 기준으로 비교한 것입니다. 한국의 10%는 EU AI Act의 7%, GDPR의 4%를 모두 넘어섭니다.
| 규제 | 과징금 상한 (전체 매출 기준) | 발동 조건의 성격 |
|---|---|---|
| 한국 개정 개인정보보호법 | 10% | 피해 규모·반복·시정 불이행 시 가중 |
| EU AI Act | 7% | 금지된 AI 행위 위반 |
| GDPR | 4% | 중대한 처리 원칙 위반 |
상한만 보면 한국이 가장 공격적입니다. 그러나 발동 조건을 함께 읽으면 그림이 달라집니다. 세 규제 모두 '최악의 경우'에 도달하는 경로를 좁게 설계했고, 사전 투자와 협조를 감경 사유로 인정합니다. 규제의 메시지는 일관됩니다 — 가장 무서운 숫자는 회피할 수 있고, 그 회피의 비용이 곧 데이터 거버넌스 투자라는 것입니다.
가명정보로 AI를 합법적으로 학습하기
제재가 헤드라인을 가져갔지만, 데이터 실무자에게 더 중요한 조문은 가명정보 처리 특례입니다. 개인정보보호법 제28조의2는 통계 작성, 과학적 연구, 공익적 기록 보존을 위해서는 정보주체의 동의 없이도 가명정보를 처리할 수 있도록 허용합니다. 그리고 'AI 모델 학습'은 이 가운데 '과학적 연구'의 경로로 적법성을 확보할 수 있다는 해석이 자리를 잡아가고 있습니다. 법이 AI 학습을 위한 합법적 데이터 통로를 명시적으로 열어둔 셈입니다.
그러나 이 통로에는 분명한 경계가 있습니다. 가명정보 특례는 '연구·분석' 단계에 적용되며, 그 결과물을 실제 서비스 운영에 투입해 특정 개인을 다시 식별하거나 차별적으로 대우하는 단계에는 그대로 적용되지 않습니다. 학습은 합법이어도 운영은 별개의 적법 근거가 필요하다는 뜻입니다. 이 경계를 무시한 대표적 사례가 과거 한 챗봇 서비스의 개인정보 논란이었고, 그 교훈이 지금의 단계별 접근에 반영돼 있습니다.
같은 가명 데이터라도 '연구를 위해 분석한다'와 '서비스로 운영한다'는 법적으로 다른 행위입니다. AI 파이프라인을 설계할 때 학습 단계와 서비스 단계의 적법 근거를 분리해 문서화해 두지 않으면, 합법적으로 시작한 프로젝트가 배포 시점에 위법으로 뒤집힐 수 있습니다.
여기서 데이터 품질의 문제가 곧바로 따라옵니다. 가명처리가 충분치 않아 재식별이 가능하다면 특례의 보호는 사라집니다. 어떤 항목을 어떤 방식으로 가명·익명 처리했는지, 결합 시 재식별 위험은 얼마인지를 데이터 자체가 증명할 수 있어야 합니다. '합법적으로 쓸 수 있는 데이터'와 '품질이 검증된 데이터'는 점점 같은 말이 되어 갑니다.
어떤 LLM을 쓰느냐가 리스크를 가른다
개인정보보호위원회는 법 시행에 앞서 「생성형 AI 개인정보 처리 안내서」를 통해, 기업이 LLM을 도입하는 방식에 따라 책임의 무게가 달라진다는 점을 정리했습니다. 같은 '생성형 AI 도입'이라도 외부 API를 그대로 가져다 쓰는 것과 자체 모델을 직접 학습시키는 것은 위험의 성격이 전혀 다릅니다. 안내서는 이를 세 가지 도입 유형으로 나눕니다.
| 도입 유형 | 설명 | 핵심 리스크 |
|---|---|---|
| 서비스형 (API 호출) | 외부 사업자의 생성형 AI API를 그대로 이용 | 입력 프롬프트로 개인정보가 외부에 전송·학습될 위험, 위탁·국외이전 관리 |
| 기성 모델 활용 | 공개·상용 모델을 가져와 자사 데이터로 미세조정·RAG 결합 | 미세조정 데이터의 적법 근거, 모델 출력에 개인정보가 재현될 위험 |
| 자체 개발 | 기업이 직접 모델을 사전학습부터 구축 | 학습 데이터셋 전체의 수집 적법성·가명처리·프로비넌스 입증 책임 |
안내서의 구조는 단순한 분류에 그치지 않습니다. 각 유형을 데이터 수집·학습·서비스 제공·파기로 이어지는 수명주기 단계와 교차시키고, 같은 단계라도 '모델 개발자'인지 '모델 이용자'인지에 따라 의무를 다르게 부과합니다. 결과적으로 한 기업이 답해야 할 질문은 '우리가 생성형 AI를 쓰는가'가 아니라 '우리가 어떤 유형으로, 어느 단계에서, 어떤 역할로 쓰는가'로 구체화됩니다.
실무적으로 이것은 의사결정 체크리스트가 됩니다. 서비스형을 쓴다면 프롬프트에 개인정보가 흘러 들어가지 않도록 입력 필터링과 위탁 계약을 점검해야 하고, 자체 개발을 한다면 학습에 쓴 모든 데이터의 출처와 가명처리 이력을 재구성할 수 있어야 합니다. 도입 방식을 고르는 순간 이미 컴플라이언스 부담의 크기가 결정되는 셈입니다.
국가가 깔아주는 인프라
개정의 또 다른 축은 규제가 아니라 지원입니다. 가명정보를 안전하게 결합·분석하려면 데이터를 외부로 반출하지 않고도 처리할 수 있는 통제된 환경이 필요합니다. 개인정보보호위원회는 이를 위한 공공 분석 인프라에 투자하고 있으며, 클라우드 기반 가명정보 활용 환경(이노베이션존)에 약 29억 원, 가명정보 결합·기술을 지원하는 기술분석 기능에 약 20억 원이 배정됐습니다. 데이터를 '안전하게 쓰는 비용'의 일부를 국가가 분담하기 시작한 것입니다.
전체 그림은 더 큽니다. 2026년 개인정보보호위원회 예산은 약 729억 원으로 전년보다 9.1% 늘었고, 이 가운데 AI 관련 연구개발에 약 133억 원이 배정됐습니다. 안전한 AI 활용 기술, 글로벌 표준 대응, 전문인력 양성, 신뢰할 수 있는 AI를 위한 세부 사업이 그 안에 담겨 있습니다. 규제를 강화하는 한 손과 합법적 활용을 돕는 다른 손이 함께 움직이는 구조입니다.
개정법의 설계 철학은 '쓰지 마라'가 아니라 '안전하게 쓰는 길을 만들어 줄 테니 그 길로 다녀라'에 가깝습니다. 공공 인프라는 그 길의 포장도로입니다. 합법적 데이터 활용의 표준 경로가 생긴다는 것은, 그 경로에 데이터를 올릴 준비가 된 기업과 그렇지 못한 기업의 격차가 곧 경쟁력의 격차가 된다는 뜻이기도 합니다.
그런데 준비 상태는 아직 규제의 속도를 따라가지 못합니다. 조사에 따르면 개인정보보호 전담 인력이 한 명 이하인 조직이 약 70%에 이릅니다. 책임은 이사회로 올라갔지만, 그 책임을 실제로 이행할 손은 여전히 비어 있는 셈입니다. 이 격차가 향후 몇 년간 데이터 거버넌스 시장이 성장하는 가장 직접적인 동력입니다. 포레스터는 AI 거버넌스 솔루션 시장이 2030년까지 연평균 30%를 넘게 성장해 158억 달러 규모에 이를 것으로 전망합니다.
추적가능성은 사후가 아니라 설계다
규제가 '합법적으로 학습한 데이터'를 요구하면, 곧바로 따라오는 질문이 있습니다. 사후에 그것을 어떻게 증명하는가? 직관적으로는 학습이 끝난 모델을 분석해 특정 데이터가 쓰였는지 역추적하면 될 것 같습니다. 멤버십 추론 공격(Membership Inference Attack)이 바로 그런 기법으로, 어떤 데이터가 모델 학습에 포함됐는지를 통계적으로 추정합니다.
그러나 학계의 결론은 냉정합니다. 멤버십 추론은 특정 데이터가 학습에 쓰였음을 법적 증명 수준으로 확정하지 못합니다. 정확도는 데이터 분포와 모델 구조에 따라 크게 흔들리고, 위양성과 위음성을 모두 안고 있습니다. 다시 말해, 모델을 열어 사후에 적법성을 입증하려는 시도는 신뢰할 수 있는 포렌식이 되지 못합니다. 이것은 단순한 기술적 한계가 아니라 거버넌스 설계의 방향을 결정짓는 사실입니다.
사후에 모델을 뜯어 적법성을 증명할 수 없다면, 적법성은 데이터가 흘러 들어오는 입구에서 설계되어야 합니다. 출처·동의·가명처리·이용 범위를 데이터에 메타데이터로 동반시키는 'by-design 추적가능성'이 유일하게 신뢰할 수 있는 경로입니다.
이 전환의 의미는 큽니다. 추적가능성을 '사고가 난 뒤에 조사하는 능력'으로 보면 로그와 감사가 핵심이 됩니다. 그러나 '데이터를 쓸 때마다 그 자격을 증명하는 능력'으로 보면, 프로비넌스는 데이터 파이프라인의 최상류에서 설계되어야 할 구조가 됩니다. 개정법이 요구하는 입증 책임은 후자를 가리킵니다. 합법성은 검사받는 속성이 아니라 데이터가 태어날 때부터 지니고 있어야 하는 속성이 됩니다.
데이터 품질에 '적법성'이 들어오다
지금까지의 흐름은 한 문장으로 모입니다. 개정법은 '데이터 품질'의 정의에 '적법성'을 끼워 넣습니다. 오랫동안 데이터 품질은 정확성, 완전성, 일관성, 적시성, 그리고 구조적 정합성 같은 다섯 축으로 이야기돼 왔습니다. 9월 이후 한국에서 AI에 쓰일 데이터에는 여섯 번째 축이 더해집니다. 그 데이터를 쓸 법적 근거가 있는가, 그리고 그것을 증명할 수 있는가.
이 여섯 번째 축은 앞의 다섯과 성격이 다릅니다. 정확성이나 일관성은 데이터 내부의 속성이지만, 적법성은 데이터가 세상과 맺는 관계 — 누구에게서, 어떤 동의로, 어떤 범위 안에서 왔는가 — 에 관한 속성입니다. 그래서 적법성은 사후 측정이 어렵고, 입구에서 기록되지 않으면 복원할 수 없습니다. 추적가능성이 데이터 품질의 전제 조건이 되는 이유입니다.
실무적으로 이것은 '데이터가 준비됐다(AI-Ready)'의 기준을 다시 쓰게 만듭니다. 모델에 넣기 좋게 정제·구조화된 데이터라도, 출처와 동의와 가명처리 이력을 증명하지 못하면 9월 이후의 한국에서는 AI-Ready가 아닙니다. 잘 정돈됐지만 자격을 증명할 수 없는 데이터는 자산이 아니라 잠재 부채입니다. 규제가 데이터 품질의 정의를 바꾸면, 데이터를 다루는 기업의 우선순위도 바뀝니다.
9월 이전에 점검할 것
시행까지 남은 시간은 가을 전략 수립 사이클과 겹칩니다. 데이터 책임자가 지금 확인해야 할 질문은 다음과 같습니다.
- 우리가 AI 학습에 쓰는 데이터의 적법 근거(동의·가명처리 특례·계약)를 데이터마다 문서로 제시할 수 있는가?
- 학습 단계와 서비스 운영 단계의 적법 근거가 분리되어 기록돼 있는가?
- 생성형 AI 도입 유형(서비스형·기성·자체개발)별로 책임 범위를 정의했는가?
- 데이터의 출처·동의·이용 범위가 입구에서 메타데이터로 동반되고 있는가, 아니면 사후 추정에 의존하는가?
- 전체 매출 기준 과징금이 현실이 될 때, 그 리스크가 이사회 안건으로 보고되고 있는가?
이 다섯 질문에 자신 있게 답할 수 있다면, 9월의 변화는 위협이 아니라 기회입니다. 합법적 데이터 활용의 표준 경로가 생기는 순간, 그 길을 먼저 포장해 둔 기업이 가장 빠르게 달릴 수 있기 때문입니다.
참고문헌
정책·보도
- 1.보안뉴스. "개정 개인정보보호법 9월 시행 — 데이터 사고 책임과 과징금 강화." boannews.com
- 2.법률신문. "개정 개인정보보호법과 AI 데이터 활용 — 가명처리 특례와 기업 대응." lawtimes.co.kr
- 3.바이라인네트워크. "생성형 AI 시대의 개인정보 — 도입 유형별 리스크와 거버넌스." byline.network
- 4.개인정보보호위원회. 「생성형 AI 개인정보 처리 안내서」 (2025). 서비스형·기성·자체개발 3분류 및 수명주기 단계별 의무.
- 5.개인정보보호법 제28조의2 (가명정보의 처리 등에 관한 특례) 및 제64조의2 (과징금 산정).
학술
- 6.Shokri, R., Stronati, M., Song, C., & Shmatikov, V. (2017). "Membership Inference Attacks Against Machine Learning Models." IEEE S&P 2017. arXiv:1610.05820
- 7.Carlini, N., Chien, S., Nasr, M., Song, S., Terzis, A., & Tramèr, F. (2022). "Membership Inference Attacks From First Principles." IEEE S&P 2022. arXiv:2112.03570
- 8.Longpre, S., Mahari, R., Chen, A., et al. (2023). "The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI." NeurIPS 2024 D&B Track. arXiv:2310.16787
- 9.Dwork, C., & Roth, A. (2014). "The Algorithmic Foundations of Differential Privacy." Foundations and Trends in Theoretical Computer Science, 9(3–4).
통계·비교 규제
- 10.개인정보보호위원회. 쿠팡 개인정보 유출 사건 과징금 의결 (6,246억 원, 3,755만 명 영향).
- 11.European Union. Regulation (EU) 2024/1689 (AI Act) — 과징금 상한 전체 매출 7%.
- 12.European Union. General Data Protection Regulation (GDPR), Art. 83 — 과징금 상한 전체 매출 4%.
- 13.Forrester Research. "AI Governance Solutions Market Forecast, 2024–2030." Forrester Research (2024) — 2030년 158억 달러 규모, CAGR 30%+ 전망.