연방이 캘리포니아 AI 학습 데이터 공개법을 3년간 멈춘다

(주)페블러스 데이터 커뮤니케이션팀

Executive Summary

2026년 6월 4일, 미국 하원의 초당파 의원들이 269페이지짜리 AI 법안 토론 초안을 내놨습니다. 이름은 Great American AI Act, 핵심 장치는 주(州)가 AI를 '어떻게 만드는지'를 규제하지 못하도록 3년간 막는 선점 조항입니다. 모델을 만드는 방식은 연방이 정하고, 그 모델을 쓰는 방식은 주가 정한다는 선 긋기입니다. 그런데 그 선 위에 캘리포니아의 한 법이 정확히 표적으로 적혀 있습니다.

그 법이 캘리포니아 AB 2013입니다. AI 개발사에 학습 데이터의 출처와 유형, 저작권 상태, 개인정보 포함 여부, 합성 데이터 사용 여부까지 요약해 공개하라고 요구한, 사실상 미국 최초의 훈련 데이터 투명성 의무입니다. 연방 법안은 이것을 '개발 단계 규제'로 분류해 3년간 동결 대상으로 명시했습니다. 겉으로는 관할권 다툼이지만, 속을 들여다보면 '모델이 어떤 데이터로 만들어졌는지 외부가 알 권리가 있는가'라는 질문이 걸려 있습니다.

데이터를 다루는 사람에게 이 법이 보내는 신호는 분명합니다. 규제의 무게중심이 모델의 행동에서 모델의 재료, 곧 학습 데이터로 옮겨가고 있다는 것입니다. 동시에 데이터를 다루는 방식도 바뀝니다. 누구나 들여다보는 '공개(disclosure)'에서 인증받은 제3자만 들여다보는 '감사(audit)'로요. 이 글은 그 전환이 데이터 거버넌스 실무에 무엇을 의미하는지 짚습니다.

주요 수치

출처: Roll Call, Tech Policy Press

네 숫자가 이 법안의 뼈대를 한눈에 보여 줍니다. 연방은 주의 AI '개발' 규제를 3년간 멈추고, 그 첫 표적으로 학습 데이터 11개 항목을 공개하라던 캘리포니아 법을 지목했습니다. 대신 연매출 5억 달러를 넘는 소수의 프론티어 개발사에만 연방 감사 의무를 지우고, 이를 어기면 하루 최대 100만 달러의 과징금을 매깁니다. 동결되는 것이 무엇이고 그 자리를 무엇이 채우는지가 이 네 숫자 안에 들어 있습니다.

3년

선점 기간

주의 AI '개발' 규제를 2029년 말까지 동결

11개

AB 2013 공개 항목

데이터 소스·저작권·개인정보·합성 여부 등 학습 데이터 요약

$5억

연방 의무 문턱

연매출 초과 + 프론티어(10²⁶ 연산) 개발사만 적용

$100만

하루 최대 과징금

연방 감사·보고 의무를 어긴 프론티어 개발사에 부과

1

연방이 3년간 무엇을 멈추나

Great American AI Act는 공화당의 제이 오버놀티(Jay Obernolte, CA)와 민주당의 로리 트레이핸(Lori Trahan, MA)이 공동으로 내놓은 초당파 토론 초안입니다. 아직 통과된 법이 아니라 의견을 받기 위해 공개한 문서이지만, 분량이 269페이지에 이를 만큼 야심이 큽니다. 프론티어 AI 거버넌스, 인력, 사이버보안, 연구·국제협력을 한 묶음으로 다룹니다.

이 초안에서 가장 논쟁적인 부분은 선점(preemption) 조항입니다. 주가 "AI 모델의 개발(development)을 구체적으로 규제하는" 법을 만들 수 없도록 3년간, 즉 2029년 말까지 막습니다. 대신 모델이 시장에 나온 뒤의 영역, 곧 배포·제공·사용을 규제하는 주 법은 그대로 둡니다. 고용·소비자 보호·반차별 같은 일반 적용법도 건드리지 않습니다. 직전에 추진됐던 5~10년짜리 광범위 선점안보다는 범위가 좁아진 셈입니다.

선점의 대가로 연방은 자체 규율을 얹습니다. 연매출 5억 달러를 넘으면서 프론티어 모델(10²⁶ 이상의 연산으로 학습한 모델)을 만드는 소수의 개발사가 대상입니다. 이들은 NIST 산하 CAISI가 인증한 독립검증기관(IVO)을 고용해 반기마다 컴플라이언스 감사를 제출하고, 중대 안전 사고는 15일 이내에, 임박한 위험은 24시간 이내에 보고해야 합니다. 어기면 하루 최대 100만 달러의 과징금이 붙습니다. 2인 스타트업이나 오픈웨이트 개발자, 독립 연구자는 이 문턱 아래에 있습니다.

미국 연방의사당 서쪽 전면 — Great American AI Act 초당파 토론 초안이 발의된 곳 — ▲ 미국 연방의사당 서쪽 전면 — Great American AI Act 초당파 초안이 공개된 곳 | Source: Wikimedia Commons (Public Domain, Architect of the Capitol)

핵심: 이 법은 '만드는 방식'은 연방이, '쓰는 방식'은 주가 정하도록 권한을 나눕니다. 문제는 그 경계선이 깔끔하게 그어지지 않는다는 데 있고, 가장 먼저 그 선 위에 올라간 것이 학습 데이터를 공개하라는 캘리포니아 법입니다.

2

표적이 된 AB 2013, 학습 데이터를 공개하라는 법

연방 법안은 선점 대상을 추상적으로만 두지 않고 구체적인 주 법을 콕 집었습니다. 그 첫머리에 캘리포니아 AB 2013이 있습니다. 함께 거론된 것은 SB 942의 콘텐츠 워터마킹 요건 일부, 그리고 캘리포니아·뉴욕·일리노이의 프론티어 AI 안전법들입니다. 그중에서도 AB 2013이 데이터 관점에서 가장 묵직합니다.

캘리포니아 주 의사당, 새크라멘토 — AB 2013 AI 학습 데이터 공개법이 통과된 곳 — ▲ 캘리포니아 주 의사당, 새크라멘토 — AI 학습 데이터 공개를 의무화한 AB 2013이 통과된 곳 | Source: Wikimedia Commons (CC BY 2.0, Tony Webster)

AB 2013은 생성형 AI를 만드는 회사에게 학습 데이터의 요약을 공개하라고 요구합니다. 막연한 한 줄 설명이 아니라, 항목이 꽤 구체적입니다. 데이터의 출처와 소유자, 데이터가 모델의 목적을 어떻게 뒷받침하는지, 데이터 포인트의 규모, 유형과 특성, 저작권·특허·상표 보호 상태, 구매·라이선스 정보, 개인정보나 소비자 집계 정보의 포함 여부, 데이터 정제·가공 내역, 수집 기간과 최초 사용 시점, 그리고 합성 데이터를 만들어 썼는지까지 밝혀야 합니다. 보안·항공·국가안보용 시스템만 예외입니다.

이 의무는 원래 2026년 1월 1일부터 효력을 가질 예정이었습니다. AI가 어떤 재료로 빚어졌는지를 외부가 들여다볼 수 있게 한, 미국에서 보기 드문 훈련 데이터 투명성 법이었습니다. 연방 초안은 이것을 '개발 단계를 규제하는 법'으로 분류해 3년 동결 목록에 올렸습니다. 학습 데이터를 공개하라는 요구가, 모델을 만드는 과정에 개입하는 규제라는 논리입니다.

왜 중요한가: AB 2013은 표면적으로 '공개 서류 한 장'을 요구하는 법처럼 보이지만, 실제로는 모델의 재료 목록을 외부에 내놓으라는 데이터 투명성 원칙의 첫 구현입니다. 연방이 이것을 가장 먼저 멈추려 한다는 사실 자체가, 지금 규제의 진짜 전선이 어디인지 알려 줍니다.

3

'개발이냐 배포냐', 진짜 쟁점은 데이터다

법안의 모든 무게는 '개발'과 '배포'를 가르는 선 하나에 실립니다. 개발은 모델을 학습하고 파인튜닝하고 테스트하고 설계하는 출시 전 단계입니다. 배포는 모델이 세상에 나온 뒤 구현하고 제공하고 쓰는 단계입니다. 연방은 앞쪽을 가져가고 뒤쪽을 주에 남겼습니다. 깔끔해 보이지만, 실무에서는 이 선이 흐릿합니다.

AI 칩과 서버 인프라 — '개발이냐 배포냐' 논쟁의 중심에 있는 AI 기술 — ▲ AI 칩과 데이터센터 인프라 — '개발이냐 배포냐'의 경계 논쟁이 다투는 기술 | Source: Wikimedia Commons (CC BY 2.0, Mike MacKenzie)

공동 발의자인 트레이핸 본인도 이 경계를 "입법 문서로 구현하기가 진정으로 어렵다"고 인정했습니다. 미래개인정보포럼(FPF)의 분석도 같은 곳을 짚습니다. 많은 주 AI 법이 개발과 배포를 명확히 나누지 않고 두 단계에 걸친 의무를 함께 부과한다는 것입니다. 학습 데이터 공개 의무가 바로 이 경계에 걸쳐 있습니다. 데이터를 모으고 정제하는 일은 개발이지만, 그 요약을 외부에 내놓는 일은 모델이 출시된 다음에 일어나는 공시 행위에 가깝기 때문입니다.

그래서 '개발이냐 배포냐'라는 법률 다툼은, 데이터를 다루는 사람의 언어로 옮기면 전혀 다른 질문이 됩니다. 학습 데이터를 누가 들여다볼 권리가 있는가. 이 데이터를 개발 단계의 비밀로 묶어 둘 것인가, 아니면 배포된 제품의 공시 항목으로 끌어낼 것인가. 경계를 어디에 긋느냐에 따라, 같은 학습 데이터가 영업비밀이 되기도 하고 공개 의무 대상이 되기도 합니다.

한 줄 요약: '개발 대 배포'는 관할권 논쟁처럼 보이지만, 본질은 훈련 데이터의 가시성을 누가 통제하느냐입니다. 그 선을 개발 쪽으로 밀면 학습 데이터는 외부 눈에서 멀어지고, 배포 쪽으로 당기면 공시 대상이 됩니다.

4

공개에서 감사로, 무게중심이 옮겨간다

연방은 주의 공개 의무를 멈추는 대신 빈자리를 감사로 채웁니다. AB 2013이 그린 그림은 단순합니다. 개발사가 학습 데이터 요약을 내놓으면 누구나 그것을 읽을 수 있습니다. 연방이 제안한 그림은 다릅니다. 인증받은 독립검증기관이 기업 안으로 들어가 반기마다 감사하고, 그 결과를 CAISI에 보고합니다. 같은 데이터를 두고도, 한쪽은 대중에게 열린 공개이고 다른 한쪽은 검증된 제3자에게만 열린 감사입니다.

오크리지 국립연구소 재규어 슈퍼컴퓨터 — 프론티어 AI 모델 학습에 필요한 대규모 연산 인프라, 연방 감사 의무 대상 — ▲ 오크리지 국립연구소 재규어 슈퍼컴퓨터(22만 4000코어) — 연매출 5억 달러 초과 + 10²⁶ 연산 프론티어 개발사에 연방 IVO 감사가 의무화된다 | Source: Wikimedia Commons (CC BY 2.0, Oak Ridge National Laboratory)

두 모델은 신뢰를 만드는 방식이 다릅니다. 공개는 정보를 바깥에 내놓아 누구든 검증하게 합니다. 감사는 자격 있는 기관에 검증을 위임하고 결과만 신뢰하게 합니다. 데이터의 깊이로 보면 감사가 더 멀리 들어갈 수 있지만, 정보가 닿는 범위로 보면 공개가 훨씬 넓습니다. 연방 안에서 학습 데이터에 대한 대중의 시야는 오히려 좁아집니다. NetChoice 같은 단체가 공격적 감사와 데이터 공유를 영업비밀 위험으로 보는 이유이기도 합니다.

데이터 거버넌스를 다루는 팀에게 이 전환은 실무 과제로 떨어집니다. 단기적으로는 캘리포니아 AB 2013 대응 부담이 선점 기간 동안 유예될 가능성이 있습니다. 그러나 그 자리를 연방 감사 체계가 대신한다면, 공개용 데이터 요약을 만드는 역량보다 감사에 견디는 데이터 추적·증빙 역량이 더 중요해집니다. 무엇을 학습에 썼는지를 외부에 보여 주는 일에서, 무엇을 썼는지를 내부적으로 입증할 수 있게 정리해 두는 일로 무게가 옮겨갑니다.

그리고 선점에는 끝이 있습니다. 3년 뒤 일몰이 오면 전선은 다시 열립니다. 그때 학습 데이터 규제가 더 강한 공개 의무로 돌아올지, 아니면 연방 감사 모델이 사실상의 표준으로 굳을지는 지금 아무도 단언하지 못합니다. 분명한 것은 하나입니다. 규제가 다투는 대상이 모델의 출력에서 모델의 재료로, 그리고 그 재료를 누가 어떤 방식으로 들여다보느냐로 이동했다는 사실입니다.

마무리: 이번 법안의 표면은 연방과 주의 권한 다툼이지만, 바닥에 깔린 것은 학습 데이터를 둘러싼 가시성의 문제입니다. 공개에서 감사로 무게중심이 옮겨가는 동안, 데이터를 다루는 쪽이 준비할 것은 잘 정돈되고 추적 가능한 학습 데이터 기록입니다. 규제가 공개를 요구하든 감사를 요구하든, 답해야 하는 질문은 같습니다. 이 모델은 어떤 데이터로 만들어졌는가.

R

참고문헌

업계·보도

1.Roll Call. (2026). "Bipartisan AI draft proposes three-year preemption of state laws." Roll Call. — 법안 발의 속보. 주의 AI '개발' 규제를 3년 선점하며 캘리포니아 AB 2013을 명시적 표적으로 삼는다.
2.Future of Privacy Forum. (2026). "Frontier AI Goes Federal: How the Great American AI Act Compares to State Laws." FPF. — 연방 법안과 주 법 비교. 많은 주 법이 '개발'과 '배포'를 명확히 분리하지 않아 선점 경계가 모호하다는 분석.
3.Tech Policy Press. (2026). "Unpacking the Great American Artificial Intelligence Act of 2026." Tech Policy Press. — 269페이지 법안 구조 상세 분석. IVO 제3자 감사, CAISI 감독, 재앙적 위험 프레임워크 해설.

공식 문서

4.California State Legislature. (2024). "AB 2013: Generative artificial intelligence — training data transparency." California Legislative Information. — 생성형 AI 개발사에 학습 데이터 요약 공개를 의무화한 법. 2026년 1월 1일 발효 예정이었다.