유럽 최고법원이 처음으로 묻는다: LLM은 무엇을 학습해도 되는가

Pebblous Data Communication Team

Executive Summary

2026년 3월 10일, 유럽사법재판소(CJEU) 대재판부가 생성형 AI와 저작권을 다룬 첫 구두심리를 여섯 시간에 걸쳐 열었다. 헝가리 언론사 Like Company가 Google의 Gemini를 상대로 낸 C-250/25 사건이다. 다투는 논점은 세 가지지만, 데이터 실무의 무게 중심은 세 번째에 있다. LLM 학습이 저작물의 복제라면, 그 복제가 EU 저작권 지침의 텍스트·데이터 마이닝(TDM) 예외로 면책되는가. 이 물음의 답이 사실상 "유럽에서 무엇이 합법적으로 학습 가능한 데이터인가"의 법적 정의를 정한다.

중요한 이유는 프레임 자체가 미국과 다르기 때문이다. 미국은 공정이용(fair use)으로 학습의 정당성을 사후에 저울질한다. 유럽의 TDM 예외는 정반대로, 기본은 허용하되 권리자가 기계가독형으로 유보(opt-out)하면 배제하는 사전 규칙이다. 그래서 유럽에서 합법성은 데이터를 긁어오는 시점에 각 저작물의 opt-out 상태로 이미 갈린다. 뉴스 사이트의 AI 학습봇 차단율은 2년 만에 58%에서 79%로 뛰었다. 제도가 이미 벌어진 관행을 이제야 따라잡고 있다.

판결이 어느 쪽으로 나든 결론은 하나로 모인다. opt-out 상태와 라이선스, 출처를 문서화하고 추적하지 못하는 데이터셋은 유럽 배포에서 리스크가 된다. 미국 소송이 데이터 신뢰 담론의 1막이었다면, 이 심리는 그것이 제도로 굳는 2막이다. 데이터 출처 추적(provenance)이 소송 방어 옵션에서 배포 요건으로 바뀌는 지점을 이 글에서 짚는다.

58% → 79%

뉴스 사이트 학습봇 차단율

2024.02 → 2026.01, opt-out 관행 폭증

11개국

opt-out 의무화 EU 회원국

선택 허용 10 · 미규정 6

3% / €15M

AI Act GPAI 벌금 상한

전 세계 매출 기준, 2026.08.02 집행

$1.5B

Bartz v Anthropic 합의

미국 최대 저작권 합의 — 사후 정산의 무게

1

유럽 최고법원의 법정에 처음 오른 질문

2026년 3월 10일 룩셈부르크의 유럽사법재판소 대법정에는 재판관 15인으로 구성된 대재판부(Grand Chamber)가 앉았다. 대재판부는 CJEU가 특별히 중대하거나 원칙적인 사건에만 소집하는 최고 심급이다. 그 앞에 여섯 시간짜리 구두변론으로 오른 사건이 Like Company v Google Ireland, C-250/25다. 유럽 최고법원이 생성형 AI와 저작권을 정면으로 심리한 최초의 자리였다.

원고 Like Company는 여러 뉴스 포털을 운영하는 헝가리 언론 퍼블리셔다. 피고는 Gemini(구 Bard)를 서비스하는 Google Ireland. 사건은 부다페스트 지방법원이 EU 법 해석을 CJEU에 물어본 선결적 부탁(preliminary reference)에서 시작됐다. 회원국 법원이 판단에 필요한 EU 법의 뜻을 최고법원에 묻고, 그 답을 받아 자국 사건에 적용하는 절차다. 즉 이 심리의 결과는 헝가리 한 곳이 아니라 EU 전역의 법원에 같은 무게로 적용된다.

세 가지 핵심 논점, 그리고 데이터가 걸린 지점

부다페스트 법원이 물은 것은 세 가지 핵심 논점이다(출처에 따라 TDM 하위질문을 나눠 넷으로 세기도 한다). 첫째는 공중전달권으로, 챗봇이 보호받는 기사와 부분적으로 같은 출력을 내놓는 것이 저작물의 공중전달에 해당하는가다. 둘째는 복제권으로, 패턴을 관찰하고 맞춰가는 LLM 학습이 EU 저작권법상 복제 행위인가다. 그리고 셋째, 만약 학습이 복제를 수반한다면 그 복제가 DSM 지침(2019/790) 제4조의 TDM 예외 안에 들어갈 수 있는가다.

이 글이 주목하는 것은 세 번째다. 앞의 두 논점이 "학습이 저작권과 부딪치는가"를 묻는다면, 세 번째는 "부딪친다면 그것을 합법으로 만들어 주는 문이 얼마나 넓은가"를 묻는다. 그 문이 바로 TDM 예외다. 문의 폭을 정하는 일은 개별 침해 판단을 넘어, 유럽 전역에서 무엇이 합법적 학습 데이터로 인정되는지의 경계를 긋는 일이 된다.

아직 판결은 없다. 3월 10일에 열린 것은 구두심리이고, 사건의 방향을 미리 읽어 주는 법무관(Advocate General)의 의견이 2026년 9월 3일로 예정돼 있다. 최종 판결은 그 이후다. 그러니 지금 확인할 수 있는 것은 "누가 이겼는가"가 아니라 "무엇이 걸려 있고 저울이 어디로 기우는가"다. 이 글은 그 저울을 읽는다.

▲ C-250/25에서 헝가리 법원이 CJEU에 물은 세 가지 논점. 논점 3이 "유럽에서 합법적 학습 데이터란 무엇인가"의 경계를 정한다. | 페블러스 원본 도식

한 가지 더. 3월 10일은 CJEU의 첫 심리가 열린 날인 동시에, 유럽의회가 생성형 AI와 저작권을 다룬 결의안을 채택한 날이기도 하다. 사법과 입법이 같은 주제를 같은 날 붙잡았다는 것은, 이 사안을 다루는 제도의 무게중심이 유럽으로 옮겨오고 있다는 상징에 가깝다.

2

'데이터 마이닝 예외'라는 유럽식 설계

TDM 예외를 이해하려면 먼저 유럽이 저작권 예외를 설계한 방식을 봐야 한다. DSM 지침은 텍스트·데이터 마이닝을 두 개의 조항으로 나눈다. 제3조는 연구기관과 문화유산기관이 과학연구 목적으로 수행하는 마이닝을 다루고, 권리자는 이를 배제할 수 없다. 제4조는 상업 목적을 포함한 모든 마이닝을 폭넓게 허용하되, 권리자가 자기 저작물을 기계가독형으로 유보하면 그 저작물은 예외에서 빠진다. LLM의 상업 학습이 이 제4조 안에 들어가느냐가 C-250/25의 핵심 쟁점이다.

항목	제3조 TDM 예외	제4조 TDM 예외
대상	연구·문화유산기관	상업 포함 모든 주체
목적	과학연구(비영리)	제한 없음
opt-out	불가(배제 못 함)	가능(기계가독형 유보)
LLM 상업 학습	원칙적으로 밖	이 사건의 핵심 쟁점

'기계가독 opt-out'은 실제로 어떻게 작동하나

제4조의 무게는 "기계가독형 유보"라는 조건에 실린다. 권리자가 자기 콘텐츠를 학습에서 빼려면, 사람에게 하듯 말로 안 된다고 적는 것으로는 부족하고 기계가 읽을 수 있는 형태로 표시해야 한다. 실무에서는 robots.txt, 메타데이터, 이용약관, 그리고 TDMRep·ai.txt·C2PA 같은 표준으로 이 유보를 표현한다. EUIPO는 이런 기술을 여덟 종 정도로 정리한다. 프랑스 상위 250개 사이트 중 57.2%가 이미 TDMRep을 구현했을 만큼, 표시 수단 자체는 빠르게 자리를 잡고 있다.

그런데 이 설계에는 실무적 균열이 여럿 있다. robots.txt는 우회할 수 있고, 오타나 오설정이 흔하다. 표준이 여러 갈래로 파편화돼 있어 어느 것을 신뢰해야 할지 모호하다. 무엇보다, 무엇이 "기계가독"으로 인정되는지의 경계가 아직 판례로 다져지는 중이다. 뒤에서 볼 함부르크 항소심은 자연어로만 쓴 유보를 기계가독이 아니라고 봤다. 표시하는 쪽과 긁어오는 쪽 모두, 어디까지가 유효한 opt-out인지를 두고 여전히 더듬거린다.

opt-out을 제도로 못 박은 정도는 회원국마다 다르다. 같은 저작물이라도 어느 나라의 법을 기준으로 보느냐에 따라 유효한 유보인지가 갈릴 수 있다는 뜻이고, 27개국을 상대로 데이터를 다루는 쪽에서는 그만큼 확인해야 할 상태값이 늘어난다. 아래는 machine-readable opt-out을 법으로 규정한 정도에 따라 EU 회원국을 나눈 것이다.

11개국

의무화

기계가독 opt-out을 법으로 요구. 독일·헝가리·아일랜드·폴란드 등.

10개국

선택적 허용

프랑스·스페인·네덜란드 등, opt-out을 인정하되 형식을 강제하지 않음.

6개국

미규정

덴마크·핀란드·이탈리아 등, 별도 규정 없이 지침 원문에 의존.

▲ DSM 지침 제4조 TDM 예외의 작동 구조. 유럽에서 합법성은 데이터를 수집하는 시점에 각 저작물의 opt-out 상태로 이미 갈린다. | 페블러스 원본 도식

여기에 하나의 규범이 더 얹힌다. EU AI Act는 Recital 105와 제53조에서, EU 시장에 배포되는 범용 AI(GPAI) 제공자가 제4조 TDM opt-out을 존중하고 학습 콘텐츠 요약을 공표하도록 요구한다. 이 의무는 학습이 어디서 이뤄졌는지를 따지지 않는다. 즉 유럽 밖에서 학습했더라도 유럽 안에서 모델을 상업화하면 유럽의 규칙이 적용된다. TDM 예외의 경계는 유럽 국경 안에 머물지 않고 역외로 뻗는다.

핵심은 시점이다. 유럽에서 합법성은 학습이 끝난 뒤 판사가 저울질하는 것이 아니라, 데이터를 긁어오는 그 순간 각 저작물의 opt-out 상태로 이미 갈린다. 그래서 "우리가 어떤 데이터의 유보 상태를 언제, 어떻게 확인했는가"라는 기록이 곧 합법성의 증거가 된다.

3

미국은 사후에 묻고, 유럽은 사전에 정한다

페블러스 독자에게 익숙한 AI 저작권 이야기는 대부분 미국 소송이다. New York Times가 OpenAI를 걸었고, 작가들이 Anthropic을 상대로 15억 달러 합의를 받아냈다. 미국의 방식은 공정이용이다. 학습을 일단 하고 나서, 문제가 되면 법원이 목적·성격, 저작물의 성질, 사용된 양, 시장에 미친 영향이라는 네 가지 요소를 종합해 정당성을 사후에 저울질한다. 결과는 소송이 끝나기 전까지 불확실하다.

유럽은 시점을 반대로 잡는다. 학습이 끝난 뒤가 아니라 데이터를 수집하는 시점에, 각 저작물의 기계가독 opt-out 상태로 합법성이 미리 갈린다. 사후 형량이 아니라 사전 규칙이다. 같은 "AI 학습과 저작권" 문제를 두고, 두 제도는 부담을 서로 다른 시점에, 서로 다른 주체에게 지운다.

항목	미국 fair use	유럽 TDM 예외
판단 시점	사후(학습 후 소송에서)	사전(데이터 수집 시점)
판단 방식	4요소 종합 형량	기본 허용 + 기계가독 opt-out
합법성 결정자	판사의 종합 판단	각 저작물의 opt-out 상태
데이터 실무 부담	사후 방어(소송 대비)	사전 증명(수집 기록)
한 줄 비유	소송으로 값을 매긴다	규칙으로 경계를 긋는다

▲ 미국 공정이용은 학습 후 소송에서 사후 형량하지만, 유럽 TDM 예외는 데이터를 긁어오는 시점에 이미 합법성이 결정된다. | 페블러스 원본 도식

미국의 "사후 정산" 세계가 얼마나 커졌는지는 숫자가 말해 준다. Copyright Alliance 집계로 미국의 AI 저작권 소송은 70건을 넘겼고, Bartz v Anthropic은 약 50만 개 저작물에 작품당 3,000달러, 총 15억 달러라는 미국 사상 최대 규모 합의로 마무리됐다. 이 3,000달러라는 숫자는 앞으로의 손해배상 협상에서 하나의 벤치마크로 굳어지는 중이다. 소송으로 값을 매기는 세계가 실제로 값을 매기기 시작했다는 뜻이다.

유럽은 그 값을 소송장 밖에서, 규칙으로 먼저 긋는다. 사후 방어는 소송이 붙은 다음에야 필요하지만, 사전 증명은 데이터를 긁는 첫날부터 필요하다. 데이터 실무의 관점에서 이 차이는 결정적이다. 무게중심이 "문제가 생기면 방어한다"에서 "긁을 때부터 증명한다"로 옮겨가기 때문이다.

4

이미 내려진 판결들이 가리키는 방향

C-250/25의 판결은 아직 없지만, 유럽의 하급심들은 이미 여러 판단을 내놓았다. 그 흐름을 시간순으로 놓고 보면 대재판부가 마주한 지형이 드러난다. 아래는 TDM 예외를 다룬 주요 유럽 판례와 이 사건의 일정이다.

2024.09 — LAION (함부르크 1심)

사진가 Kneschke가 데이터셋 구축단체 LAION을 상대로 낸 사건. 법원은 비영리·과학연구 목적의 제3조 TDM 예외를 인정해 LAION의 손을 들었다. 유럽에서 학습 데이터셋 구축의 적법성을 다룬 초기 이정표다.

2024.10 — DPG Media v HowardsHome (암스테르담)

뉴스 aggregator 사건이지만 제4조 opt-out의 원칙을 세웠다. 특정 봇만 골라 차단해서는 나머지 행위자에 대한 opt-out이 성립하지 않으며, 유보는 기계가독 방식으로 명시적이어야 유효하다고 봤다. C-250/25의 쟁점과 직결되는 판단이다.

2025.11 — GEMA v OpenAI (뮌헨)

유럽 최초로 LLM 학습 관련 저작권 침해를 인정한 판결. 학습을 복제로, 출력을 공중전달로 보았다. 핵심은 TDM 예외가 데이터 수집 단계에만 적용되고, 모델이 저작물을 통째로 암기(memorisation)해 그대로 복제하는 것은 예외 밖이라고 선을 그은 대목이다.

2025.12 — LAION 항소심 (함부르크)

항소심은 상업 목적의 제4조까지 검토하며 다시 LAION의 손을 들었지만, 그 과정에서 자연어로만 쓴 opt-out은 기계가독이 아니라 무효라는 원칙을 확립했다. 유보의 형식이 유효성을 가른다는 점을 못 박은 판결이다.

2026.03 — C-250/25 대재판부 첫 심리

2026.09 — 법무관 의견 예정

사건의 방향을 미리 읽어 주는 법무관 의견이 9월 3일 예정. 최종 판결은 그 이후다. 지금은 판결이 아니라 저울을 읽는 단계다.

▲ 유럽 하급심 세 판결이 수렴하는 두 원칙. 대재판부 C-250/25가 이 방향을 확정하거나 재정립할 것이다. | 페블러스 원본 도식

회원국은 결집하고, 위원회는 신중하다

심리에는 여러 회원국이 의견을 냈다. 확인된 것만 헝가리·덴마크·그리스·스페인·프랑스 다섯 곳으로, 이들은 대체로 "학습과 배포는 하나의 통합된 과정이며, EU 밖에서 학습했더라도 EU 안에서 상업화하면 EU 저작권법이 적용된다"는 역외 광의 해석을 지지했다. 반면 유럽위원회는 이번 부탁이 부분적으로 또는 전부 부적법할 수 있다고 지적했다. 질문이 Gemini의 기능에만 초점을 맞췄을 뿐 구체적 침해행위가 특정되지 않았다는 이유다.

그래서 하급심 흐름과 회원국 입장은 하나의 방향으로 수렴한다. 예외의 경계는 데이터 수집 단계까지이고, 암기와 상업화는 그 밖이라는 것. 물론 대재판부가 이 흐름을 그대로 확정하리라는 보장은 없다. 다만 판결이 어느 쪽으로 나든 파장은 갈린다. Like Company가 이기면 유럽 내 학습에 라이선스 취득이 사실상 디폴트가 되고, Google이 이겨도 opt-out을 존중할 의무는 남는다. AI Act 제53조가 판결과 별개로 학습 콘텐츠 요약 공표와 저작권 정책을 요구하고, 그 집행이 2026년 8월 2일부터 시작되기 때문이다.

"암기는 예외를 벗어난다"(뮌헨)와 "자연어 opt-out은 무효다"(함부르크 항소심). 두 원칙을 나란히 놓으면 결론이 보인다. 데이터를 어떻게 큐레이션했고 유보 상태를 어떻게 확인했는지가, 그 자체로 합법성을 좌우한다. 데이터 처리의 방식이 곧 법적 결과가 되는 세계다.

5

그래서 '학습 가능한 데이터'를 어떻게 증명할 것인가

지금까지의 심리와 판례를 데이터 실무의 언어로 옮기면 하나의 문장이 남는다. 유럽에서 데이터가 합법적으로 학습 가능하려면, 그 데이터의 출처와 라이선스와 opt-out 상태를 증명할 수 있어야 한다. 증명하지 못하는 데이터셋은 판결 방향과 무관하게 유럽 배포에서 리스크가 된다. 사전 규칙의 세계에서는 "우리가 이 데이터를 언제, 어떤 상태에서 가져왔는가"를 답하지 못하는 것 자체가 결함이다.

뮌헨 판결의 "암기=예외 이탈" 원칙은 여기에 두 번째 함의를 더한다. 모델이 학습 데이터를 통째로 외워 그대로 뱉으면 예외를 벗어난다면, 암기 확률을 낮추는 일이 곧 법적 리스크를 낮추는 일이 된다. 중복이 많고 저작권이 밀집한 데이터는 verbatim 복제 확률을 높인다. 그래서 중복 제거와 출처 필터링, 라이선스 태깅 같은 데이터 큐레이션이 품질 작업인 동시에 컴플라이언스 도구가 된다. 학습 데이터를 어떻게 다뤘는지가 모델 내부를 거쳐 결국 법정의 증거로까지 이어진다.

▲ 데이터 출처 추적(provenance)이 소송 발생 후 꺼내는 방어 카드에서, 배포 전에 갖춰야 하는 인프라로 이동하는 구조. | 페블러스 원본 도식

이 요구는 유럽 기업만의 것이 아니다. 제4조와 AI Act 제53조는 EU 시장에 배포되는 모델에 역외로 적용되므로, 한국이나 미국 기업도 EU에 AI 제품을 내놓는 순간 같은 질문을 받는다. GPAI 제공자는 학습 콘텐츠 요약을 공표해야 하고, 위반하면 전 세계 매출의 3% 또는 1,500만 유로 중 높은 쪽까지 벌금을 물 수 있다. 집행은 2026년 8월 2일부터다. "우리 학습 데이터의 opt-out·라이선스·출처 상태를 증명하라"는 요구가 유럽 배포의 전제 조건으로 들어온다.

미국 소송이 데이터 신뢰 담론의 1막이었다면, 이 CJEU 심리는 그것이 제도로 굳는 2막이다. 유럽에서 "AI-Ready"의 Ready에는 이제 "법적으로 배포 가능"이 포함된다. 그리고 그것을 증명하는 수단이 데이터 출처 추적, 곧 provenance다. provenance는 소송이 붙었을 때 꺼내는 방어 카드가 아니라, 배포하기 전에 갖춰야 하는 인프라로 자리를 옮기고 있다.

Editor's Note

페블러스가 다뤄온 문제 — 데이터의 출처·권리를 추적하고 품질을 진단·정제하는 일(DataClinic) — 은 이 보고서가 그리는 유럽 제도의 요구와 같은 자리에 있다. 미국 소송 대응으로 출발한 provenance 논의가 유럽의 사전 규칙 안에서 배포 요건으로 옮겨가는 흐름을, 데이터 품질 관점에서 읽고 있다.

R

참고문헌

공식 판례·정책

1.Court of Justice of the European Union. Like Company v Google Ireland Ltd., C-250/25. curia.europa.eu / InfoCuria.
2.EU IP Helpdesk. (2026). "First CJEU hearing on generative AI and copyright." European Commission.
3.Landgericht München I. (2025, November 11). GEMA v OpenAI.
4.Landgericht / Oberlandesgericht Hamburg. (2024–2025). Kneschke v LAION (310 O 227/23 · 5 U 104/24).
5.Rechtbank Amsterdam. (2024, October 30). DPG Media v HowardsHome.
6.European Union. EU AI Act, Article 53 & Recital 105; DSM Directive (EU) 2019/790, Articles 3–4.

법무법인·학술 브리핑

7.Bird & Bird. (2026). "Like Company v Google: CJEU holds first-ever hearing on generative AI and copyright." Bird & Bird.
8.Taylor Wessing. (2025). "GEMA, Getty and beyond: AI copyright litigation in the EU and the UK." Taylor Wessing.
9.European Copyright Society (CREATe). (2026). Comment on C-250/25 (Grand Chamber). Springer IIC, 10.1007/s40319-026-01717-6.
10.ODIPI. (2025). "Like Company v. Google Ireland Ltd (C-250/25)." ODIPI.

정책·데이터

11.EPRS. (2025). "AI and Copyright: The Training of General-Purpose AI." European Parliamentary Research Service (EPRS_ATA(2025)769585).
12.Press Gazette. (2026). "How many news websites block AI crawlers." Press Gazette.
13.Copyright Alliance. (2025). "Copyright and AI Lawsuit Tracker." Copyright Alliance.
14.NPR. (2025, September 5). "Anthropic reaches $1.5 billion settlement with authors." NPR.

※ C-250/25는 2026년 3월 10일 구두심리 단계로, 판결은 미확정이다(법무관 의견 2026년 9월 3일 예정). 시장 규모·차단율 등 일부 수치는 상업 리서치·업계 집계에 기반한 추정치이며 표본·정의에 따라 편차가 있다. 최초 발굴 출처: aimadetools.com.