AI가 학습한 음악 2,120만 곡, 출처를 밝힌 건 언론사였다

(주)페블러스 데이터 커뮤니케이션팀

Executive Summary

2026년 6월 21일, 미국 잡지 《디 애틀랜틱(The Atlantic)》이 'AI Watchdog' 프로젝트로 한 가지를 공개했습니다. AI 음악 생성 모델을 훈련하는 데 흘러다닌 음악 약 2,120만 곡을, 누구나 아티스트 이름이나 곡명으로 검색할 수 있는 데이터베이스로 만든 것입니다. 정작 그 데이터를 쓴 AI 회사들은 무엇으로 학습했는지 끝내 밝히지 않았습니다. 학습 데이터의 출처를, 데이터를 사용한 쪽이 아니라 제3자인 언론사가 사후에 복원해 장부로 만든 사건입니다.

가장 큰 데이터셋 LAION-DISCO-12M 하나에만 유튜브에서 긁어 모은 음악 약 1,230만 곡이 들어 있습니다. 음악으로 환산하면 91년 분량입니다. 테일러 스위프트와 비틀스 같은 메이저부터 이름 없는 인디 뮤지션까지 뒤섞여 있고, 한 내슈빌 뮤지션은 자신의 디스코그래피 71%가 그 안에 들어 있다는 사실을 이 도구로 직접 확인했습니다. 이 글은 그 사건 자체보다, 출처를 제3자가 복원해야 했던 구조를 봅니다.

데이터를 다루는 쪽에 이 사건이 남기는 질문은 하나입니다. '깨끗한 데이터'를 증명할 책임은 누구에게 있는가. 학습 데이터의 계보(lineage)는 수집 시점에 기록하지 않으면 나중에 되돌려 복원할 수 없습니다. 출처를 처음부터 설계에 박아 두지 않았을 때 어떤 일이 벌어지는지, 디 애틀랜틱의 장부가 그 결과를 보여 줍니다.

주요 수치

출처: Engadget, gearnews

네 숫자가 이 사건의 규모와 무게를 한눈에 보여 줍니다. 공개된 데이터셋에 든 음악의 총량, 그중 가장 큰 데이터셋 하나의 크기, 한 뮤지션이 자기 작품에서 발견한 비율, 그리고 이 흐름이 아티스트 수익에 남길 손실 전망까지. 출처가 추상이 아니라 사람과 돈의 문제라는 사실이 이 네 숫자 안에 들어 있습니다.

2,120만 곡

공개된 학습 음악

AI 음악 훈련에 유통된 4개 공개 데이터셋의 음악 합계

1,230만 곡

LAION-DISCO-12M

유튜브에서 자동 수집한 단일 최대 데이터셋. 음악으로 91년 분량

71%

한 뮤지션의 디스코그래피

내슈빌 뮤지션이 본인 작품 중 데이터셋에서 확인한 비율

$46억

2028년 예상 수익 손실

AI 생성 음악으로 인한 연간 아티스트 수익 감소 전망(CISAC)

1

2,120만 곡이 검색 가능해졌다

디 애틀랜틱의 기자 알렉스 라이스너(Alex Reisner)는 AI 음악 생성 분야에서 떠도는 공개 데이터셋 네 개를 추적했습니다. 합치면 약 2,120만 곡. 그는 이 목록을 기사로만 쓰지 않고, 누구나 아티스트 이름·곡명·ISRC 코드로 검색할 수 있는 도구 'AI Watchdog'으로 공개했습니다. 계정도 필요 없습니다. 자기 음악이 그 안에 있는지 직접 확인해 보라는 것입니다.

이 도구가 특별한 이유는 그것이 채운 공백에 있습니다. AI 음악 모델을 만든 회사들은 무엇으로 학습했는지 공개한 적이 없습니다. 그래서 아티스트도, 법원도, 규제기관도 "내 음악이 쓰였는가"라는 질문에 답할 방법이 없었습니다. 디 애틀랜틱은 학술 저장소에 공개돼 있던 데이터셋을 분석해, 그 답을 검색 가능한 형태로 되살렸습니다. 출처 문서가 원래 있어야 할 자리에 없었기 때문에, 바깥에서 그것을 다시 지어 올린 셈입니다.

릴 테이프 녹음이 빽빽이 꽂힌 음악 아카이브 선반 — AI 학습 데이터셋에 담긴 수천만 곡의 물리적 원본이 이런 보관소에서 왔다 — ▲ 음악 아카이브 보관소의 릴 테이프 선반. AI 학습 데이터셋은 이런 아날로그 기록의 디지털 후속 계보 위에 서 있다 | Source: Alan Burdette, Wikimedia Commons (CC BY-SA 4.0)

핵심: AI 회사가 남겼어야 할 학습 데이터 장부를, 데이터를 쓰지 않은 제3자가 사후에 만들었습니다. 검색이 가능해졌다는 것은 곧 책임을 추궁할 좌표가 생겼다는 뜻입니다.

2

데이터셋 안에는 누구의 음악이 있나

네 데이터셋 가운데 가장 큰 것은 LAION-DISCO-12M으로, 약 1,230만 곡이 들어 있습니다. 그다음은 SLEEPING-DISCO-9M으로 약 900만 곡, 나머지는 Free Music Archive 기반 아카이브를 포함한 소규모 데이터셋입니다. 대부분은 오디오 파일이 아니라 유튜브 링크와 메타데이터 형태입니다. 자동화 도구가 그 링크에서 음악을 내려받는 방식으로 쓰입니다. LAION은 독일의 비영리 단체로, 데이터셋을 학술 목적으로 배포하면서 상업적 사용은 경고했지만, 학술 저장소에 올라온 이 데이터는 이미 수천 회 내려받아졌습니다.

목록에 담긴 이름은 음악 산업 전체를 가로지릅니다. 테일러 스위프트, 배드 버니, 빌리 아일리시, 너바나, 비틀스, 라디오헤드, 우탱 클랜이 메이저 쪽에 있습니다. 반대편에는 거의 알려지지 않은 이름이 있습니다. 베를린의 뮤지션 하인바흐(Hainbach)는 자기 곡 151개를, 프로듀서 한 명은 2017년부터 2024년까지 발표한 138곡 전부를 데이터셋에서 발견했습니다. 한 내슈빌 뮤지션은 자신의 디스코그래피 71%가 포함됐음을 직접 확인했습니다. 규모가 큰 아티스트만의 문제가 아니라는 뜻입니다.

확인된 사용처도 있습니다. 구글과 스태빌리티 AI는 Free Music Archive 데이터를 썼다는 사실이 드러났습니다. 구글은 "유튜브 이용약관 내 사용"이라는 입장입니다. 음악 생성 서비스 Suno와 Udio는 별도의 소송 한가운데 있습니다. 어느 쪽이든, 무엇으로 학습했는지를 외부 데이터셋과 대조해야 비로소 알 수 있다는 사정은 같습니다.

왜 중요한가: 데이터셋은 유명 아티스트와 무명 아티스트를 구분하지 않고 긁어 모읍니다. 출처 기록이 없으면 그 안에 누가 들어 있는지조차 외부 대조 없이는 알 수 없습니다.

3

AI 회사들은 왜 스스로 말하지 않았나

AI 회사들이 침묵한 데에는 이유가 있습니다. 공개된 학술 데이터셋을 상업 모델 훈련에 끌어다 쓰는 경로는 회색지대를 지납니다. LAION 같은 데이터셋은 학술 목적이라는 단서를 달고 배포되지만, 그 데이터를 받아 상업 모델을 학습시키는 순간 단서는 흐려집니다. 출처를 공개하는 것은 곧 그 회색지대에 들어섰다는 사실을 스스로 적어 내는 일이 됩니다. 그래서 많은 회사가 '공정 사용(fair use)'을 방패로 삼고, 무엇으로 학습했는지는 밝히지 않았습니다.

그러나 침묵의 비용은 소송으로 청구되고 있습니다. 다툼은 2024년 6월, 미국음반산업협회(RIAA)가 UMG·소니·워너를 대리해 Suno와 Udio를 제소하면서 시작됐습니다. 이후 분쟁은 한 줄기로 이어졌습니다. Suno는 소니와 다투는 중입니다. 2025년 11월 저작권 지문 분석에서 UMG·소니가 소유한 수백만 곡이 훈련 데이터에서 발견됐고, Suno는 공정 사용을 방패로 듭니다. 핵심 공판은 2026년 7월로 예정돼 있습니다.

Udio는 다른 길을 택했습니다. UMG·워너·멀린·코발트와 순차적으로 합의하고, 콘텐츠 필터링과 지문 인식 시스템을 도입했습니다. 여기에 2,600억 달러 규모 담배 소송을 이끌었던 법무법인 하겐스 버먼까지 인디 아티스트 집단소송에 합류했습니다. 다툼의 전선이 메이저 레이블에서 무명 아티스트에게로 넓어지고 있다는 신호입니다.

구조: 출처를 밝히지 않은 이유는 밝히는 것이 곧 위험을 자백하는 일이었기 때문입니다. 하지만 그 침묵이 외부 복원을 부르고, 복원된 장부가 다시 소송의 증거가 됩니다.

4

출처를 제3자가 복원해야 하는 구조

이 사건의 진짜 그림은 순서에 있습니다. AI 회사가 학습 데이터 출처를 남기지 않았고, 언론사가 공개 데이터셋을 분석해 그것을 사후에 복원했으며, 아티스트와 법원과 규제기관이 그 복원된 장부를 들고 책임을 묻기 시작했습니다. 출처를 만들어야 할 쪽과 실제로 만든 쪽이 어긋나 있습니다. 데이터를 쓴 회사가 아니라 그 데이터에 음악을 빼앗긴 사람들 편에서, 제3자가 계보를 다시 그렸습니다.

이것은 단순한 저작권 분쟁이 아닙니다. 데이터 계보를 설계에 박아 두지 않았을 때, 그 빈자리를 바깥에서 강제로 메우게 되는 구조의 문제입니다. 그리고 이제 그 메우기는 자발이 아니라 의무가 됩니다. EU AI Act는 2026년 8월 본격 시행에 들어가며, 범용·고위험 모델에 학습 데이터의 출처와 구성을 요약해 공개하도록 요구합니다. 어제까지 회색지대였던 침묵이, 내일은 위반이 됩니다.

▲ 출처를 제3자가 복원해야 하는 구조 — AI 회사들이 남기지 않은 계보를 디 애틀랜틱이 사후 채웠다 | 페블러스 원본 도식

달라진 것은 출처를 묻는 주체가 넓어졌다는 점입니다. 처음에는 아티스트가 물었고, 이제는 법원이 묻고, 곧 규제기관이 서류를 요구합니다. 디 애틀랜틱의 데이터베이스는 그 질문들이 가리킬 좌표를 미리 깔아 둔 셈입니다. 출처를 설명하지 못하는 모델은 이 세 방향의 요구에 같은 약점으로 노출됩니다.

달라진 것: 출처 복원이 선의의 조사에서 법적 의무로 옮겨가고 있습니다. 스스로 계보를 남기지 않은 모델은, 외부가 복원한 장부 앞에서 답할 말을 갖지 못합니다.

5

계보는 소급되지 않는다

이 사건이 데이터를 다루는 쪽에 남기는 교훈은 단순하지만 무겁습니다. 학습 데이터의 계보는 소급해서 만들 수 없다는 것입니다. 어떤 데이터를 어디서, 어떤 권리로, 언제 받아 어떻게 가공했는지는 수집하는 그 순간에만 정확히 기록됩니다. 그 시점을 놓치면, 디 애틀랜틱이 한 것처럼 바깥에서 대조하고 추정해 복원하는 수밖에 없습니다. 복원된 계보는 결코 원본만큼 깨끗하지 않습니다.

▲ 수집 시점에 기록한 계보(위)와 사후 복원 시도(아래)의 차이 — 계보는 소급되지 않는다 | 페블러스 원본 도식

그래서 '깨끗한 데이터'를 증명할 책임은 데이터를 쓰는 그 손에 있습니다. 학습 데이터 계보는 모델의 성분표와 같습니다. 무엇이 들어갔는지 적어 두지 않은 제품은, 나중에 외부 검사를 받거나 스스로 답하지 못하는 상황에 놓입니다. 수집 시점에 출처·라이선스·동의를 함께 기록해 두는 것 — 이것이 AI-Ready Data가 되기 위한 출발점입니다. 성능 좋은 모델이 아니라, 자기 데이터의 내력을 설명할 수 있는 모델이 다음 시대의 자격을 갖습니다.

디 애틀랜틱의 장부는 그 자격이 빠졌을 때의 풍경을 보여 줍니다. 2,120만 곡의 출처를 데이터를 쓴 쪽이 아니라 언론사가 복원해야 했다는 사실 자체가, 지금의 AI 데이터 생태계가 아직 미완성이라는 증거입니다. 다음에 모델을 평가하는 자리에서 가장 먼저 펼쳐질 서류는 가중치 파일이 아니라, 이 데이터를 어디서 구했고 그것을 어떻게 증명하느냐는 계보 문서일 가능성이 큽니다.

마무리: 출처를 처음부터 설계에 박아 두는 일은 규제 대응 서류가 아니라, 모델을 신뢰받게 만드는 인프라입니다. 계보는 소급되지 않기에, 기록은 언제나 수집하는 그 순간에 시작되어야 합니다.

R

참고문헌

업계·보도

1.Reisner, Alex. (2026). "The Atlantic AI Watchdog." The Atlantic. — AI 학습에 쓰인 음악 2,120만 곡을 검색 가능하게 공개한 1차 프로젝트.
2.Engadget. (2026). "Investigation by The Atlantic reveals many millions of songs used for AI music training." Engadget. — 데이터셋 규모, 4개 데이터셋, 아티스트 목록 보도.
3.gearnews. (2026). "AI Training Data 2026: The Atlantic Reveals Whose Music Ended Up in Suno and Udio." gearnews. — 뮤지션 실용 관점, Hainbach·내슈빌 뮤지션 사례, LAION-DISCO-12M 상세.
5.EDM.com. (2026). "Over 21 Million Copyrighted Songs Are Circulating Among AI Developers." EDM.com. — 2,120만 곡 유통과 구글·스태빌리티 AI 사용 확인.
6.TechTimes. (2026). "AI Copyright Lawsuit Escalates: Firm Behind $260B Tobacco Deal Joins Suno and Udio Fight." TechTimes. — 하겐스 버먼의 인디 아티스트 집단소송 합류, Sony v. Suno 2026년 7월 공판.

분석·연구

7.Atlan. (2026). "LLM Training Data Lineage: Provenance, Tracking & Compliance." Atlan. — 학습 데이터 계보·프로비넌스가 컴플라이언스의 전제가 되는 구조 분석.
8.CISAC & PMP Strategy. (2026). "Economic Impact of AI on the Music and Audiovisual Sectors." CISAC. — AI 생성 음악으로 인한 2028년 연간 46억 달러 아티스트 수익 감소 전망.