목록에 없는 AI는 통제할 수 없다: AI 자재명세서(AI BOM)와 데이터 계보

Pebblous Data Communication Team

Executive Summary

소프트웨어 자재명세서(SBOM)는 어떤 코드 부품이 들어갔는지를 적는 목록이다. 그런데 AI 시스템은 코드만으로 작동하지 않는다. 모델 가중치, 학습 데이터셋, 시스템 프롬프트, 외부 API, 가드레일, 그리고 점점 더 에이전트와 MCP 서버가 한데 얽혀 돌아간다. 코드 목록만 들여다보면 이 부품들이 통째로 사각지대에 남는다. 그 사각지대의 이름이 '섀도 AI'다. 이 글은 코드 너머의 부품까지 한 목록으로 추적하는 AI 자재명세서(AI BOM)가 무엇을 적고, 왜 규제 요건이 되어 가는지를 정리한다.

사각지대의 크기는 수치로 드러난다. 기업 한 곳이 평균 14개의 AI 도구를 쓰지만 IT가 파악하는 건 4~5개뿐이고, 네 곳 중 한 곳은 지금 자사에서 어떤 AI 서비스가 돌고 있는지조차 모른다. 목록에 없는 것은 통제할 수도 감사할 수도 없다. 그래서 섀도 AI가 연루된 침해는 표준 침해보다 평균 67만 달러 더 비싸고, 탐지에 267일이 걸린다.

다만 '데이터셋이 목록에 있다'는 것과 '그 데이터셋을 신뢰할 수 있다'는 것은 다른 문제다. 보안 도구들은 AI 부품을 찾아내는 데 강하지만, 그 데이터가 오염·중복·라벨 오류·라이선스 위반을 품고 있는지는 판정하지 못한다. 페블러스의 명제는 여기서 출발한다. 감사 불가능한 데이터는 규제 불가능하다. AI BOM이 부품 목록이라면, 데이터 품질과 계보(provenance) 감시는 그 부품에 붙는 품질 인증서다.

63%

AI 거버넌스 정책 없는 조직

목록도 통제 기준도 없이 AI를 쓰는 비율 (IBM 2025)

+$670K

섀도 AI 침해의 추가 비용

표준 침해보다 더 든 평균 금액 (IBM 2025)

73%

프롬프트 인젝션에 취약

보안 감사에서 노출된 프로덕션 AI 비율

€35M / 7%

EU AI Act 최고 제재

금지 관행 위반 시 매출 7% 또는 €35M (Article 99)

1

코드만 적던 명세서의 한계

소프트웨어 자재명세서는 식품 포장의 성분표와 닮았다. 어떤 라이브러리가, 어떤 버전으로, 어떤 라이선스로 들어갔는지를 적어 두면, 나중에 그중 하나에서 취약점이 터졌을 때 영향받는 제품을 빠르게 찾아낼 수 있다. 2021년 Log4Shell 사태 이후 SBOM은 공급망 보안의 기본기로 자리 잡았고, 가트너는 대기업의 SBOM 채택이 2025년 56%에서 2028년 85%로 늘어날 것으로 본다.

SBOM이 성립하는 전제는 하나다. 부품은 빌드 시점에 고정된다는 것. 일단 출하하고 나면 그 안에 든 라이브러리 목록은 바뀌지 않는다. 그래서 정적인 목록 하나로 충분하다. AI 시스템은 바로 이 전제를 깬다.

모델은 파인튜닝과 재학습으로 계속 진화한다. 런타임에는 외부 API를 호출하고 검색으로 새 데이터를 끌어온다. 같은 코드라도 시스템 프롬프트나 가드레일을 바꾸면 행동이 달라진다. 빌드가 끝난 뒤에도 시스템이 살아 움직이는 것이다. 정적 부품 목록으로는 이렇게 흐르는 시스템을 따라잡을 수 없다.

그래서 AI 자재명세서는 부품만 적는 데서 멈추지 않는다. 부품 사이의 관계까지 추적한다. 어떤 애플리케이션이 어떤 모델을 쓰고(USES_LLM), 어떤 도구를 호출하며(USES_TOOL), 어떤 검색기와 기억 저장소에 연결되는지(USES_RETRIEVER, USES_MEMORY)를 그래프로 그린다. 목록(list)이 아니라 의존성 그래프(dependency graph)인 셈이다.

두 명세서가 무엇을 다르게 다루는지 항목별로 정리하면 차이가 분명해진다.

항목	SBOM (소프트웨어 명세서)	AI BOM (AI 자재명세서)
추적 대상	코드·라이브러리·의존성	모델·데이터셋·프롬프트·에이전트·MCP 서버까지
시점 전제	빌드 시점에 고정(정적)	학습·런타임에 계속 진화(동적)
구조	부품 목록(list)	관계까지 담은 그래프(dependency graph)
핵심 위험	알려진 CVE·취약 라이브러리	데이터 오염·프롬프트 인젝션·모델 백도어
품질 질문	버전이 최신인가	이 데이터를 신뢰할 수 있는가

▲ SBOM은 코드 부품만 나열하지만, AI BOM은 모델·데이터셋·프롬프트·MCP 서버의 동적 관계(의존성 그래프)까지 추적한다. | 페블러스 원본 도식

SBOM은 "무엇이 들어갔나"를 묻는다. AI BOM은 거기에 "그것들이 어떻게 연결되고, 지금도 그대로인가"를 더한다. 정적 목록 하나로 끝나던 자리에, 살아 움직이는 시스템을 따라가는 인벤토리가 들어선다.

2

AI BOM이 적는 것: 모델부터 MCP 서버까지

그렇다면 AI 자재명세서에는 구체적으로 무엇이 들어가는가. Cisco가 공개한 오픈소스 AI BOM 스캐너는 30가지 컴포넌트 유형을 인식하는데, 이를 추리면 여덟 가지 부품으로 정리할 수 있다. 코드 의존성 하나만 적던 SBOM과 비교하면, 적어야 할 항목이 통째로 늘어난 셈이다.

모델

가중치·버전·출처·라이선스

데이터셋

학습·파인튜닝 데이터와 그 계보

프롬프트

시스템 프롬프트·템플릿

가드레일

안전 필터·정책 규칙

시크릿

API 키·토큰·자격증명

에이전트

자율 실행 로직·도구 호출

MCP 서버

모델이 붙는 외부 컨텍스트·도구

아이덴티티

서비스 계정·권한·접근 범위

이 여덟 가지를 따로따로 적어 두는 것만으로는 부족하다. AI BOM의 핵심은 이들이 어떻게 이어지는지를 함께 기록한다는 데 있다. 어떤 에이전트가 어떤 모델을 호출하고, 그 모델이 어떤 데이터셋으로 학습됐고, 어떤 MCP 서버에서 도구를 끌어오는지를 그래프로 연결해야, 한 부품에서 문제가 터졌을 때 그 파장이 어디까지 미치는지 추적할 수 있다.

▲ AI BOM의 핵심은 8개 부품의 나열이 아니라 이들 사이의 의존 관계(USES_LLM · USES_TOOL · USES_RETRIEVER)를 그래프로 연결하는 것이다. | 페블러스 원본 도식

포맷은 이미 준비됐다

다행히 무엇을 어떻게 적을지에 대한 표준은 이미 갖춰져 있다. OWASP의 CycloneDX는 2023년 6월 v1.5부터 머신러닝 부품을 담는 ML-BOM을 지원했고, 현재는 ECMA-424 2판으로 표준화된 v1.7까지 왔다. 리눅스 재단의 SPDX 3.0은 AI Profile을, OWASP는 별도의 AIBOM Project를 내놓았다. 데이터 품질은 ISO/IEC 5259가, AI 경영 시스템 거버넌스는 ISO/IEC 42001이 떠받친다.

이 발상의 학술적 뿌리는 더 오래됐다. 2018년 Timnit Gebru 등이 제안한 'Datasheets for Datasets'는 데이터셋마다 출처·구성·용도를 적은 명세표를 붙이자는 제안이었고, 같은 해 Margaret Mitchell 등의 'Model Cards'는 모델에 같은 일을 하자고 했다. 부품마다 문서를 붙이자는 생각은 AI BOM이라는 이름이 붙기 한참 전부터 있었던 셈이다.

규모를 생각하면 이 일을 손으로 할 수는 없다. Hugging Face에 공개된 모델만 200만 개, 데이터셋은 150만 개를 넘는다. 그래서 인벤토리는 소스코드를 분석해 의존성을 자동으로 긁어모으는 스캐너의 몫이 된다. 즉 포맷이 없어서 AI BOM을 못 만드는 게 아니다. 남은 과제는 그 칸을 무엇으로, 얼마나 믿을 수 있게 채우느냐다.

3

섀도 AI: 목록에 없는 것이 공격 표면이 된다

AI BOM이 필요한 이유는 추상적이지 않다. 지금 대부분의 조직은 자사에서 어떤 AI가 돌고 있는지조차 다 알지 못한다. Productiv의 2026년 집계를 보면 기업 한 곳이 평균 14개의 AI 도구를 쓰지만 IT가 파악하는 건 4~5개에 그친다. 나머지는 보이지 않는 곳에서 돌아간다.

아래 그래프는 그 가시성 공백을 그대로 보여준다. 막대 하나는 직원들이 실제로 쓰는 AI 도구 수이고, 다른 하나는 IT가 알고 있는 수다.

기업당 평균 AI 도구 수 대비 IT가 파악한 수. 출처: Productiv, 2026.

다른 조사도 같은 그림을 가리킨다. Wiz의 클라우드 보안 보고서에서는 응답 기업의 25%가 지금 실행 중인 AI 서비스를 파악하지 못한다고 답했고, IBM의 침해 비용 보고서에서는 63%의 조직이 AI 거버넌스 정책 자체가 없었다. 가트너 조사에서는 직원의 68%가 회사가 승인하지 않은 AI 도구를 쓰고 있었다. 이 가시성 공백이 곧 섀도 AI다.

목록에 없으면 통제도 감사도 할 수 없으니, 섀도 AI는 그대로 공격 표면이 된다. IBM에 따르면 섀도 AI가 연루된 침해는 표준 침해보다 평균 67만 달러 더 비쌌고, 탐지와 봉쇄에 267일이 걸렸다(표준은 241일). 침해를 겪은 조직의 97%는 AI에 대한 접근 통제가 없었다.

새 공격은 코드가 아니라 데이터·프롬프트에서 자란다

더 곤란한 점은, 이 새로운 위험이 전통적인 코드 의존성 스캐너에 잡히지 않는다는 것이다. 프롬프트 인젝션은 OWASP의 LLM 애플리케이션 위험 1위이고, 보안 감사에서 프로덕션 AI의 73%가 여기에 취약한 것으로 드러났다. 공격은 코드 레이어가 아니라 데이터와 프롬프트 레이어에서 자란다. ENISA는 2025년 위협 보고서에서 신종 공급망 공격 세 가지를 새로 분류했다.

Rules File Backdoor

AI 코딩 어시스턴트의 설정 파일에 악성 지시를 심는다. 코드가 아니라 '규칙'에 백도어가 들어간다.

Slopsquatting

LLM이 환각으로 지어낸 패키지명을 공격자가 미리 등록한다. 파이썬 코드 제안의 20% 이상이 존재하지 않는 패키지를 가리킨다.

Malicious LoRA

수십 MB짜리 경량 어댑터에 백도어를 숨긴다. 정상 파인튜닝과 겉으로 구분되지 않는다.

▲ SBOM 스캐너는 코드 레이어만 본다. Rules Backdoor·Slopsquatting·Malicious LoRA 등 새로운 공격은 데이터·프롬프트 레이어에서 자라고, AI BOM이 없으면 이 영역 전체가 사각지대다. | 페블러스 원본 도식

여기에 모델 파일의 악성코드 탐지를 우회하는 제로데이(예: CVE-2025-10155)까지 더해진다. 공통점은 분명하다. 이 모든 것이 코드 의존성 목록에는 흔적을 남기지 않는다는 점이다. 모델과 데이터, 프롬프트의 출처를 따로 인벤토리하지 않으면, 가장 빠르게 자라는 공격 표면이 통째로 보이지 않는 채로 남는다.

4

인벤토리가 규제 요건이 되는 순간

AI 인벤토리는 권고에서 요건으로 넘어가는 중이다. 다만 그 방향은 한 갈래가 아니다. 규제는 'EU형 실질 의무 강화'와 '미국형 재량·공시 중심'이라는 두 갈래로 갈린다. 한쪽으로 단정하기 전에 양쪽을 같이 봐야 한다.

EU 쪽은 의무를 조이는 방향이다. EU AI Act는 고위험 시스템에 기술 문서화와 데이터 거버넌스 증적을 요구하고, 범용 AI(GPAI)에는 훈련 데이터 요약 공개를 의무화한다. 위반 시 제재는 최대 매출 7% 또는 €35M으로, GDPR의 최고 제재(4%/€20M)를 웃돈다. 고위험 시스템 전면 시행은 2026년 8월 2일로 예정돼 있다(일정 연기 가능성은 남아 있다). 캘리포니아 AB 2013은 2026년 1월 1일부터 생성 AI의 훈련 데이터 공시를 요구한다. 학계에서는 수학자들이 주도한 라이덴 선언이 AI 훈련 데이터의 동의·귀속·투명성을 요구했고, 서명자는 2026년 6월 30일 기준 2,821명까지 늘었다.

미국 연방·주 차원에서는 반대 방향의 움직임도 있다. 콜로라도는 2024년 제정했던 AI법(SB 24-205)을 2026년 5월 14일 SB 26-189로 폐지하며 거버넌스 의무에서 공시·절차 중심으로 선회했다. 백악관 예산관리국(OMB)의 메모 M-26-05(2026년 1월 23일)는 소프트웨어·하드웨어 공급망 보안에서 SBOM 요구를 필수에서 기관 재량으로 되돌렸다. AI BOM을 강제한 메모가 아니라, 오히려 명세서 요구를 느슨하게 한 사례라는 점에 주의해야 한다.

방향	대표 사례	성격
EU형 실질 의무	EU AI Act, 캘리포니아 AB 2013, 라이덴 선언	문서화·데이터 거버넌스 증적 의무, 강한 제재
미국형 재량·공시	콜로라도 SB 26-189(폐지), OMB M-26-05	의무 완화·공시 중심, SBOM 요구 재량화

방향이 갈려도 흔들리지 않는 전제가 하나 있다. 인벤토리하지 않은 위험은 매핑할 수 없다는 것이다. 의무를 조이든 공시로 돌리든, 자기 시스템에 무엇이 들어 있는지 모르면 어느 쪽 요건도 충족할 수 없다.

업계는 '발견'에 강하지만 '신뢰'는 공백이다

보안 벤더들은 이미 AI BOM 시장에 뛰어들었다. 그런데 이들이 잘하는 일과 비워 둔 일이 뚜렷하게 갈린다. 아래 표는 세 벤더의 강점과, 공통으로 비어 있는 자리를 정리한 것이다.

벤더	강점	데이터 신뢰성 공백
Cisco AI Defense	소스 스캔으로 에이전트 의존성 자동 인벤토리(30개 컴포넌트 유형)	부품을 찾되, 데이터 품질·계보는 판정하지 않음
Wiz AI-SPM	아이덴티티·클라우드 권한 연결	실사용 13%, 데이터 출처 검증은 범위 밖
Palo Alto Prisma AIRS	런타임 방어·위협 탐지	탐지 중심, 데이터 부품의 신뢰성은 다루지 않음

세 벤더 모두 무엇이 거기 있는지는 잘 찾는다. 그러나 그 데이터를 신뢰할 수 있는지는 판정하지 못한다. 스캐너 경보의 96%가 오탐이라는 사실이 그 한계를 잘 보여준다. 발견은 자동화됐지만, 신뢰는 아직 채워지지 않은 칸으로 남아 있다.

5

감사 가능한 인벤토리: 데이터 계보가 신뢰를 담보한다

여기서 이 글의 출발점으로 돌아온다. '데이터셋이 목록에 있다'는 것과 '그 데이터셋을 신뢰할 수 있다'는 것은 전혀 다른 문제다. 부품 목록에 데이터셋 이름을 적어 넣는 것만으로는, 그 데이터가 오염됐는지, 중복이 쌓였는지, 라벨이 틀렸는지, 라이선스를 위반했는지 알 수 없다. 인벤토리된 데이터가 이런 결함을 품고 있으면, AI BOM은 형식만 채운 거짓 안심이 된다.

이 공백이 실무에서 얼마나 큰지는 수치가 말해 준다. 스탠퍼드 HAI의 2026년 보고서에서 응답자의 74%가 AI의 최고 위험으로 '부정확성'을 꼽았다(전년 대비 14%p 상승). AI 에이전트 배포의 최대 장애물로 '데이터 품질'을 지목한 비율도 52%에 달했다. 신뢰의 병목은 모델이 아니라 데이터에 있다.

그래서 감사 가능한 인벤토리는 두 갈래의 계보가 만나는 자리에서 완성된다. 하나는 모델 계보다. 어떤 모델이 어떤 데이터로 학습됐고 어떻게 진화했는지의 기록이다. 다른 하나는 데이터 계보다. 그 데이터가 어디서 왔고, 어떤 변환을 거쳤고, 지금 품질이 어떤지의 기록이다. 부품 목록에 이 두 계보가 붙을 때, AI BOM은 체크리스트를 넘어 감사 가능한 신뢰의 토대가 된다.

그렇다면 '계보가 붙은 인벤토리'는 실무에서 어떤 모습인가. 데이터 부품마다 이상치·중복·라벨 오류·라이선스 위반을 점검한 결과가 품질 인증서로 따라붙고, 그 데이터가 어디서 와서 어떤 변환을 거쳤는지가 출처 기록으로 남는다. 그러면 목록의 한 줄은 '데이터셋 이름과 버전'에서 '언제, 무엇으로, 어떻게 검증됐는지를 되짚을 수 있는 증적'으로 바뀐다. 앞서 본 표준이 이 빈칸의 틀을 이미 마련해 두었다. 데이터 품질의 척도는 ISO/IEC 5259가, 그 검증 과정을 남기는 거버넌스 틀은 ISO/IEC 42001이 떠받친다. 감사관이 던지는 단 하나의 질문 — 이 데이터를 믿어도 되는가 — 에 목록 자체가 답하게 되는 것이다.

▲ 데이터 계보는 출처 기록 → 변환 이력 → 품질 검증의 세 단계를 거쳐 감사 가능한 AI BOM 증적으로 완성된다. | 페블러스 원본 도식

목록만 있는 AI BOM

데이터셋 이름과 버전은 적혀 있다. 그러나 그 데이터를 신뢰할 수 있는지에 대한 근거는 비어 있다. 형식은 채웠지만 감사는 불가능하다.

계보가 붙은 AI BOM

데이터 부품마다 품질 인증서(이상치·중복·라벨 오류 점검)와 출처·변환 이력이 함께 기록된다. 목록이 감사 가능한 증적이 된다.

이 두 번째 그림이 페블러스가 데이터 품질과 계보에 대해 말해 온 것과 같은 자리에 있다. AI BOM의 '데이터 부품 인벤토리'는 사실상 데이터 품질 보고서이며, 'AI Act 문서화 요건'은 데이터의 출처와 변환 이력을 자동으로 남기는 프로비넌스 증적으로 충족된다. 인벤토리가 신뢰를 담보하려면, 목록에 적힌 데이터가 어디서 와서 어떻게 검증됐는지가 함께 기록돼야 한다. 그 지점에서 명세서는 거짓 안심을 넘어선다.

현장에서 이 차이는 속도로도 나타난다. 인벤토리 가능한 데이터 파이프라인을 갖추면 데이터 준비 자체가 빨라진다. 페블러스 내부 사례에서는 제조 현장의 데이터 수집·정제 기간이 3~5년에서 2주로 줄었다(내부 자료). 추적 가능한 데이터는 안전·인증의 근거인 동시에, 사업 속도이기도 하다.

감사 불가능한 데이터는 규제 불가능하다. AI BOM이 부품 목록이라면, 데이터 품질과 계보 감시는 그 부품에 붙는 품질 인증서다. 목록을 만드는 일과 그 목록을 믿을 수 있게 만드는 일은 다른 작업이며, 후자가 신뢰의 1차 관문이다.

Editor's Note

페블러스가 풀어온 문제 — 데이터 품질 진단·정제(DataClinic)와 검증된 형태의 데이터(AI-Ready Data), 그리고 출처·변환 이력의 자동 기록 — 는 이 보고서가 그리는 '감사 가능한 인벤토리'의 데이터 신뢰 레이어와 같은 자리에 있다. 보안 벤더가 발견·탐지를 맡는다면, 페블러스는 그 부품이 믿을 만한지를 채우는 보완재의 관점에서 이 전환을 읽고 있다.

R

참고문헌

1차 소스 (정책·업계)

1.FedTech Magazine. (2026, June). "How Federal Agencies Can Inventory and Govern AI Systems with AI BOMs." FedTech Magazine.
2.TechInformed. (2026). "Shadow AI now needs a bill of materials." TechInformed.
3.Cisco. (2026). "Know Your AI Stack: Introducing AI BOM in Cisco AI Defense." Cisco Blogs.

표준·도구

4.OWASP. (2025). "CycloneDX — ML-BOM / AI BOM (ECMA-424 2nd Edition, v1.7)." OWASP Foundation.
5.Cisco AI Defense. (2026). "AI BOM open-source scanner." GitHub.

학술 (부품 단위 문서화 기원)

6.Gebru, T., et al. (2018/2021). "Datasheets for Datasets." Communications of the ACM / arXiv:1803.09010.
7.Mitchell, M., et al. (2019). "Model Cards for Model Reporting." FAT* 2019 / arXiv:1810.03993.

데이터·통계

8.IBM Security / Ponemon Institute. (2025). "Cost of a Data Breach Report 2025." IBM.
9.Wiz Research. (2026). "State of AI in the Cloud 2026." Wiz.
10.ENISA. (2025). "Threat Landscape 2025." European Union Agency for Cybersecurity.
11.Stanford HAI. (2026). "AI Index Report 2026." Stanford University.
12.European Commission. (2024). "EU AI Act, Article 99 (Penalties)." EUR-Lex.
13.Leiden Declaration on Artificial Intelligence and Mathematics. (2026). "Signatories." (서명자 2,821명, 2026-06-30 확인)

※ 일부 시장 규모 수치는 조사기관별 정의 차이로 단일 값으로 단정하지 않았다. 현대자동차 데이터 준비 기간 단축 사례는 페블러스 내부 자료에 근거한다.