Executive Summary

합성데이터 시리즈 · 전체 보기 →

합성 데이터 시장은 연평균 30%가 넘는 속도로 성장하고 있지만, 정작 합성 데이터를 사고파는 인프라는 존재하지 않습니다. 구매자는 품질을 확인할 수 없고, 판매자는 사용 범위를 통제할 수 없습니다. 만드는 기술은 폭발했는데, 거래하는 기술은 원시적인 상태에 머물러 있습니다.

페블러스 등록특허 제10-2969395호는 이 문제에 대한 구체적인 설계를 제시합니다. 실제 운용 조건을 모사한 가상 환경에서 합성 데이터의 품질을 사전에 검증하고, 그 결과를 스마트계약에 연결하여 거래 조건을 자동으로 실행합니다. 품질 증명이 곧 거래 조건이 되는 구조입니다.

이 글은 합성 데이터 시장의 구조적 병목을 살펴보고, 스마트계약이 그 병목을 어떻게 풀 수 있는지, 그리고 페블러스가 그린 설계도가 어떤 형태인지를 순서대로 풀어갑니다. DataClinic, PebbloSim, PebbloChain으로 이어지는 기술 스택이 하나의 파이프라인 안에서 어떻게 맞물리는지를 함께 살펴봅니다.

$2.63B

2030 시장 전망

합성 데이터 시장 규모

38.2%

연평균 성장률

CAGR 2024-2030

75%

기업 활용 전망

2026년 Gartner 예측

3중

청구항 구조

장치+방법+시스템

$320M+

NVIDIA-Gretel 인수

2025년 3월

1

합성 데이터 붐 — 수치로 본 규모

합성 데이터 시장의 성장 속도는 AI 산업 전체의 성장률을 상회합니다. 2024년 약 5억 달러 규모였던 시장은 연평균 30% 이상의 속도로 팽창하고 있으며, 2030년이면 26억 달러를 넘길 것으로 전망됩니다. 이 성장을 이끄는 동력은 분명합니다. 실제 데이터를 쓸 수 없거나, 쓰면 안 되는 영역이 점점 넓어지고 있기 때문입니다.

Gartner는 2026년까지 기업의 75%가 AI 훈련에 합성 데이터를 활용할 것이라고 예측합니다. 동시에 "2027년까지 데이터/분석 리더의 60%가 합성 데이터 관리에서 치명적 실패에 직면할 것"이라는 경고도 함께 내놓았습니다. 시장은 뜨거운데, 관리 체계는 차갑다는 뜻입니다.

연도 시장 규모 (USD) 비고
2024 ~$497M 복수 리서치 기관 평균
2025 $510M ~ $683M 기관별 편차 존재
2026 $586M ~ $791M CAGR 30.8%~38.96%
2030 $2.63B CAGR 38.2% 적용 시

거대 기업의 움직임은 이 추세를 더 선명하게 보여줍니다. NVIDIA는 2025년 3월 합성 데이터 스타트업 Gretel을 3억 2천만 달러 이상에 인수했고, SAS는 2024년 11월 Hazy를 품었습니다. 합성 데이터 생성 기술은 더 이상 실험실의 주제가 아닙니다.

산업별로 보면, 금융(BFSI) 분야가 2024년 매출의 약 24%를 차지하며 선두를 달리고 있고, 자동차/운송 분야가 2030년까지 38.4%의 연평균 성장률로 가장 빠르게 성장할 것으로 전망됩니다. 헬스케어 역시 프라이버시 보존 기술에 대한 수요가 급증하면서 합성 데이터의 핵심 시장으로 부상하고 있습니다.

합성 데이터 생성기별 충실도-프라이버시 트레이드오프 비교 (Gretel, MOSTLY AI, synthpop 등)
합성 데이터 생성기별 정확도·프라이버시 트레이드오프. Gretel(주황), MOSTLY AI(파랑) 등 주요 도구의 품질 분포. (출처: arXiv:2504.01908)
2

레몬 마켓 — 합성 데이터가 팔리지 않는 이유

시장은 뜨겁지만, 거래는 차갑습니다. 합성 데이터를 만드는 기술은 매년 진화하는 반면, 그것을 사고파는 인프라는 사실상 존재하지 않습니다. 경제학에서 말하는 '레몬 마켓(lemon market)'의 전형적인 구조가 합성 데이터 시장에 그대로 나타나고 있습니다.

2.1품질을 확인할 방법이 없다

합성 데이터의 품질을 구매자가 사전에 확인할 표준화된 방법이 없습니다. "합성 데이터 파이프라인에서 검증(validation)은 가장 미발달된 구성요소"라는 진단은 학계와 산업계 양쪽에서 반복되고 있습니다. Lancet Digital Health는 2025년 논문에서 "합성 데이터로 훈련된 모델에 대한 근거 없는 과신(unwarranted confidence)"을 정면으로 경고했습니다.

2.2출처를 추적할 수 없다

합성 데이터가 어떤 원본 데이터를 참조해서 만들어졌는지, 개인정보 침해 가능성은 없는지, 이를 체계적으로 추적하는 시스템이 부재합니다. 데이터의 출처(provenance)를 증명할 수 없다면, 구매자는 리스크를 떠안을 수밖에 없습니다.

2.3사용 조건을 관리할 수 없다

데이터 라이선싱, 사용 범위 제한, 2차 가공 허용 여부 같은 조건들은 아직 수작업 계약으로 관리됩니다. 구매자는 사기 전에 품질을 확인할 수 없고, 판매자는 판 뒤에 데이터 남용을 통제할 수 없습니다. 양쪽 모두 불안한 구조입니다.

현재 주요 합성 데이터 벤더(MOSTLY AI, Gretel/NVIDIA, Tonic.ai, Hazy/SAS)는 데이터 생성에 집중하고 있습니다. 생성 이후의 거래와 유통 인프라는 아직 누구도 풀지 않은 빈 공간입니다. 생산은 공장이 하지만, 시장은 아직 열리지 않은 셈입니다.

실제 데이터(주황)와 합성 데이터(파랑)의 분포 비교 — Gaussian Copula 모델의 품질 불일치 시각화
실제 데이터(주황 원)와 합성 데이터(파랑 삼각형)의 2D 분포 비교. 합성 데이터가 실제 분포를 얼마나 충실하게 재현했는지 육안으로 확인하기 어렵다. (출처: arXiv:2404.08866)
3

스마트계약이 데이터를 만나면

스마트계약은 "특정 조건이 충족되면 자동으로 실행되는 프로그래밍된 계약"입니다. 금융에서는 이미 익숙한 기술이지만, 데이터 거래에 적용된 사례는 아직 초기 단계입니다. 글로벌 스마트계약 시장은 2024년 27억 달러에서 2035년 1조 달러 이상으로 성장할 전망입니다.

Ocean Protocol Compute-to-Data 아키텍처 — 소비자, dApp, 블록체인, 격리 실행 환경의 상호작용
Ocean Protocol의 Compute-to-Data 아키텍처. 데이터를 이동하지 않고 알고리즘이 데이터로 이동하는 구조. (출처: docs.oceanprotocol.com)

데이터 거래에 블록체인을 접목하려는 시도는 이미 존재합니다. Ocean Protocol은 데이터를 NFT와 데이터토큰으로 발행하고, 프라이빗 데이터를 이동 없이 거래하는 Compute-to-Data 모델을 운영합니다. 2024년 5월에는 SingularityNET, Fetch.ai와 합병하여 ASI Alliance를 결성하기도 했습니다. Streamr는 실시간 데이터 스트리밍과 교환을 위한 탈중앙 P2P 네트워크를 구축했습니다.

학계에서도 관련 연구가 활발합니다. VLDB 2024 워크샵에서는 블록체인 기반 데이터 출처 관리가 별도 세션으로 다뤄졌고, IBis 프레임워크(2024)는 분산 AI 훈련에서 저작권 준수와 데이터 출처의 동적 관리를 제안했습니다.

그런데 이 모든 시도에는 공통적으로 빠진 조각이 있습니다. 기존 블록체인 데이터 거래 플랫폼은 범용 데이터를 다루며, 합성 데이터 고유의 문제를 다루지 않습니다. 합성 데이터는 "원본과 얼마나 닮았는가"와 "원본의 프라이버시를 얼마나 보호하는가"가 동시에 중요한, 독특한 종류의 상품입니다. 범용 거래소로는 이 이중 요구를 충족할 수 없습니다.

블록체인 스마트계약 기반 데이터 마켓플레이스 아키텍처 — IPFS, 소비자, 공급자 상호작용
블록체인 스마트계약 기반 탈중앙 데이터 마켓플레이스 구조. IPFS 오프체인 저장소와 스마트계약을 통한 소비자-공급자 거래 흐름. (출처: arXiv:2401.00141)
비교 축 Ocean Protocol 기존 벤더 페블러스 특허
데이터 유형 범용 데이터 합성 데이터 합성 데이터 특화
품질 검증 없음 자체 지표 가상 환경 시뮬레이션
거래 인프라 블록체인 마켓플레이스 없음 (API만) 스마트계약 자동화
출처 추적 부분적 (토큰화) 없음 블록체인 전 과정 기록
물리적 정합성 해당 없음 해당 없음 물리법칙 기반 합성
4

페블러스가 그린 설계도 — 특허 10-2969395

페블러스 등록특허 제10-2969395호의 정식 명칭은 "합성 데이터의 스마트계약을 위한 가상 환경을 제공하는 전자 장치, 전자 장치의 동작 방법 및 전자 장치를 포함하는 시스템"입니다. 2023년 3월 출원하여 2026년 5월 등록되었으며, 전자 장치, 동작 방법, 시스템의 3중 청구항 구조로 기술의 모든 레이어를 보호합니다.

이 특허가 제안하는 핵심 아이디어는 세 단어로 요약됩니다. 가상 환경, 품질 증명, 자동 거래.

이 특허는 페블러스의 세 가지 제품을 하나의 파이프라인으로 연결하는 기술적 뼈대 역할을 합니다.

DataClinic

데이터 건강 진단

기하학적 매니폴드 기반으로 데이터 품질을 진단합니다. 비정형 데이터를 '데이터 맵'으로 시각화하여 분포와 밀도를 한 눈에 파악할 수 있습니다.

PebbloSim

합성 데이터 생성

물리법칙을 복제하여 Physical Hallucination 없는 초고품질 합성 데이터를 생성합니다. 현실과 동일한 물리 조건에서 데이터를 만듭니다.

PebbloChain

데이터 거래/통제

블록체인 기반으로 데이터의 생성부터 개선, 유통까지 전 과정을 위변조 불가능하게 기록합니다. 이 특허의 직접적인 기술 기반입니다.

4.1가상 환경이란

이 특허에서 말하는 '가상 환경'은 실제 운용 조건을 모사한 시뮬레이션 공간입니다. 합성 데이터가 실제 현장에서 어떤 성능을 보일지를 거래 전에 검증하는 테스트베드라고 이해하면 됩니다. 자율주행 데이터셋이라면 가상 도로 환경에서, 의료 데이터셋이라면 가상 진단 환경에서 품질과 가치를 사전에 확인합니다.

4.2스마트계약으로 거래 조건을 자동화

가상 환경에서의 검증 결과는 스마트계약의 실행 조건으로 직접 연결됩니다. 예를 들어, "데이터 품질 점수가 기준 이상이면 대금을 자동 지급하고, 미달이면 거래를 불성립 처리한다"와 같은 조건을 코드로 실행합니다. 사람의 판단이 아니라 검증 결과가 계약을 실행합니다.

4.3운영 증거의 블록체인 기록

데이터가 어떻게 만들어졌는지, 어떤 가공 과정을 거쳤는지, 거래 전후로 가치가 어떻게 변화했는지를 블록체인에 기록합니다. 이 기록은 사후 감사(audit)와 규제 대응의 증거로 활용됩니다. EU AI Act와 ISO 42001이 요구하는 운영 증거 패키지를 내장하는 구조입니다.

페블러스는 이 세 가지 제품을 하나의 자율 운영체제로 묶는 것을 'Data Greenhouse'라고 부릅니다. 진단(DataClinic)에서 생성(PebbloSim)을 거쳐 거래와 거버넌스(PebbloChain)까지 끊김 없이 이어지는 파이프라인입니다.

5

품질이 먼저다 — DataClinic과의 연결

스마트계약으로 거래를 자동화하더라도, 거래의 대상인 데이터 자체의 품질을 보장하지 못하면 의미가 없습니다. 거래 인프라가 아무리 정교해도, 그 위를 흐르는 데이터가 불량이면 시스템 전체의 신뢰가 무너집니다.

DataClinic은 기하학적 매니폴드 기반의 데이터 품질 진단 SaaS입니다. 고차원 데이터를 기하학적 공간으로 변환한 뒤, 분포와 밀도를 '데이터 맵'이라 부르는 시각적 형태로 표현합니다. 이 진단 결과가 합성 데이터 거래 체인에서 어떤 역할을 하는지 단계별로 살펴봅니다.

거래 전 단계에서는 DataClinic이 합성 데이터를 진단하고, 그 품질 리포트를 거래 조건에 포함합니다. 거래 중에는 스마트계약이 품질 기준 충족 여부를 자동으로 확인하며, 기준 미달이면 거래를 불성립 처리합니다. 거래 후에는 데이터 활용 결과, 즉 모델 성능 변화 같은 사후 지표를 블록체인에 기록하여 가치를 증명합니다.

DataClinic 진단 결과 화면 — 품질 점수 80점, 개선 제안(Data Bulk-up, Data Diet), 레벨별 상세 진단
DataClinic 진단 리포트 화면. 품질 점수(80점)와 함께 Data Bulk-up·Data Diet 등 구체적인 개선 방향을 제시한다. (출처: dataclinic.ai)

Editor's Note

DataClinic은 현재 dataclinic.ai에서 무료로 사용할 수 있습니다. 이미지 데이터셋의 품질을 기하학적 매니폴드 위에서 진단하고, 클래스별 분포, 밀도, 아웃라이어를 시각적으로 확인할 수 있습니다. 이 글에서 다룬 합성 데이터 거래 파이프라인의 첫 번째 단계인 '품질 진단'을 직접 경험해 보시기 바랍니다.

ISO/IEC 5259 시리즈(2024년 발행)는 AI 데이터 품질에 관한 국제 표준입니다. 특히 ISO/IEC 5259-4는 2025년 2월 유럽 표준으로 채택되었습니다. DataClinic의 진단 프레임워크는 이러한 국제 표준과 자연스럽게 정렬될 수 있는 구조를 갖추고 있습니다.

6

이 특허가 열어두는 질문들

특허는 기술적 설계도이지, 시장의 모든 문제에 대한 답은 아닙니다. 이 특허가 그린 설계도가 현실로 작동하려면, 아직 풀리지 않은 질문들이 있습니다.

첫 번째 질문은 합성 데이터 전용 거래 표준의 등장 시기입니다. 범용 데이터 거래 표준은 존재하지만, 합성 데이터의 특수한 요구사항(원본 유사성과 프라이버시 보호의 동시 충족)을 반영한 전용 표준은 아직 없습니다. 한국은 2024년 12월 최초의 합성데이터 활용 가이드라인을 발표했고, 데이터 표준계약서도 같은 해 마련되었습니다. 그러나 거래 자동화를 전제한 표준은 아직 논의 초기 단계입니다.

두 번째는 스마트계약의 법적 지위입니다. 스마트계약이 합성 데이터 거래에서 법적 계약으로 인정받기 위한 제도적 논의가 필요합니다. 코드가 실행한 결과가 법적 효력을 가지려면 어떤 요건이 갖춰져야 하는지, 분쟁 해결은 어떻게 진행되는지에 대한 합의가 필요합니다.

세 번째는 크로스보더 데이터 거래의 과제입니다. EU AI Act는 2026년 8월 완전 적용을 앞두고 있으며, 합성 콘텐츠에 대해 기계 판독 가능한 마킹을 요구합니다. 한국의 데이터산업진흥법과 EU 규제 사이의 차이를 스마트계약이 자동으로 처리할 수 있을지는 아직 열린 질문입니다.

네 번째는 Physical AI와의 확장 가능성입니다. 자율주행, 로봇, 디지털 트윈 등에서 품질이 검증된 합성 데이터에 대한 수요는 폭발할 것입니다. 이 영역에서 품질-거래 일체형 인프라가 어떤 속도로 필요해질지가 이 특허의 실질적 가치를 결정할 것입니다.

합성 데이터 시장은 "만드는 기술"이 "거래하는 기술"보다 훨씬 앞서 있는 비대칭 상태입니다. 이 비대칭을 해소하는 쪽에 다음 인프라의 기회가 있습니다. 페블러스 특허 10-2969395는 그 기회에 대한 하나의 구체적인 설계도입니다.

(주)페블러스 데이터 커뮤니케이션팀
2026년 6월 6일