2025년 글로벌 합성데이터 가격 전략 분석 모달리티, 플랫폼, 그리고 가치 기반 서비스의 경제학
초록 (Executive Summary)
"데이터 포인트"의 환상과 "가치 서비스"의 현실
글로벌 합성데이터 시장의 가격 책정은 '데이터 포인트당 비용'($ per data point)이라는 초기의 단순한 지표에서 벗어나, 고도로 정교화된 '3중 요금제(Three-Part Tariff)' 구조로 빠르게 수렴하고 있습니다. 본 보고서는 이 3중 요금제 모델이 현존하는 엔터프라이즈급 합성데이터 벤더의 수익 모델을 설명하는 보편적 프레임워크임을 입증합니다.
3중 요금제 모델
플랫폼 최소 약정 + 가변 미터 + 가치 부가 서비스의 3층 구조가 업계 표준으로 확립
모달리티가 가격을 결정
정형/텍스트/이미지 데이터의 특성에 따라 3중 요금제의 구성 비율이 근본적으로 달라짐
솔루션 중심 판매
엔터프라이즈 고객은 '데이터'가 아닌 '문제 해결 솔루션'과 '인프라 접근권'을 구매
I. 합성데이터 가격 책정의 보편적 프레임워크: 3중 요금제 모델
합성데이터의 가격을 분석할 때 가장 흔히 접하는 오류는, 단순한 '데이터 포인트당' 비용을 시장의 표준으로 오해하는 것입니다. 실제 엔터프라이즈급 프로젝트의 견적은 플랫폼 사용료를 훨씬 넘어서는 수준이며, 이는 세 가지 요소가 결합된 3중 요금제 구조로 설명됩니다.
A. The Platform Floor (플랫폼 최소 약정): 진입을 위한 고정 비용
'플랫폼 최소 약정'은 벤더의 소프트웨어 라이선스, 기본 지원, 보안 및 컴플라이언스(예: SOC 2, HIPAA) 유지를 위해 고객이 지불해야 하는 최소 고정 비용(MRC 또는 ARC)입니다. 이는 사용량($0)과 관계없이 발생하는 '기본료'입니다.
정형 데이터 (저~중 등급)
- • Tonic.ai: 월 $199
- • Gretel.ai: 월 $295
- • Hazy: 월 $500
엔터프라이즈 등급
- • MOSTLY AI: 월 $3,000
- • Synthesis AI: 월 $3,000
- • Rendered.ai (Teams): 월 $5,000
- • Rendered.ai (Organizations): 월 $15,000
정형 데이터의 $199에서 컴퓨터 비전의 $15,000까지, 모달리티에 따라 '최소 약정' 비용이 약 75배의 차이를 보입니다. 이 차이는 각 모달리티를 생성하는 데 필요한 초기 자본 투자(CapEx)와 인프라 유지 비용을 직접적으로 반영합니다.
B. The Variable Meter (가변 미터): 사용량 측정 지표의 분화
'가변 미터'는 고객이 사용한 만큼 지불하는 종량제 비용입니다. 벤더가 "무엇을" 측정하는지는 벤더의 비즈니스 모델과 비용 구조를 드러내는 가장 중요한 지표입니다.
컴퓨팅 기반 (Compute-Based)
사례: MOSTLY AI. 크레딧은 "총 가상 CPU 및 GPU 시간"을 기준으로 소비됩니다.
Credits = A × Total Virtual CPU Time + B × Total Virtual GPU Time
데이터 볼륨 기반 (Data Volume-Based)
사례: YData SDK (1 크레딧 = 100만 데이터 포인트 = $1), Gretel.ai, Datagen.in
소스 볼륨 기반 (Source Volume-Based)
사례: Tonic.ai (Structural). "소스 데이터 볼륨"(예: 2TB, 10TB)을 기준으로 책정
토큰/단어 기반 (Token/Word-Based)
사례: Tonic Textual ("처리된 단어 수"), YData SDK (1 크레딧 = 10,000 토큰), Gretel.ai
이미지 수 기반 (Image Count-Based)
사례: Datagen.in (30,000 크레딧 = 30,000 텍스트 행 또는 3,000 이미지)
→ 1 이미지 = 10 텍스트 행의 교환 가치
C. The Value-Add (가치 부가 서비스): "옵션"이 아닌 "필수" 비용
'가치 부가 서비스'는 플랫폼의 기본 기능을 넘어선 특정 도메인 문제 해결, 품질 보증, 시나리오 설계, 프라이버시 보증 등을 위한 전문 컨설팅 및 관리형 서비스입니다. 엔터프라이즈 시장에서 이는 '옵션'이 아닌 사실상의 '필수 핵심 비용'입니다.
정형/시계열 데이터
도메인 제약 적용, 희귀 이벤트 제어, 물리 법칙 반영 등 ($10k~$40k)
이미지/CV 데이터
커스텀 시나리오, 3D 자산 제작, TAM 지원 (최소 $10k~)
II. 모달리티 분석 I: 정형 및 시계열 데이터 (Tabular & Time-Series)
정형 및 시계열 데이터는 금융, 헬스케어, 제조(예: BMS) 등 핵심 산업에서 가장 널리 사용되는 모달리티입니다. 이 시장의 가격 모델은 '최소 약정'과 '가변 미터'의 다양한 조합을 보여주며, 특히 '전문 서비스'의 가치가 극대화되는 영역입니다.
핵심 테이블 1: 정형/시계열 벤더 가격 모델 비교
| 벤더 | 핵심 상품 | 최소 약정 (Platform Floor) |
가변 미터 (Variable Meter) |
BMS 프로젝트 비용 반영 방식 |
|---|---|---|---|---|
| MOSTLY AI | 플랫폼 (VPC) | $3,000 / 월 | vCPU/vGPU 시간 (크레딧) | 물리 제약 모델이 복잡할수록 '가변 미터' 비용(크레딧)이 직접 증가 |
| YData (SDK) | SDK (API) | $0 (PAYG) | $1 / 100만 데이터 포인트 | '가변 미터' 비용은 $172.80로 고정. '전문 서비스'($18k) 비용이 별도 부과 |
| YData (Fabric) | 플랫폼 (VPC) | 비공개 (Enterprise) | AWS 인프라 비용 (CPU/GPU) | 플랫폼 라이선스 + AWS 비용 + 전문 서비스 비용. TCO가 가장 복잡 |
| Gretel.ai | 플랫폼 (SaaS) | $295 / 월 | $2.20 / 크레딧 (런타임/토큰) | MOSTLY AI와 유사하게, 복잡한 작업(런타임)이 더 많은 '가변 미터' 비용 소모 |
| Tonic (Structural) | 플랫폼 (SaaS) | $199 / 월 | 소스 DB 크기 (예: 2TB) | 5일치 원본 데이터 크기에 비용 부과. 4배 증강(출력물)은 비용과 무관 |
전략적 시사점
BMS 프로젝트를 YData(볼륨 기반) 플랫폼에서 수행하면, 플랫폼 비용($172.80)은 미미하게 고정됩니다. 이는 고객에게 "지불하는 $18,000는 순수하게 Pebblous의 BMS 도메인 전문성에 대한 대가"임을 명확히 보여줄 수 있어 가치 전달에 가장 유리합니다.
반면, MOSTLY AI(컴퓨팅 기반)를 사용하면, 복잡한 BMS 모델이 더 많은 크레딧을 소모하므로 '가변 미터' 비용이 $172보다 훨씬 높게 나올 수 있어, 파트너사의 '전문 서비스' 가치가 상대적으로 희석될 수 있습니다.
III. 모달리티 분석 II: 텍스트 및 언어 데이터 (Text/NLP/LLM)
텍스트 모달리티는 LLM(대형 언어 모델)의 등장으로 인해 가격 책정 모델이 완전히 재정의되고 있습니다. 이제는 강력한 SOTA LLM에 추론(Inference) 요청을 보내는 것만으로 고품질의 합성데이터를 얻을 수 있게 되었습니다.
이러한 패러다임 전환은 텍스트 합성데이터의 가격 모델을 "합성데이터 생성 비용 = LLM 추론 비용"으로 수렴시키고 있습니다.
핵심 테이블 2: 텍스트 모달리티 가격 모델 비교
| 사용 사례 | 주요 벤더 | 가격 책정 단위 (Meter) | 비용 결정 요인 |
|---|---|---|---|
| 익명화 / 마스킹 | Tonic Textual | 처리된 단어(Word) 수 | 보호해야 할 원본 문서의 총량 |
| LLM 훈련 데이터 (특화 모델) |
Gretel.ai | 생성된 토큰(Token) 수 또는 작업 런타임 | 생성할 데이터의 양 + 프라이버시(DP) 적용 여부 |
| LLM 훈련 데이터 (SOTA 활용) |
AWS Bedrock | 교사 모델의 입/출력 토큰 수 | 선택한 교사 모델(예: Claude 3)의 API 가격 |
패러다임 전환: 교사 모델 비용 연동
AWS Bedrock의 가격 정책은 텍스트 합성데이터 시장의 중대한 패러다임 전환을 명확히 보여줍니다. Bedrock은 합성데이터 생성 비용을 "선택한 교사 모델의 온디맨드 가격"으로 정의합니다.
이는 "합성데이터 벤더"의 역할이 "고유한 생성 모델 제공자"에서, SOTA LLM을 활용하여 데이터를 생성하는 "프롬프트 오케스트레이션 및 프라이버시 레이어 제공자"로 전환되고 있음을 시사합니다.
IV. 모달리티 분석 III: 이미지 및 컴퓨터 비전 데이터 (Image & CV)
컴퓨터 비전(CV) 모달리티는 정형 또는 텍스트 데이터와는 근본적으로 다른 경제 구조를 가집니다. 이는 "헐리우드 모델"로 비유할 수 있습니다. 데이터 생성의 비용은 알고리즘이 아닌, 3D 자산, 시뮬레이션 엔진, 렌더링 파워라는 고가의 인프라에 의해 결정됩니다.
Rendered.ai
최소 약정
Teams: $5,000/월
Organizations: $15,000/월
가변 미터
최대 인스턴스, 스토리지(GB), 사용자 수
전문 서비스
Organizations 플랜에 TAM(기술 지원 매니저) 포함
Synthesis AI
플랫폼 구독
연간 구독: 월 $3,000부터
커스텀 프로젝트
최소 $10,000의 1회성 비용
모델
PaaS 구독과 DaaS 프로젝트의 명확한 분리
핵심 인사이트: 1 이미지 = 10 텍스트 행
Datagen.in의 크레딧 모델(30,000 크레딧 = 30,000 텍스트 행 또는 3,000 이미지)은 CV 데이터 생성이 정형 데이터 생성보다 10배의 가치 또는 비용을 가짐을 벤더 스스로 인정한 정량적 증거입니다.
CV 시장의 '최소 약정'($3,000 ~ $15,000)이 정형/텍스트($0 ~ $500)보다 압도적으로 높은 이유는 명확합니다. CV 시장은 데이터를 파는 것이 아니라, 고도로 전문화된 3D 시뮬레이션 소프트웨어 및 인프라 접근권을 판매합니다.
V. 공급 및 배포 모델 비교 분석 (API, SaaS, On-Premise)
합성데이터의 가격은 '무엇을' 사는지(모달리티)뿐만 아니라 '어떻게' 공급받는지(공급 정책)에 의해서도 크게 좌우됩니다.
A. API 기반 (Public SaaS)
가격 모델
순수 PAYG. 토큰, API 호출, 레코드당 과금
장점
초기 비용 $0, 즉각적 사용
단점
데이터 유출 리스크 - 민감한 원본 데이터를 벤더에 전송
B. 플랫폼 구독 (VPC)
가격 모델
플랫폼 최소 약정 + 가변 미터 + 클라우드 인프라 비용 (이중 과금)
장점
데이터 보안성 극대화 - 원본 데이터가 VPC를 벗어나지 않음
단점
이중 비용 구조 (라이선스비 + 인프라비)
C. 온프레미스 (On-Premise)
가격 모델
고가의 연간 라이선스 (통상 연 $80,000 ~ $200,000)
장점
최고 수준의 보안, 완전한 운영 제어권
단점
가장 높은 초기 비용, 자체 인프라 유지보수 부담
D. 프로젝트 기반 (Managed Service)
가격 모델
1회성 프로젝트 비용 (NRE)
장점
고정 비용, 플랫폼 학습 불필요, 결과물 보장
단점
확장성 부족 (새 데이터셋마다 새 계약 필요)
핵심 테이블 3: 공급 모델별 TCO 및 보안 영향 분석
| 공급 정책 | 비용 구조 | 보안 수준 | 데이터 이동성 | BMS 프로젝트 적용 전략 |
|---|---|---|---|---|
| API (Public SaaS) | PAYG (낮은 초기 비용) | 낮음 (데이터 외부 전송) | 높음 | 간단한 데모 또는 비민감 데이터 증강용 |
| VPC (Marketplace) | $3K+ MRC + 인프라 비용 (이중 과금) | 높음 (VPC 내 처리) | 없음 | BMS 원본 데이터 보안이 중요할 때 (고객에게 '이중 과금' 구조 설명 필수) |
| On-Premise (License) | $80K+ ARC (높은 초기 비용) | 최고 (Air-gapped) | 없음 | 최고 수준의 보안을 요구하는 금융/국방 고객용 |
| Project (Managed) | $10K+ NRE (고정 비용) | 높음 (벤더/파트너가 처리) | 낮음 (결과물만 전달) | 현재 PoC 모델. 고객의 플랫폼 도입 장벽을 제거하는 가장 효율적인 방식 |
VI. 전략적 결론 및 권고안
A. 내부 분석의 검증
BMS 시계열 데이터 증강 PoC를 위해 수립된 (플랫폼 최소 과금) + (사용량) + (전문 서비스)라는 3중 가격 책정 모델은, 글로벌 합성데이터 시장, 특히 고가치 엔터프라이즈 부문의 표준 모델임이 검증되었습니다.
또한, $10,000 ~ $40,000 범위의 PoC 비용 및 연간 $80,000 ~ $200,000의 엔터프라이즈 라이선스 비용 추정치는 시장 기준에 매우 현실적이고 부합하는 수준입니다.
B. 핵심 결론: 모달리티가 가격 구조를 결정한다
고객은 '데이터'가 아닌 '솔루션'을 구매합니다
엔터프라이즈 고객이 실제로 구매하는 것은 단순히 '데이터 1TB' 또는 '100만 레코드'가 아닙니다. 정형 데이터에서는 도메인 전문성, 텍스트 데이터에서는 SOTA LLM 접근권, 이미지 데이터에서는 3D 시뮬레이션 인프라입니다. 이것이 '데이터 포인트당 과금'이 시장의 실제 가격을 설명할 수 없는 이유입니다.
정형/시계열 (BMS)
가변 미터: $172 (미미)
비용의 99%는 전문 서비스 ($18,000)
→ 도메인 제약(Physics/Rules) 적용이 핵심 가치
텍스트 (LLM)
가변 미터가 비용의 상당 부분
교사 LLM의 추론 비용과 직결
→ API 토큰 비용 기반
이미지/비전 (CV)
최소 약정: $5,000 ~ $15,000
비용의 대부분이 플랫폼 최소 약정
→ 3D 시뮬레이션 인프라 + TAM 비용
가격 구성 비중: 모달리티별 비교
아래 차트는 각 데이터 모달리티별로 3중 요금제 구성 요소(Platform Floor, Variable Meter, Value-Add)가 전체 비용에서 차지하는 비중을 시각화한 것입니다. 모달리티의 특성에 따라 비용 구조가 근본적으로 다르게 나타남을 확인할 수 있습니다.
C. 전략적 권고
'가변 미터'의 전략적 선택
YData (볼륨 기반) 활용 시: 가변 미터 비용 $172.80 고정 → 고객에게 파트너사의 BMS 도메인 전문성 가치 명확히 전달 가능
'전문 서비스' 패키징 강화
$18,000의 "Pro" 패키지는 데이터 생성이 아닌, 'BMS 엔지니어링 컨설팅'으로 판매되어야 합니다.
'공급 정책'을 활용한 고객 세분화
'프로젝트 기반(Managed Service)' 접근은 PoC 및 신규 고객 확보에 최적. 장기 고객을 위해서는 'VPC 배포 + 연간 라이선스' 모델 준비 필요.
D. 참고: 페블러스 DataClinic의 가격 정책
본 분석에서 다룬 글로벌 합성데이터 벤더들과 유사하게, 페블러스의 DataClinic 역시 데이터 모달리티와 사용량에 기반한 투명한 가격 체계를 제공합니다. 데이터 품질 진단부터 불필요한 데이터를 제거하는 데이터 다이어트, 그리고 합성데이터로 부족한 데이터를 보강하는 데이터 벌크업까지, 고객의 필요에 맞는 다양한 데이터 개선 옵션을 제공합니다.
Free
₩0
/월
공개 데이터셋 품질진단
- 공개 데이터셋 무료 진단
- 기본 품질 리포트
- 커뮤니티 지원
Basic
₩10,000
/월
10,000장/월 진단 크레딧
- 월 10,000장 이미지 진단
- 상세 품질 리포트
- 이메일 지원
Pro
₩500,000
/월
20,000장/월, 고객 데이터 지원
- 월 20,000장 이미지 진단
- 고객 데이터 업로드 지원
- 커스텀 품질 기준 설정
- 우선 기술 지원
Enterprise
₩5,000,000
/월
200,000장/월, 데이터 개선 서비스
- 월 200,000장 이미지 진단
- 데이터 품질 개선 서비스
- 전담 기술 지원 매니저(TAM)
- SLA 보장 및 맞춤형 솔루션
참고문헌 (References)
- [1] Amazon Bedrock pricing. https://aws.amazon.com/bedrock/pricing/
- [2] Solutions Pricing for AI Synthetic Data Generation Needs. https://rendered.ai/pricing/
- [3] Human Faces Synthetic Dataset - AWS Marketplace. https://aws.amazon.com/marketplace/pp/prodview-hkxlb5jtkrics
- [4] YData data quality for Data Science | Synthetic data Data-Centric AI. https://ydata.ai/
- [5] Pricing - Tonic.ai. https://www.tonic.ai/pricing
- [6] Pay-As-You-Go Cloud Solution from Tonic. https://www.tonic.ai/blog/
- [7] Gretel.ai Reviews 2025: Pricing & Features. https://tekpon.com/software/gretel-ai/reviews/
- [8] Gretel.ai | BrXnd.ai Landscape. https://landscape.brxnd.ai/companies/gretelai
- [9] Hazy: Set your data free with synthetic data solutions. https://dynamicbusiness.com/ai-tools/
- [10] Pricing - MOSTLY AI. https://mostly.ai/pricing
- [11] AWS Marketplace: MOSTLY AI Data Intelligence Platform. https://aws.amazon.com/marketplace/pp/prodview-clqfgzfzznfoc
- [12] synthetic data platform as a service (paas) - Rendered.ai. https://rendered.ai/platform/
- [13] Usage and credits - Docs - Mostly AI. https://docs.mostly.ai/usage
- [14] What's new in MOSTLY AI. https://mostly.ai/docs/whats-new
- [15] Gretel.ai Pricing 2025. https://www.g2.com/products/gretel-ai/pricing
- [16] DataGen - AI Synthetic Data Solutions. https://datagen.in/
- [17] Billing and Usage | Gretel.ai. https://docs.gretel.ai/
- [18] What Is Synthetic Data? - Salesforce. https://www.salesforce.com/data/synthetic-data/
- [19] What is the ROI of synthetic data? - Syntho. https://www.syntho.ai/
- [20] Synthetic data tools: Open source or commercial? - Medium. https://medium.com/statice/