Executive Summary

글로벌 합성데이터 시장은 2025년 약 $5~9억에서 2030년 $25~34억(CAGR 31~46%)으로 급성장이 전망됩니다. 그러나 이 성장의 이면에서 다수의 합성데이터 스타트업이 폐업, 인수, 축소의 운명을 맞이했습니다.

본 보고서는 실패·인수·생존의 세 범주로 주요 합성데이터 기업을 분류하여, "단일 기능의 합성데이터 도구만으로는 생존할 수 없다"는 시장의 판결을 검증하고, 페블러스의 통합 플랫폼 전략의 타당성을 확인합니다.

아래 세 가지 수치는 합성데이터 시장의 급성장과 동시에 일어나는 구조적 재편을 집약합니다. 시장은 커지고 있지만, 살아남는 기업의 공통점은 '플랫폼화와 워크플로우 임베딩'이라는 사실이 드러났습니다.

$34B

2030년 시장 전망

2025년 $5~9억에서 CAGR 31~46% 급성장

$3.2B+

최대 M&A 규모

NVIDIA의 Gretel 인수 (2025.03)

$70M

최대 실패 규모

Datagen: $7,000만 유치 후 폐업

1

분석 배경

글로벌 합성데이터 시장은 2025년 약 $5~9억에서 2030년 $25~34억(CAGR 31~46%)으로 급성장이 전망됩니다. 그러나 이 성장의 이면에서 다수의 합성데이터 스타트업이 폐업, 인수, 축소의 운명을 맞이했습니다. Datagen의 $7,000만 유치 후 폐업, Synthesis AI의 사실상 소멸은 "단일 모달리티 합성데이터만으로는 지속가능한 비즈니스가 불가능하다"는 시장의 경고로 읽혀야 합니다.

본 보고서는 페블러스의 "Data Greenhouse + Data Clinic + PebbloSim" 통합 플랫폼 전략의 타당성을 검증하기 위해, 주요 합성데이터 기업의 근황을 실패·인수·생존의 세 범주로 분류하여 분석합니다.

2

실패 및 소멸 사례

아래 세 기업은 모두 컴퓨터 비전(CV) 합성데이터에 집중했다가, GenAI의 등장과 함께 핵심 가치가 구조적으로 무력화된 공통점을 갖고 있습니다.

2.1. Datagen — $7,000만 유치 후 $2,000만 남기고 폐업

Datagen은 컴퓨터 비전용 합성데이터 생성 플랫폼으로 급부상했으나, ChatGPT와 DALL-E 등 GenAI의 폭발적 성장이 규칙 기반 합성데이터 모델의 가치를 근본적으로 무력화했습니다.

항목 내용
설립2018년, 텔아비브 (이스라엘)
총 유치액$7,000만 (2022년 시리즈 B $5,000만 포함)
사업 영역컴퓨터 비전(CV)용 합성데이터 생성
최종 상태2024년 폐업 (은행 잔고 $2,000만)

단일 모달리티 의존

CV라는 단일 영역에 국한, 기술 패러다임 전환 시 방어 불가

GenAI 대응 실패

규칙 기반 → 생성형 AI 전환이 너무 근본적이어서 피봇 불가

워크플로우 비임베딩

고객 프로세스에 깊이 통합되지 못해 대체재 등장 시 즉시 이탈

페블러스 교훈

돈이 있어도 피봇할 "플랫폼적 기반"이 없으면 생존이 불가능합니다. 페블러스의 Data Greenhouse(데이터 OS)는 합성데이터 생성이라는 단일 기능을 넘어 "진단-판단-행동-증명"의 운영 체계를 지향하며, 이는 Datagen이 갖추지 못한 구조적 방어선입니다.

2.2. Synthesis AI — 직원 1~10명으로 급감 후 Globant에 흡수

Synthesis AI는 고품질 3D 합성 인간 이미지 생성으로 주목받았으나, "합성 인간 이미지"라는 지나치게 좁은 유스케이스만으로는 독립 기업으로 스케일하기 어려운 구조적 한계가 드러났습니다.

항목 내용
설립2019년, 샌프란시스코 (미국)
사업 영역포토리얼리스틱 합성 인간 데이터 생성
최종 상태2025년 9월 Globant에 인수

페블러스 교훈

기술 자체는 우수했지만 더 큰 SI/IT 서비스 기업의 "부품"으로 흡수되었습니다. 페블러스의 멀티도메인(자동차·국방·조선) 전략과 "진단→생성 자동 연동"이라는 통합 가치는 이런 "부품화" 위험을 구조적으로 회피하는 설계입니다.

2.3. AI.Reverie — 국방 계약 $9.5억에도 불구하고 Meta에 acqui-hire

In-Q-Tel(CIA 산하 벤처투자기관) 투자를 받고 미 공군 $9.5억 규모 계약을 체결했지만, $1,000만이라는 제한된 자본으로는 독립 기업으로 스케일하기 어려웠습니다. 2021년 Meta에 acqui-hire(인재 흡수) 형태로 인수되었습니다.

항목 내용
설립2017년, 뉴욕 (미국)
총 유치액$1,000만
사업 영역국방·리테일·농업·스마트시티 CV 합성데이터
최종 상태2021년 8월 Meta에 인수

페블러스 교훈

국방 계약은 시작점으로 강력하지만, 상용 매출과 균형을 맞추지 않으면 대기업의 인재 흡수 대상이 될 수 있습니다. 페블러스의 복수 대기업 고객(현대·한화·삼성·LG) 확보와 정부과제 비중 50% 이하 관리 전략은 이 교훈을 반영한 것입니다.

3

전략적 인수(M&A)를 통한 엑싯 사례

2024~2025년의 M&A 활동은 대형 기업들이 합성데이터를 자체 생태계에 내재화하려는 강력한 수요를 보여줍니다. 인수는 기술 검증이지만 독립성의 상실이기도 합니다.

3.1. Gretel — NVIDIA에 $3.2억+ 인수 (2025년 3월)

Gretel은 "프라이버시 보존 합성데이터"라는 명확한 가치 제안으로 시작하여, API 기반 개발자 친화적 플랫폼을 구축했습니다. 2023년 12월 Microsoft Azure 파트너십을 통해 엔터프라이즈 고객 기반을 확보한 것이 인수가를 높인 핵심 요인입니다.

항목 내용
설립2019년, 샌디에이고 (미국)
총 유치액$6,700만+
사업 영역프라이버시 보존 합성데이터 (정형·시계열·텍스트)
최종 상태2025년 3월 NVIDIA에 인수 (>$3.2억)

GTC 2025에서 발표된 이 인수는 NVIDIA의 합성데이터 전략과 정확히 맞물렸습니다. NVIDIA는 이미 Omniverse Replicator, Nemotron-4 340B, Cosmos 등을 통해 합성데이터 생태계를 구축하고 있었으며, Gretel의 정형/텍스트 데이터 역량은 NVIDIA의 비정형(이미지/비디오) 중심 포트폴리오를 보완합니다.

3.2. Hazy — SAS에 IP 인수 (2024년 11월)

SAS가 Hazy의 "주요 소프트웨어 자산"을 인수한 것으로, 회사 전체의 인수가 아닌 기술 자산 매각에 가까웠습니다. SAS는 이 기술을 SAS Data Maker에 통합하여 제품 성숙도를 약 2년 앞당겼다고 평가했습니다.

항목 내용
설립2017년, 런던 (영국)
총 유치액$1,130만
사업 영역금융·헬스케어 규제 산업용 정형 합성데이터
최종 상태2024년 11월 SAS에 IP 인수

소규모 합성데이터 순수 플레이어는 대형 분석 플랫폼의 "기능 모듈"로 흡수되는 경로가 현실적 엑싯이 될 수 있지만, 기업가치 극대화에는 한계가 있습니다.

M&A 시장 시그널

아래 표는 2021~2025년 주요 합성데이터 M&A를 정리한 것입니다.

인수자 피인수자 시기 금액 전략적 의미
NVIDIAGretel2025.03>$3.2억AI 개발자 서비스 포트폴리오 강화
SASHazy (IP)2024.11비공개분석 플랫폼의 합성데이터 기능 내재화
GlobantSynthesis AI2025.09비공개디지털 트윈 스튜디오 역량 확장
MetaAI.Reverie2021.08비공개메타버스 개발용 합성데이터 확보
4

독립적으로 생존·성장 중인 기업

독립적으로 생존 중인 기업들은 모두 '워크플로우에 깊이 임베딩되어 높은 전환비용을 만들어낸 플랫폼 전략'이라는 공통점을 갖고 있습니다.

4.1. MOSTLY AI — 오픈소스 전환으로 생존 전략 재정립

2025년 2월, MOSTLY AI는 Apache v2 라이선스의 "업계 최초 산업급 오픈소스 합성데이터 툴킷"을 공개하며 전략적 전환을 단행했습니다.

항목 내용
설립2017년, 빈 (오스트리아)
총 유치액$3,100만 (시리즈 B $2,500만 포함)
주요 고객Citi Bank, 미 국토안보부, Erste Group, Telefonica
현재 상태독립 운영 중, 오픈소스 전환

3단계 수익 모델

오픈소스 SDK (무료)

Apache v2, 완전한 로컬 실행

클라우드 플랫폼 (프리미엄)

무료 티어 + AWS Marketplace 유료 배포

엔터프라이즈 (커스텀)

제한 없는 사용량의 전용 환경 배포

페블러스 시사점

MOSTLY AI의 오픈소스 전환은 "정형 데이터 합성"이 범용화(commoditization)되고 있다는 강력한 신호입니다. 페블러스의 차별화 포인트인 "물리 시뮬레이션 기반 비정형 합성데이터 + 뉴로-심볼릭 품질 평가"는 이런 범용화에서 자유로운 고부가가치 영역입니다.

4.2. Parallel Domain — NVIDIA 생태계의 핵심 파트너

자율주행 합성데이터에 특화하면서 NVIDIA Cosmos 생태계의 핵심 파트너로 포지셔닝했습니다. 총 유치액 약 $4,500만, 독립 기업으로 유지되면서 NVIDIA의 고객 기반에 접근할 수 있는 "생태계 파트너" 모델입니다.

페블러스 시사점

"NVIDIA 생태계 파트너"라는 포지션은 PebbloSim이 Omniverse 위에서 구동되는 구조와 유사한 접근입니다. 페블러스도 중기적으로 NVIDIA Omniverse/Cosmos 생태계 내 파트너 포지셔닝을 고려할 필요가 있습니다.

4.3. Tonic.ai — DevOps/테스팅 시장에서 견고한 입지

"AI 학습용 합성데이터"가 아닌 "소프트웨어 테스팅용 합성데이터"라는 인접하지만 다른 시장을 공략했습니다. 참조 무결성과 복잡한 데이터 관계를 유지하는 고품질 합성 데이터로, DevOps 파이프라인에 깊이 통합되어 높은 전환비용을 창출한 것이 생존의 핵심 요인입니다. 총 유치액 약 $4,670만, 독립 운영 중입니다.

5

종합 패턴 분석

5.1. 실패 기업의 공통 요인

실패한 기업들은 모두 단일 모달리티에 의존하고, 데이터를 일회성 상품으로 판매했으며, 고객 워크플로우에 깊이 통합되지 못한 공통점을 보입니다.

실패 요인 Datagen Synthesis AI AI.Reverie
단일 모달리티/유스케이스✕ CV만✕ 합성 인간만부분적
데이터의 일회성 상품화
기술 패러다임 전환 대응 실패✕ GenAI✕ GenAIN/A
워크플로우 비임베딩부분적

5.2. 생존/성공 기업의 공통 요인

반대로 생존하거나 높은 가치로 인수된 기업들은 멀티모듈 플랫폼, 워크플로우 임베딩, 생태계 파트너십을 통한 높은 전환비용을 공통적으로 갖추고 있습니다.

성공 요인 Applied Intuition MOSTLY AI Parallel Domain Tonic.ai
플랫폼화 (멀티모듈)부분적
워크플로우 깊이 임베딩
생태계 파트너십AWS Marketplace✓ NVIDIA
높은 전환비용 창출
6

페블러스에 대한 전략적 시사점

6.1. 구조적 차별화가 더욱 중요해지는 이유

실패한 기업들은 모두 "데이터 생성"이라는 단일 가치에 의존했습니다. 페블러스의 "진단(Data Clinic) → 생성(PebbloSim) → 관리(Data Greenhouse) → 증적(운영 증거 패키지)"이라는 통합 루프는 이런 실패 패턴을 구조적으로 회피하는 설계입니다.

워크플로우 임베딩

Data Greenhouse는 일회성 데이터 납품이 아니라, 고객의 데이터 운영 체계에 OS 레벨로 통합됩니다.

진단→생성 자동 연동

Data Clinic의 진단 결과가 PebbloSim의 생성 파라미터로 자동 변환(Vector-to-Param)되는 구조는 글로벌 시장에서 유일한 통합입니다.

물리 시뮬레이션 + 규제

정형 데이터 합성의 범용화와 달리, 물리 시뮬레이션 기반 합성데이터 + ISO 42001/EU AI Act 규제 증적은 고부가가치 영역입니다.

6.2. 경계해야 할 리스크

시간과의 싸움

Datagen은 $2,000만을 남기고도 폐업했습니다. 통합이 "계획"이 아닌 "실제 작동하는 제품"으로 빠르게 전환되어야 합니다.

NVIDIA의 수직 통합

Gretel 인수 이후 NVIDIA는 합성데이터 풀스택을 보유하게 되었습니다. "생태계 파트너"가 될 것인지, "경쟁"할 것인지의 포지셔닝 결정이 필요합니다.

GenAI의 계속된 진화

페블러스의 뉴로-심볼릭 접근(물리 법칙 기반 시뮬레이션 + 생성형 AI)은 순수 GenAI보다 "물리적 환각(Physical Hallucination) 제로화"라는 명확한 차별점을 갖습니다.

6.3. 벤치마크 전략 요약

벤치마크 기업 배울 점 경계할 점
Applied Intuition ($150억)멀티모듈 랜드앤익스팬드, 매출총이익률 85%AV 특화에서 벗어나는 데 오래 걸림
MOSTLY AI (독립 생존)오픈소스 + 엔터프라이즈 업셀 모델정형 데이터 범용화 위험
Parallel DomainNVIDIA 생태계 내 독립적 포지션자율주행 단일 도메인 의존
Datagen (폐업)--단일 모달리티, 피봇 실패
Scale AI ($290억)데이터 플라이휠 (130억+ 어노테이션)라벨링 중심, 직접 비교 어려움
Palantir ($2,500억)정부→상용 전환의 궁극적 성공 사례17년이 소요됨
7

결론

합성데이터 시장의 2024~2025년 구조 변화는 극적입니다. Datagen의 폐업, Synthesis AI의 소멸, AI.Reverie의 흡수는 "단일 기능의 합성데이터 도구"만으로는 지속가능한 비즈니스가 불가능하다는 시장의 냉엄한 판결입니다.

성공한 기업들은 모두 워크플로우에 깊이 임베딩되어 높은 전환비용을 만들어낸 플랫폼 전략을 취했습니다. 이는 페블러스의 "Data Greenhouse + Data Clinic + PebbloSim" 통합 플랫폼 전략이 올바른 방향임을 확인해 줍니다.

다만, 전략의 올바름과 실행의 성공은 다른 문제입니다. Datagen이 $2,000만을 남기고도 폐업한 사례는 속도가 생존의 핵심 변수임을 상기시킵니다.

PDF

PDF 리포트 다운로드

합성데이터 기업 흥망성쇠 종합분석

클릭하여 전체 보고서를 확인하세요 (PDF)

참고문헌

  1. [1] Datagen 폐업 분석 -- TechCrunch, CTech (2024)
  2. [2] Synthesis AI -- Globant 인수 발표 (2025)
  3. [3] AI.Reverie -- Meta 인수 분석, The Information (2021)
  4. [4] Gretel -- NVIDIA 인수, GTC 2025 발표 (2025)
  5. [5] Hazy -- SAS IP 인수, IDC 분석 (2024)
  6. [6] MOSTLY AI -- 오픈소스 전환, Apache v2 (2025)
  7. [7] Parallel Domain -- NVIDIA Cosmos 파트너십 (2025)
  8. [8] Tonic.ai -- 엔터프라이즈 합성데이터 시장 분석 (2025)
  9. [9] Applied Intuition -- $150억 기업가치 평가, Forbes (2024)
  10. [10] Grand View Research, "Synthetic Data Market Size Report" (2025)
  11. [11] MarketsandMarkets, "Synthetic Data Generation Market" (2025)
  12. [12] CB Insights, "Top 100 AI Startups" (2019, 2021)
  13. [13] IDC, "GenAI in Enterprise Data Generation" (2024)
  14. [14] Scale AI -- $290억 기업가치, Accel Partners (2024)
  15. [15] Palantir Technologies -- 2025년 연간 보고서 (NYSE: PLTR)