초록 (Executive Summary)
"단일 기능의 합성데이터 도구"만으로는 생존할 수 없다
글로벌 합성데이터 시장은 2025년 약 $5~9억에서 2030년 $25~34억(CAGR 31~46%)으로 급성장이 전망됩니다. 그러나 이 성장의 이면에서 다수의 합성데이터 스타트업이 폐업, 인수, 축소의 운명을 맞이했습니다. 본 보고서는 실패·인수·생존의 세 범주로 주요 합성데이터 기업을 분류하여, 페블러스의 통합 플랫폼 전략의 타당성을 검증합니다.
아래 세 가지 수치는 합성데이터 시장의 급성장과 동시에 일어나는 구조적 재편을 집약합니다. 시장은 커지고 있지만, 살아남는 기업의 공통점은 '플랫폼화와 워크플로우 임베딩'이라는 사실이 드러났습니다.
2030년 시장 전망
2025년 $5~9억에서 2030년 $25~34억으로 CAGR 31~46% 급성장
최대 M&A 규모
NVIDIA의 Gretel 인수 (2025년 3월, 9자릿수 금액)
최대 실패 규모
Datagen: $7,000만 유치 후 $2,000만 남기고 폐업
1. 분석 배경
글로벌 합성데이터 시장은 2025년 약 $5~9억에서 2030년 $25~34억(CAGR 31~46%)으로 급성장이 전망됩니다. 그러나 이 성장의 이면에서 다수의 합성데이터 스타트업이 폐업, 인수, 축소의 운명을 맞이했습니다. Datagen의 $7,000만 유치 후 폐업, Synthesis AI의 사실상 소멸은 "단일 모달리티 합성데이터만으로는 지속가능한 비즈니스가 불가능하다"는 시장의 경고로 읽혀야 합니다.
본 보고서는 페블러스의 "Data Greenhouse + Data Clinic + PebbloSim" 통합 플랫폼 전략의 타당성을 검증하기 위해, 주요 합성데이터 기업의 근황을 실패·인수·생존의 세 범주로 분류하여 분석합니다.
2. 실패 및 소멸 사례
아래 세 기업은 모두 컴퓨터 비전(CV) 합성데이터에 집중했다가, GenAI의 등장과 함께 핵심 가치가 구조적으로 무력화된 공통점을 갖고 있습니다. 각 기업의 타임라인과 핵심 실패 요인을 정리했습니다.
2.1. Datagen — $7,000만 유치 후 $2,000만 남기고 폐업
Datagen은 컴퓨터 비전용 합성데이터 생성 플랫폼으로 급부상했으나, ChatGPT와 DALL-E 등 GenAI의 폭발적 성장이 규칙 기반 합성데이터 모델의 가치를 근본적으로 무력화했습니다.
| 항목 | 내용 |
|---|---|
| 설립 | 2018년, 텔아비브 (이스라엘) |
| 창업자 | Ofir Chakon, Gil Elbaz (Technion 졸업) |
| 총 유치액 | $7,000만 (2022년 시리즈 B $5,000만 포함) |
| 사업 영역 | 컴퓨터 비전(CV)용 합성데이터 생성 |
| 최종 상태 | 2024년 폐업 (은행 잔고 $2,000만) |
흥망의 타임라인
2018~2022년 (전성기)
VR/AR, 자율주행, 로보틱스, IoT 보안을 위한 포토리얼리스틱 합성데이터 생성 플랫폼으로 급부상. 2022년 시리즈 B에서 $5,000만을 유치하며 절정에 달했습니다.
2023년 (위기 발생)
ChatGPT, DALL-E, MidJourney 등 GenAI의 폭발적 성장이 핵심 가치를 구조적으로 무력화. 미디어 생성 AI로의 피봇을 시도했으나 실패. CTO Gil Elbaz 사임.
2024년 (폐업)
20여 명으로 축소된 팀으로 생존 가능한 비즈니스 모델을 찾지 못하고, $2,000만이 남아 있음에도 최종 폐업.
단일 모달리티 의존
CV라는 단일 영역에 국한, 기술 패러다임 전환 시 방어 불가
GenAI 대응 실패
규칙 기반 → 생성형 AI 전환이 너무 근본적이어서 피봇 불가
워크플로우 비임베딩
고객 프로세스에 깊이 통합되지 못해 대체재 등장 시 즉시 이탈
페블러스 교훈
돈이 있어도 피봇할 "플랫폼적 기반"이 없으면 생존이 불가능합니다. 페블러스의 Data Greenhouse(데이터 OS)는 합성데이터 생성이라는 단일 기능을 넘어 "진단-판단-행동-증명"의 운영 체계를 지향하며, 이는 Datagen이 갖추지 못한 구조적 방어선입니다.
2.2. Synthesis AI — 직원 1~10명으로 급감 후 Globant에 흡수
Synthesis AI는 고품질 3D 합성 인간 이미지 생성으로 주목받았으나, "합성 인간 이미지"라는 지나치게 좁은 유스케이스만으로는 독립 기업으로 스케일하기 어려운 구조적 한계가 드러났습니다.
| 항목 | 내용 |
|---|---|
| 설립 | 2019년, 샌프란시스코 (미국) |
| 사업 영역 | 포토리얼리스틱 합성 인간 데이터 생성 |
| 적용 분야 | 얼굴 인식, AR/VR, 자동차, 보안 |
| 최종 상태 | 2025년 9월 Globant에 인수 |
좁은 유스케이스
시장 크기가 제한적이며 범용 플랫폼으로 확장 어려움
반복 매출 부재
데이터셋 일회성 판매 모델로는 지속 성장 불가
기술적 해자 부족
GenAI가 유사 품질을 더 빠르고 저렴하게 생성
페블러스 교훈
기술 자체는 우수했지만 더 큰 SI/IT 서비스 기업의 "부품"으로 흡수되었습니다. 페블러스의 멀티도메인(자동차·국방·조선) 전략과 "진단→생성 자동 연동"이라는 통합 가치는 이런 "부품화" 위험을 구조적으로 회피하는 설계입니다.
2.3. AI.Reverie — 국방 계약 $9.5억에도 불구하고 Meta에 acqui-hire
In-Q-Tel(CIA 산하 벤처투자기관) 투자를 받고 미 공군 $9.5억 규모 계약을 체결했지만, $1,000만이라는 제한된 자본으로는 독립 기업으로 스케일하기 어려웠습니다. 2021년 Meta에 acqui-hire(인재 흡수) 형태로 인수되었습니다.
| 항목 | 내용 |
|---|---|
| 설립 | 2017년, 뉴욕 (미국) |
| 총 유치액 | $1,000만 |
| 주요 투자자 | In-Q-Tel(CIA 벤처), Compound, Resolute Ventures |
| 사업 영역 | 국방·리테일·농업·스마트시티 CV 합성데이터 |
| 최종 상태 | 2021년 8월 Meta에 인수 |
페블러스 교훈
국방 계약은 시작점으로 강력하지만, 상용 매출과 균형을 맞추지 않으면 대기업의 인재 흡수 대상이 될 수 있습니다. 페블러스의 복수 대기업 고객(현대·한화·삼성·LG) 확보와 정부과제 비중 50% 이하 관리 전략은 이 교훈을 반영한 것입니다.
3. 전략적 인수(M&A)를 통한 엑싯 사례
2024~2025년의 M&A 활동은 대형 기업들이 합성데이터를 자체 생태계에 내재화하려는 강력한 수요를 보여줍니다. 인수는 기술 검증이지만 독립성의 상실이기도 합니다.
3.1. Gretel — NVIDIA에 $3.2억+ 인수 (2025년 3월)
Gretel은 "프라이버시 보존 합성데이터"라는 명확한 가치 제안으로 시작하여, API 기반 개발자 친화적 플랫폼을 구축했습니다. 2023년 12월 Microsoft Azure 파트너십을 통해 엔터프라이즈 고객 기반을 확보한 것이 인수가를 높인 핵심 요인입니다.
| 항목 | 내용 |
|---|---|
| 설립 | 2019년, 샌디에이고 (미국) |
| 총 유치액 | $6,700만+ |
| 주요 투자자 | Anthos Capital, Greylock, Moonshots Capital |
| 사업 영역 | 프라이버시 보존 합성데이터 (정형·시계열·텍스트) |
| 최종 상태 | 2025년 3월 NVIDIA에 인수 (>$3.2억) |
GTC 2025에서 발표된 이 인수는 NVIDIA의 합성데이터 전략과 정확히 맞물렸습니다. NVIDIA는 이미 Omniverse Replicator, Nemotron-4 340B, Cosmos 등을 통해 합성데이터 생태계를 구축하고 있었으며, Gretel의 정형/텍스트 데이터 역량은 NVIDIA의 비정형(이미지/비디오) 중심 포트폴리오를 보완합니다. 약 80명의 팀 전체가 NVIDIA에 합류했습니다.
3.2. Hazy — SAS에 IP 인수 (2024년 11월)
SAS가 Hazy의 "주요 소프트웨어 자산"을 인수한 것으로, 회사 전체의 인수가 아닌 기술 자산 매각에 가까웠습니다. SAS는 이 기술을 SAS Data Maker에 통합하여 제품 성숙도를 약 2년 앞당겼다고 평가했습니다.
| 항목 | 내용 |
|---|---|
| 설립 | 2017년, 런던 (영국) |
| 총 유치액 | $1,130만 |
| 사업 영역 | 금융·헬스케어 규제 산업용 정형 합성데이터 |
| 최종 상태 | 2024년 11월 SAS에 IP 인수 |
소규모 합성데이터 순수 플레이어는 대형 분석 플랫폼의 "기능 모듈"로 흡수되는 경로가 현실적 엑싯이 될 수 있지만, 기업가치 극대화에는 한계가 있습니다.
M&A 시장 시그널
아래 표는 2021~2025년 주요 합성데이터 M&A를 정리한 것입니다. 대형 기업들이 합성데이터를 자체 생태계의 필수 구성요소로 인식하고 있음을 보여줍니다.
| 인수자 | 피인수자 | 시기 | 금액 | 전략적 의미 |
|---|---|---|---|---|
| NVIDIA | Gretel | 2025.03 | >$3.2억 | AI 개발자 서비스 포트폴리오 강화 |
| SAS | Hazy (IP) | 2024.11 | 비공개 | 분석 플랫폼의 합성데이터 기능 내재화 |
| Globant | Synthesis AI | 2025.09 | 비공개 | 디지털 트윈 스튜디오 역량 확장 |
| Meta | AI.Reverie | 2021.08 | 비공개 | 메타버스 개발용 합성데이터 확보 |
4. 독립적으로 생존·성장 중인 기업
독립적으로 생존 중인 기업들은 모두 '워크플로우에 깊이 임베딩되어 높은 전환비용을 만들어낸 플랫폼 전략'이라는 공통점을 갖고 있습니다.
4.1. MOSTLY AI — 오픈소스 전환으로 생존 전략 재정립
2025년 2월, MOSTLY AI는 Apache v2 라이선스의 "업계 최초 산업급 오픈소스 합성데이터 툴킷"을 공개하며 전략적 전환을 단행했습니다. 핵심 기술인 TabularARGN 모델은 비교 모델 대비 1~2자릿수 높은 효율성으로, CPU 환경에서도 수분 내에 수백만 건의 합성 레코드를 생성할 수 있습니다.
| 항목 | 내용 |
|---|---|
| 설립 | 2017년, 빈 (오스트리아) |
| 총 유치액 | $3,100만 (시리즈 B $2,500만 포함) |
| 주요 고객 | Citi Bank, 미 국토안보부, Erste Group, Telefonica |
| 현재 상태 | 독립 운영 중, 오픈소스 전환 |
3단계 수익 모델
오픈소스 SDK (무료)
Apache v2, 완전한 로컬 실행
클라우드 플랫폼 (프리미엄)
무료 티어 + AWS Marketplace 유료 배포
엔터프라이즈 (커스텀)
제한 없는 사용량의 전용 환경 배포
페블러스 시사점
MOSTLY AI의 오픈소스 전환은 "정형 데이터 합성"이 범용화(commoditization)되고 있다는 강력한 신호입니다. 페블러스의 차별화 포인트인 "물리 시뮬레이션 기반 비정형 합성데이터 + 뉴로-심볼릭 품질 평가"는 이런 범용화에서 자유로운 고부가가치 영역입니다.
4.2. Parallel Domain — NVIDIA 생태계의 핵심 파트너
자율주행 합성데이터에 특화하면서 NVIDIA Cosmos 생태계의 핵심 파트너로 포지셔닝했습니다. PD Replica Sim에 NVIDIA Cosmos Transfer 모델을 통합하여, 물리적으로 정합된 장면의 실사 수준 변형을 생성하는 역량을 확보했습니다. 총 유치액 약 $4,500만, 독립 기업으로 유지되면서 NVIDIA의 고객 기반에 접근할 수 있는 "생태계 파트너" 모델입니다.
페블러스 시사점
"NVIDIA 생태계 파트너"라는 포지션은 PebbloSim이 Omniverse 위에서 구동되는 구조와 유사한 접근입니다. 페블러스도 중기적으로 NVIDIA Omniverse/Cosmos 생태계 내 파트너 포지셔닝을 고려할 필요가 있습니다.
4.3. Tonic.ai — DevOps/테스팅 시장에서 견고한 입지
"AI 학습용 합성데이터"가 아닌 "소프트웨어 테스팅용 합성데이터"라는 인접하지만 다른 시장을 공략했습니다. 참조 무결성과 복잡한 데이터 관계를 유지하는 고품질 합성 데이터로, DevOps 파이프라인에 깊이 통합되어 높은 전환비용을 창출한 것이 생존의 핵심 요인입니다. 총 유치액 약 $4,670만, 독립 운영 중입니다.
5. 종합 패턴 분석
5.1. 실패 기업의 공통 요인
실패한 기업들은 모두 단일 모달리티에 의존하고, 데이터를 일회성 상품으로 판매했으며, 고객 워크플로우에 깊이 통합되지 못한 공통점을 보입니다.
| 실패 요인 | Datagen | Synthesis AI | AI.Reverie |
|---|---|---|---|
| 단일 모달리티/유스케이스 | ✕ CV만 | ✕ 합성 인간만 | 부분적 |
| 데이터의 일회성 상품화 | ✕ | ✕ | ✕ |
| 기술 패러다임 전환 대응 실패 | ✕ GenAI | ✕ GenAI | N/A |
| 워크플로우 비임베딩 | ✕ | ✕ | 부분적 |
5.2. 생존/성공 기업의 공통 요인
반대로 생존하거나 높은 가치로 인수된 기업들은 멀티모듈 플랫폼, 워크플로우 임베딩, 생태계 파트너십을 통한 높은 전환비용을 공통적으로 갖추고 있습니다.
| 성공 요인 | Applied Intuition | MOSTLY AI | Parallel Domain | Tonic.ai |
|---|---|---|---|---|
| 플랫폼화 (멀티모듈) | ✓ | ✓ | 부분적 | ✓ |
| 워크플로우 깊이 임베딩 | ✓ | ✓ | ✓ | ✓ |
| 생태계 파트너십 | ✓ | AWS Marketplace | ✓ NVIDIA | ✓ |
| 높은 전환비용 창출 | ✓ | ✓ | ✓ | ✓ |
6. 페블러스에 대한 전략적 시사점
6.1. 구조적 차별화가 더욱 중요해지는 이유
실패한 기업들은 모두 "데이터 생성"이라는 단일 가치에 의존했습니다. 페블러스의 "진단(Data Clinic) → 생성(PebbloSim) → 관리(Data Greenhouse) → 증적(운영 증거 패키지)"이라는 통합 루프는 이런 실패 패턴을 구조적으로 회피하는 설계입니다.
워크플로우 임베딩
Data Greenhouse는 일회성 데이터 납품이 아니라, 고객의 데이터 운영 체계에 OS 레벨로 통합됩니다. Applied Intuition과 Scale AI가 증명한 "높은 전환비용" 전략과 동일한 구조입니다.
진단→생성 자동 연동
Data Clinic의 진단 결과가 PebbloSim의 생성 파라미터로 자동 변환(Vector-to-Param)되는 구조는, 현재 글로벌 시장에서 어떤 기업도 제공하지 않는 유일한 통합입니다.
물리 시뮬레이션 + 규제
정형 데이터 합성의 범용화와 달리, 물리 시뮬레이션 기반 합성데이터 + ISO 42001/EU AI Act 규제 증적은 고부가가치 영역입니다.
6.2. 경계해야 할 리스크
시간과의 싸움
Datagen은 $2,000만을 남기고도 폐업했습니다. 통합이 "계획"이 아닌 "실제 작동하는 제품"으로 빠르게 전환되어야 합니다.
NVIDIA의 수직 통합
Gretel 인수 이후 NVIDIA는 합성데이터 풀스택을 보유하게 되었습니다. "생태계 파트너"가 될 것인지, "경쟁"할 것인지의 포지셔닝 결정이 필요합니다.
GenAI의 계속된 진화
페블러스의 뉴로-심볼릭 접근(물리 법칙 기반 시뮬레이션 + 생성형 AI)은 순수 GenAI보다 "물리적 환각(Physical Hallucination) 제로화"라는 명확한 차별점을 갖습니다.
6.3. 벤치마크 전략 요약
아래 표는 페블러스가 참고해야 할 벤치마크 기업 6곳의 교훈과 경계점을 정리한 것입니다.
| 벤치마크 기업 | 배울 점 | 경계할 점 |
|---|---|---|
| Applied Intuition ($150억) | 멀티모듈 랜드앤익스팬드, 매출총이익률 85% | AV 특화에서 벗어나는 데 오래 걸림 |
| MOSTLY AI (독립 생존) | 오픈소스 + 엔터프라이즈 업셀 모델 | 정형 데이터 범용화 위험 |
| Parallel Domain (생태계 파트너) | NVIDIA 생태계 내 독립적 포지션 | 자율주행 단일 도메인 의존 |
| Datagen (폐업) | — | 단일 모달리티, 피봇 실패, $2,000만으로도 생존 불가 |
| Scale AI ($290억) | 데이터 플라이휠 (130억+ 어노테이션) | 데이터 라벨링이 핵심이므로 직접 비교 어려움 |
| Palantir ($2,500억) | 정부→상용 전환의 궁극적 성공 사례 | 17년이 소요됨 |
7. 결론
합성데이터 시장의 2024~2025년 구조 변화는 극적입니다. Datagen의 폐업, Synthesis AI의 소멸, AI.Reverie의 흡수는 "단일 기능의 합성데이터 도구"만으로는 지속가능한 비즈니스가 불가능하다는 시장의 냉엄한 판결입니다.
성공한 기업들은 모두 워크플로우에 깊이 임베딩되어 높은 전환비용을 만들어낸 플랫폼 전략을 취했습니다. 이는 페블러스의 "Data Greenhouse + Data Clinic + PebbloSim" 통합 플랫폼 전략이 올바른 방향임을 확인해 줍니다.
다만, 전략의 올바름과 실행의 성공은 다른 문제입니다. Datagen이 $2,000만을 남기고도 폐업한 사례는 속도가 생존의 핵심 변수임을 상기시킵니다.
자주 묻는 질문 (FAQ)
합성데이터 기업들이 실패하는 가장 큰 원인은 무엇인가요?
분석 결과, 단일 모달리티(예: 이미지만)에 의존하고 고객 워크플로우에 깊이 통합되지 못한 것이 가장 큰 실패 원인입니다. Datagen과 Synthesis AI 모두 GenAI의 등장에 대응하지 못했고, 일회성 데이터 판매 모델로는 지속가능한 매출을 만들 수 없었습니다.
NVIDIA는 왜 Gretel을 $3.2억 이상에 인수했나요?
NVIDIA는 이미 Omniverse Replicator와 Cosmos를 통해 비정형(이미지/비디오) 합성데이터 생태계를 구축하고 있었습니다. Gretel의 정형/텍스트 데이터 역량은 이 포트폴리오를 보완하며, API 기반 개발자 친화적 플랫폼과 Microsoft Azure 파트너십을 통한 엔터프라이즈 고객 기반이 인수가를 높인 핵심 요인입니다.
합성데이터 기업이 독립적으로 생존하려면 어떤 조건이 필요한가요?
생존 기업들의 공통 조건은 세 가지입니다: 1) 멀티모듈 플랫폼화로 다양한 가치를 제공, 2) 고객 워크플로우에 깊이 임베딩되어 높은 전환비용 창출, 3) NVIDIA, AWS 등 대형 플랫폼과의 생태계 파트너십 구축. 이 세 조건을 모두 갖추지 못하면 대기업에 흡수되거나 폐업할 위험이 높습니다.
페블러스의 통합 플랫폼 전략이 실패 기업들과 다른 점은 무엇인가요?
페블러스는 "진단(Data Clinic) → 생성(PebbloSim) → 관리(Data Greenhouse) → 증적(운영 증거 패키지)"의 통합 루프를 제공합니다. 특히 Data Clinic의 진단 결과가 PebbloSim의 생성 파라미터로 자동 변환(Vector-to-Param)되는 구조는 글로벌 시장에서 유일한 통합이며, 이는 단일 기능에 의존했던 실패 기업들과 근본적으로 다른 구조적 방어선입니다.
정형 데이터 합성이 범용화되고 있다는 것은 무슨 의미인가요?
MOSTLY AI가 핵심 기술을 오픈소스로 공개한 것은, 정형 데이터 합성 기술 자체로는 더 이상 유료 소프트웨어로서의 차별성을 유지하기 어렵다는 의미입니다. 반면 물리 시뮬레이션 기반 비정형 합성데이터와 ISO 42001/EU AI Act 규제 증적 결합은 아직 범용화되지 않은 고부가가치 영역으로, 페블러스가 집중하는 분야입니다.
GenAI의 등장은 합성데이터 기업에 어떤 영향을 미쳤나요?
GenAI는 규칙 기반 합성데이터 생성 모델을 근본적으로 무력화했습니다. DALL-E, MidJourney 등이 더 효율적이고 유연하게 이미지 데이터를 생성하게 되면서, Datagen과 Synthesis AI 같은 기업의 핵심 가치가 사라졌습니다. 다만, 물리 법칙 준수가 필수인 자율주행, 제조 시뮬레이션 등의 영역에서는 GenAI만으로는 "물리적 환각(Physical Hallucination)"을 해결할 수 없어, 뉴로-심볼릭 접근이 여전히 유효합니다.
합성데이터 시장의 향후 전망은 어떤가요?
IDC에 따르면 2026년까지 기업의 75%가 합성 고객 데이터 생성에 생성형 AI를 활용할 것으로 전망됩니다(2023년 5% 미만). 시장 규모는 2030년 $25~34억으로 성장하지만, 단순 데이터 생성 도구는 범용화되고, 워크플로우 임베딩·규제 대응·멀티도메인 통합이 가능한 플랫폼 기업만 독립적으로 생존할 것입니다.
PDF 리포트 다운로드
합성데이터 기업 흥망성쇠 종합분석
클릭하여 전체 보고서를 확인하세요 (PDF)
참고문헌
- [1] Datagen 폐업 분석 — TechCrunch, CTech (2024)
- [2] Synthesis AI — Globant 인수 발표 (2025)
- [3] AI.Reverie — Meta 인수 분석, The Information (2021)
- [4] Gretel — NVIDIA 인수, GTC 2025 발표 (2025)
- [5] Hazy — SAS IP 인수, IDC 분석 (2024)
- [6] MOSTLY AI — 오픈소스 전환, Apache v2 (2025)
- [7] Parallel Domain — NVIDIA Cosmos 파트너십 (2025)
- [8] Tonic.ai — 엔터프라이즈 합성데이터 시장 분석 (2025)
- [9] Applied Intuition — $150억 기업가치 평가, Forbes (2024)
- [10] Grand View Research, "Synthetic Data Market Size Report" (2025)
- [11] MarketsandMarkets, "Synthetic Data Generation Market" (2025)
- [12] CB Insights, "Top 100 AI Startups" (2019, 2021)
- [13] IDC, "GenAI in Enterprise Data Generation" (2024)
- [14] Scale AI — $290억 기업가치, Accel Partners (2024)
- [15] Palantir Technologies — 2025년 연간 보고서 (NYSE: PLTR)