PebbloSim

피지컬 AI를 위한 시뮬레이션 기반
합성데이터 생성기 개념 설계서
(주)페블러스

암호가 올바르지 않습니다. 다시 시도해 주세요.

PDF 문서 다운로드

PebbloSim 개념 설계서 v2.0 전체 내용을 PDF로 보거나 내려받을 수 있습니다.

Executive Summary

피지컬 AI 시장은 제조, 로봇, 국방, 조선 등 물리적 세계와 상호작용하는 AI 기술의 부상과 함께 폭발적 성장을 앞두고 있다. 하지만 모델의 강건성을 결정하는 결함·사고·예외상황 데이터는 현실에서 의도적으로 수집할 수 없다는 구조적 한계가 있다. 이 데이터 기근(Data Famine)이 산업 적용의 핵심 병목이다. PebbloSim은 이 문제를 해결하기 위해 설계된 전략적 응용으로, 페블러스 데이터 그린하우스의 행동(Action) 계층 핵심 실행 엔진이다.

PebbloSim은 심볼릭 시뮬레이션의 논리적 정합성과 뉴럴 생성 모델의 시각적 표현력을 결합한 뉴로-심볼릭 하이브리드 월드 모델을 채택해, 물리적 환각 없는 고품질 합성 데이터를 생성한다. 디지털 트윈 엔진, GenSim 관리자, 멀티모달 생성기, PebbloScope 모듈로 이뤄진 4단계 워크플로우가 데이터의 진단·처방·생성·검증을 자율적으로 순환시키며, Vector-to-Param 기술로 데이터 공백을 정밀 타격한다.

1년간 4주기 PoC를 통해 자동차 공정 실증(PoC 1)에서 시작해 국방(PoC 2), 조선(PoC 3), 완전 자율화(PoC 4)까지 순차적으로 완성하며, EU AI Act와 ISO/IEC 42001 등 규제 준수에 활용 가능한 감사 가능한(Auditable) 운영 증거를 생성한다. PebbloSim은 데이터를 '수집'하는 시대에서 '재배(Cultivation)'하는 시대로의 패러다임 전환을 실현하는 핵심 인프라다. 이 글은 뉴로-심볼릭 × 온톨로지 허브에서 큐레이션하는 시리즈의 일부로, 시뮬레이션이 데이터를 만들고 온톨로지가 그 의미를 고정하는 뉴로-심볼릭 파이프라인의 실행 엔진을 다룹니다.

서론 — 피지컬 AI 시대의 데이터 병목

피지컬 AI 시장은 제조, 로봇, 국방, 조선 등 물리적 세계와 상호작용하는 AI 기술의 부상과 함께 폭발적인 성장을 앞두고 있다. 그러나 이 혁신의 이면에는 치명적인 병목 현상이 존재한다 — 데이터 기근(Data Famine)이다.

AI 모델의 강건성을 결정하는 핵심 요소인 결함, 예외상황, 재난과 같은 희귀 데이터는 현실 세계에서 의도적으로 수집하는 것이 거의 불가능에 가깝다. 자동차 스마트 팩토리의 용접 공정에서 발생하는 0.001% 미만의 희귀 불량, 자율주행차가 마주칠 수 있는 극한 기상 조건과 돌발 사고 — 이런 데이터의 부족은 피지컬 AI 도입의 가장 큰 장벽이다.

결함 데이터는 수집할 수 없고, 사고 데이터는 일어나길 기다려야 하며, 재난 데이터는 발생해서는 안 된다. 그렇다면 어떻게 AI를 학습시킬 것인가?

페블로심(PebbloSim)은 이러한 데이터 병목을 해결하기 위해 설계된 전략적 응용 프로그램이다. 페블러스의 핵심 자산인 데이터 그린하우스(Pebblous Data Greenhouse) 생태계 내에서, 데이터의 관측·판단·행동·증명을 자율적으로 순환하는 행동(Action) 계층의 핵심 실행 엔진으로 기능한다. 데이터 그린하우스가 단순한 관측 시스템을 넘어 데이터 품질과 생명주기에 대한 책임(Responsibility)을 지는 운영 체계임을 증명하는 가장 강력한 응용이기도 하다.

PebbloSim은 AADS(Agentic AI Data Scientist) 2단계 과제의 핵심 목표인 산업 특화 AI 모델 개발을 가속하고, 피지컬 AI 시장의 데이터 주도권을 확보하는 데 결정적으로 기여한다. 이 문서는 PebbloSim의 존재 이유(Why)와 궁극적 목표(What)를 명확히 정의하고, 이를 실현하기 위한 구체적인 아키텍처와 개발 전략을 설명한다.

1

비전과 핵심 개념

PebbloSim(페블로심)은 페블러스의 핵심 자산인 데이터 그린하우스(Pebblous Data Greenhouse) 생태계 내에서, 데이터의 관측·판단·행동·증명을 자율적으로 순환하는 운영 체계의 행동(Action) 계층 핵심 실행 엔진이다.

1.1핵심 개념과 목표

PebbloSim은 "피지컬 AI 학습 데이터 생성을 위한 디지털 트윈 기반 시뮬레이션 및 합성 데이터 생성 플랫폼"으로 정의된다. 가상 환경을 구축하는 데 그치지 않고, 데이터 그린하우스와 유기적으로 연동해 AI 학습에 즉시 사용 가능한 고품질 데이터를 자율적으로 생산한다.

기존 생성형 AI(Sora, Stable Diffusion 등)가 확률적 상관관계에 의존해 물리 법칙을 위배하는 물리적 환각(Physical Hallucination)을 일으키는 반면, PebbloSim은 디지털 트윈 엔진이 보장하는 물리적 정합성 위에 뉴럴 렌더링을 결합한다. 이 Zero Physical Hallucination 원칙이 PebbloSim의 기술적 신뢰성의 근간이며, 산업 현장에서 합성 데이터가 실제 공정 데이터를 대체할 수 있는 전제 조건이다.

고품질 AI-Ready 데이터

현실에서 발생 빈도가 극히 낮은 엣지 케이스 데이터를 '하이퍼-합성 데이터' 기술로 생성합니다.

운영 증거 확보

데이터가 어떤 논리와 근거로 성장했는지 입증하는 감사 가능한 기록을 생성합니다.

1.2주요 적용 도메인

PebbloSim은 데이터 기근이 가장 심각한 4대 핵심 도메인을 우선 타겟으로 한다. 이들 도메인은 공통적으로 결함·사고·예외상황 데이터의 수집이 현실적으로 불가능하며, 물리적 정합성이 보장된 고품질 합성 데이터에 대한 수요가 높다.

자동차·제조

유연제조 환경에서 로봇 충돌, 부품 이탈 등 이상 상황 시뮬레이션으로 자율 제조 시스템 안정성 데이터를 생성합니다.

국방

On-Premise 환경에서 감시 경계 시나리오와 전술 훈련 데이터를 생성합니다.

조선

3D CAD와 센서 데이터를 결합한 디지털 트윈으로 선박 건조 공정을 최적화합니다.

로보틱스

휴머노이드 로봇의 복잡한 동작과 예외 상황 대응 데이터를 생성합니다.

1.3핵심 차별화 요소

합성 데이터 생성 시장에는 이미 다수의 플레이어가 존재한다. PebbloSim이 이 시장에서 구조적 차별화를 확보하는 핵심 요소는 세 가지다 — 생성 과정 자체를 감사 가능한 운영 증거로 기록하는 것, 물리적 정합성을 보장하는 뉴로-심볼릭 월드 모델, 그리고 사용할수록 진단·생성 정확도가 높아지는 자가 증식형 선순환(Data Flywheel)이다.

차별화 1 — '운영 증거'로서의 PebbloSim

PebbloSim이 핵심 운영 증거(Operational Evidence)로 기능한다는 것은, 단순히 합성 데이터 파일(.jpg, .mp4 등)을 만들어내는 도구가 아니라 "데이터가 왜 생성되었고, 어떤 과정을 거쳐 품질이 개선되었는가"를 입증하는 인과관계 기록(Audit Trail)을 생성한다는 의미다.

일반적인 시뮬레이터는 "요청한 데이터"만 내놓지만, PebbloSim은 "데이터 그린하우스가 자율적으로 문제를 해결한 기록"을 함께 내놓는다. 단순히 "비 오는 날의 이미지"를 만드는 것이 아니라, "데이터 클리닉이 우천 시 데이터 부족을 진단했기 때문에(Why), AADS가 강수량 10mm·조도 50 lux로 설정해(How), PebbloSim이 이 데이터를 생성했다(Action)"는 인과관계가 함께 기록된다. PebbloSim의 운영 증거 패키지는 다음 세 가지가 결합된 형태다.

진단 기반 처방전

데이터 클리닉이 탐지한 데이터 공백(Vector Space Void) 좌표를 시뮬레이션 파라미터로 역변환(Vector-to-Param)한 기록.

실행과 생성 로그

디지털 트윈 상태, 적용된 물리 법칙, 생성된 멀티모달 데이터가 포함된 실행 기록.

개선 효과 확인서

생성 데이터로 품질 지수(Quality Index)가 얼마나 상승했는지 보여주는 Before/After 비교.

차별화 2 — 뉴로-심볼릭 하이브리드 월드 모델

PebbloSim은 물리 법칙을 무시하는 기존 생성형 AI의 한계를 극복하기 위해, 심볼릭(Symbolic) 시뮬레이션의 논리적 정합성뉴럴(Neural) 생성 모델의 시각적 표현력을 결합한 접근을 채택한다. 영상 생성 AI(Sora, Stable Diffusion)는 픽셀 간 확률적 상관관계만을 학습하므로, 차가 공중에 뜨거나 그림자 방향이 어긋나는 등 물리적 환각을 일으킨다. 반면 PebbloSim은 중력·마찰·광학 등 물리 법칙이 지배하는 월드 모델(World Model)을 먼저 구축하고, 그 뼈대 위에 생성 AI 기술로 피부를 입힌다.

물리적 환각 제로

물리적으로 완벽하게 정합된(Physically Consistent) 데이터를 보장합니다.

설명 가능한 인과성

"자동차가 미끄러진 이유는 마찰 계수가 0.3이기 때문"처럼 명확한 인과관계를 설명할 수 있습니다.

정밀한 제어 가능성

"강우량 30mm/h, 충돌 각도 45도, 속도 60km/h"처럼 수치적으로 정밀하게 제어합니다.

차별화 3 — 자가 증식형 선순환 (Data Flywheel)

사용할수록 똑똑해지는 구조다. 데이터 생산이 AI 지능 강화로 이어지고, 강화된 지능이 더 정교한 데이터를 생산하는 자가 증식형 선순환은 경쟁사가 모방하기 어려운 기술적 해자(Moat)를 형성한다. 이 선순환은 세 메커니즘으로 작동한다.

첫째, 지능의 내재화(Internalizing Intelligence)다. PebbloSim이 생성한 고품질 합성 데이터(Curriculum Data)는 단순히 고객에게 납품되는 데 그치지 않고, 시스템의 두뇌 역할을 하는 핵심 AI 모델을 재학습시키는 데 사용된다. 이 자체 학습 루프(Self-Training Loop)를 통해 시스템은 시간이 지날수록 더 복잡한 물리 상황을 이해하고 더 정교한 시나리오를 설계할 수 있게 진화한다.

둘째, 진단과 생성의 상호 강화(Reinforcement Cycle)다. 시스템이 데이터 공백을 찾아내면 시뮬레이션이 이를 메우는 데이터를 생성하고, 이 데이터로 모델 성능이 향상되면 향상된 모델은 이전에는 보지 못한 더 미세한 결함을 찾아낸다. 이 무한 루프는 기업의 데이터 자산 가치를 기하급수적으로 증대시키는 데이터 플라이휠 효과를 만든다.

셋째, 자산 가치의 지속적 증대(Asset Appreciation)다. 일반적인 소프트웨어는 시간이 지날수록 구식이 되지만, PebbloSim 기반의 데이터 그린하우스는 데이터가 쌓일수록 진단과 생성 정확도가 높아지는 가치 증대형 자산(Appreciating Asset)이 된다. 이는 경쟁사가 단기간에 모방할 수 없는 독보적인 기술적 해자를 형성한다.

1.4규제 대응과 비즈니스 가치

PebbloSim의 운영 증거는 기업이 직면한 AI 규제와 신뢰성 문제를 해결하는 핵심 열쇠가 된다.

규제 준수 증빙

EU AI Act와 ISO/IEC 42001(AI 경영시스템)은 AI 모델이 어떤 데이터로 학습됐는지 증명할 것을 요구합니다. PebbloSim의 운영 증거는 "부족한 안전 데이터를 어떻게 과학적으로 진단하고 보강했는가"를 보여주는 감사 가능한 자료로 활용됩니다.

피지컬 AI 안전 보증

로봇이나 자율주행 같은 피지컬 AI 분야에서 사고 데이터 학습은 필수입니다. PebbloSim은 현실에서 구할 수 없는 사고 데이터를 생성하고, 이를 학습시켰다는 안전 보증서 역할을 합니다.

2

시스템 아키텍처

PebbloSim은 데이터 그린하우스라는 AI 데이터 운영체제(OS) 위에서 구동되는 핵심 응용 프로그램이다. 엔진(기반시설) + 시나리오(설계서) = 시뮬레이터 인스턴스(GenSim)라는 명확한 워크플로우로 정의된다.

2.14단계 워크플로우

PebbloSim의 워크플로우는 독립 시뮬레이터의 동작이 아니라, 데이터 운영체제 위에서 구동되는 애플리케이션의 실행 사이클이다. 데이터의 희소 영역을 물리 시뮬레이션 기반으로 보강하는 데이터 벌크업(Data Bulk-up)을 전담하되, 그 과정이 그린하우스의 관측·판단·행동·증명 루프와 완전히 동기화된다. 이 구조 덕분에 PebbloSim은 개별 도구 수준이 아니라 확장 가능한 플랫폼 인프라로 기능한다.

4단계는 트윈(Base Class) → 설계(Architect) → 생성(Action) → 검증(Director)으로 이뤄진다. 트윈 단계에서 물리 법칙이 보장된 디지털 트윈 환경을 마련하고, 설계 단계에서 추상적 명령을 구체적 시나리오 스크립트로 번역한다. 생성 단계에서 멀티모달 데이터를 능동 생산하고, 검증 단계에서 PebbloScope가 사람이 검토할 수 있는 시각화로 결과물을 제시한다. 이 사이클이 끊김 없이 반복되면서 GenSim 인스턴스가 자율 운영된다.

2.2핵심 모듈별 기능 정의

모듈 역할 핵심 기술
디지털 트윈 엔진
The Base Class
현실 세계의 물리 법칙과 환경을 정밀하게 복제한 디지털 기반 환경 NVIDIA Omniverse, Reality Sync, Ground Truth 제공
GenSim 관리자
The Architect
추상적 명령을 구체적 시뮬레이션 스크립트로 번역 Ontology & LLM, Intent Translation
멀티모달 생성기
Action Engine
GenSim 인스턴스 내에서 멀티모달 데이터를 능동 생산 Vector-to-Param, Precision Targeting
PebbloScope 모듈
The Director
시뮬레이션을 시각적으로 모니터링하고 최종 승인 Interactive Link, Human-in-the-Loop

2.3그린하우스 연동 메커니즘

PebbloSim의 비즈니스 가치는 독립 실행이 아니라 그린하우스 생태계와의 유기적 연동에서 나온다. 진단에서 생성, 검증까지 이어지는 파이프라인이 자동화되면서, 기업은 데이터 품질 개선을 위해 별도의 수작업 파이프라인을 구축할 필요가 없다. 데이터 엔지니어의 반복 업무를 줄이고, 품질 개선의 비용과 시간을 구조적으로 단축한다.

진단에서 처방으로 (Clinic → Architect)

데이터 클리닉이 진단한 데이터 편향과 부족 정보가 GenSim 관리자에게 전달되어, 정밀 시나리오 생성의 설계도로 활용됩니다.

실행과 공급 (Action Engine → Greenhouse)

Vector-to-Param 기술로 뉴로-심볼릭 표상 공간의 공백을 정밀 타격해 고효율 데이터 벌크업을 수행합니다.

검증과 순환 (Director → Flywheel)

PebbloScope의 승인 게이트를 통과한 데이터만 자산화되고, AI 모델 재학습을 통해 Data Flywheel 구조가 완성됩니다.

3

시나리오 기반 워크플로우

예제 시나리오: 자동차 도장 공정에서 조명이 어두운 환경의 미세 스크래치 결함 데이터가 부족해 AI 탐지율이 떨어지는 상황을 해결하는 워크플로우다.

자동차 도장 공정을 첫 검증 시나리오로 선택한 이유는 명확하다. 희귀 결함 데이터의 부재가 AI 모델 성능의 직접적 병목이 되는 대표 사례이기 때문이다. 미세 스크래치는 실제 공정에서 발생 빈도가 0.1% 미만이라 충분한 학습 데이터를 확보하기 어렵고, 현장 조명 조건에 따라 탐지 난이도가 급격히 변한다. 이 시나리오는 Sim-to-Real 전이 효과를 정량적으로 입증할 수 있어, 투자자와 고객 모두에게 PebbloSim의 ROI를 가장 직관적으로 보여주는 산업 레퍼런스다.

3.15단계 실행 흐름

1. 진단과 처방 (Diagnosis & Prescription)

데이터 클리닉이 "50 lux 이하 조도에서의 미세 스크래치 데이터가 1% 미만"이라는 진단을 내리고, AADS가 "저조도 환경 미세 스크래치 데이터 1,000장 생성" 명령을 만듭니다.

2. 시나리오 설계와 번역 (Translation & Design)

GenSim 관리자가 추상적 명령을 온톨로지로 참조해 "광원 밝기 30~50 lux", "깊이 0.1mm·길이 2cm 이내의 스크래치 텍스처"로 구체화합니다.

3. 가상 환경 구축과 데이터 생성 (Action & Generation)

디지털 트윈 엔진이 실제 공장 환경을 구현하고, Vector-to-Param 기술로 부족한 어두운 환경 데이터만 정밀 타격해 생성합니다.

4. 시각화와 품질 검증 (Visualization & Verification)

PebbloScope에서 데이터가 의도한 영역에 분포하는지 확인하고, Interactive Link로 온톨로지 연결을 검증합니다.

5. 거버넌스 승인과 입고 (Governance & Close)

사용자 승인(Approve) 후 데이터 레이크로 입고되며, 모든 과정은 감사 로그(Audit Log)로 기록되어 규제 대응에 활용됩니다.

Data Flywheel 효과. 이 워크플로우가 반복될수록 고객의 데이터 시스템은 살아있는 자산으로 진화하며, 페블러스의 AADS-LLM과 VLM도 함께 강화되는 네트워크 효과(Network Effect)가 만들어진다.

4

단계별 개발 전략

PebbloSim과 같이 복잡하고 혁신적인 플랫폼은 빅뱅 방식이 아니라 점진적·반복적 접근으로 구축해야 한다. 페블러스는 1년간 총 4주기(주기당 3개월) PoC를 통해 PebbloSim을 순차 완성하는 전략을 택했다.

이 접근법의 핵심은 웨지 유스 케이스(Wedge Use Case) 전략이다. 가장 시급하고 효과가 명확한 자동차 공정(PoC 1)으로 즉각적인 ROI를 증명하고, 이를 발판으로 국방(PoC 2), 조선(PoC 3)으로 확장하며, 최종적으로 완전 자율화 플랫폼(PoC 4)을 완성한다. 각 단계는 데이터 그린하우스와의 연동 깊이를 심화시키며, AADS 2단계 정부 과제의 정량적 목표 달성에 직접 기여하도록 설계됐다 — '루프 연결(Closing the Loop) → 주권 확보(Sovereignty) → 데이터 심화(Depth) → 완전 자율(Autonomy)'로 이어지는 점진적 심화 전략이다.

이 4주기 전략은 동시에 리스크 관리 프레임워크이기도 하다. 각 PoC는 이전 단계의 산출물을 전제로 삼으므로, 초기 단계에서 발견된 기술적 불확실성이 후속 단계의 설계에 즉시 반영된다. 또한 매 주기 결과물이 AADS 2단계 정부 과제 기술 보고서에 직접 반영되므로, 기술 검증과 과제 수행이 단일 타임라인에서 동기화되는 효율적 구조다.

4.14주기 PoC 로드맵

PoC #1 · 기반 구축과 자동차 공정 실증 (1~3개월)

데이터 루프의 연결(Closing the Loop)에 집중. 진단·처방·생성·검증 파이프라인이 끊김 없이 동작함을 증명한다.

  • · 로봇 팔, 컨베이어 벨트 등 자동차 제조 라인 기본 물리 환경(Class) 구축
  • · 2~3개 고정 시나리오 수동 선택 실행 기능 구현
  • · 시각 데이터(RGB 이미지) 위주의 기본 합성 데이터 생성 모듈 개발

PoC #2 · 국방 도메인 확장과 소버린 체계 검증 (4~6개월)

데이터 주권과 보안(Sovereignty & Security)에 집중. 폐쇄된 국방망 내부에서 완결되는 독립형 데이터 그린하우스를 검증한다.

  • · 국방 특화 침투·배회·유기 등 복합 시나리오 에셋 추가
  • · 위변조 불가능한 거버넌스 모듈(보안 감사 대응) 탑재
  • · 외산 플랫폼 없이 자체 sLLM과 렌더링 엔진으로 작동하는 패키징

PoC #3 · 멀티모달 데이터 고도화와 조선·제조 적용 (7~9개월)

데이터의 깊이(Depth of Data)에 집중. 복합 데이터 처리와 비정형 정보를 이해하는 지능형 생성 능력을 고도화한다.

  • · 3D CAD와 센서 로그를 결합한 시공간 동기화 복합 데이터 생성 엔진
  • · 산업용 VLM 탑재로 설계 도면 주석을 물리적 제약 조건으로 자동 변환
  • · PebbloScope에 Interactive Link 적용 (뉴로-심볼릭 양방향 시각화)

PoC #4 · 완전 자율화와 플랫폼 완성 (10~12개월)

자율성(Autonomy)과 연결의 완성. 인간은 목표만 설정하고, AI 에이전트가 전 과정을 주도하는 Self-Driving Data Ops 환경을 구축한다.

  • · AADS 에이전트 전용 Agentic API Gateway 완성
  • · Vector-to-Param 완전 자동화 (핵심 특허 기술 US 12,481,720)
  • · PDIG 루프 자율 수행과 Human-in-the-Loop Smart Gate
5

결론

5.1패러다임의 전환

우리는 데이터를 현실 세계에서 우연히 발견하고 '수집'하던 시대에서, 필요한 데이터를 의도적으로 설계하고 '재배(Cultivation)'하는 시대로의 전환을 선언한다. PebbloSim은 물리적 세계의 위험·비용·시간 제약을 넘어 AI-Ready 데이터를 무한히 공급하는 화수분 역할을 수행한다.

5.2비즈니스 임팩트

성장 (Growth)

Data Flywheel을 통해 시간이 지날수록 가치가 상승하는 가치 증대형 자산(Appreciating Asset)으로 진화합니다.

신뢰 (Trust)

ISO/IEC 5259 및 ISO 42001 표준에 부합하는 Audit Trail로 AI 모델의 안전성과 투명성을 입증합니다.

피지컬 AI 시대에 데이터의 '수집'만으로는 충분하지 않다. 데이터를 재배(Cultivation)하고, 그 과정의 모든 증거를 감사 가능한 형태로 축적하는 것이 시장 진입의 전제 조건이 된다. PebbloSim은 이 패러다임 전환의 중심에서, 데이터 그린하우스의 진단·판단·생성·검증 파이프라인을 완전히 자동화된 운영 체계로 완성한다.

비전 — 피지컬 AI 시대를 위한 필수 인프라. PebbloSim은 페블러스가 지향하는 "Makes Data Tangible" 비전을 실현하는 가장 강력한 실행 도구다. 자동차·국방·조선 등 대한민국 주력 산업이 AI와 결합해 초격차 경쟁력을 확보하는 데 필수적인 데이터 인프라(Infrastructure)로 자리매김할 것이다.

📚 뉴로-심볼릭 × 온톨로지 시리즈

이 글은 뉴로-심볼릭 × 온톨로지 허브에서 큐레이션하는 시리즈의 일부입니다. 시스템 1/2 통합, 온톨로지의 형식 토대 역할, 팔란티어·시맨틱 웹·CURK의 다양한 접근까지 — 13편의 글을 한 흐름으로 묶어 두었습니다.