페블러스 데이터 그린하우스
Neuro-Symbolic AI 기반 데이터 운영 인프라의 새로운 표준
버전 0.1 | 2025년 12월
서문: Data Clinic에서 Data Greenhouse로
Data Clinic이 '진단과 치료의 순간'을 중심으로 데이터 품질 문제를 해결했다면, Data Greenhouse는 그 다음 단계로서 '데이터가 스스로 성장하고 증명되는 운영 체계'를 지향합니다.
Data Greenhouse positions data quality not as a one-time project, but as an industrial infrastructure that must be continuously operated.
Pebblous는 "데이터를 눈으로 보고, 수치로 진단하며, 행동으로 개선한다"는 철학을 Data Clinic이라는 제품으로 구현해 왔습니다.
Data Greenhouse라는 이름은 단순한 비유가 아닙니다. 온실은 생물을 "그냥 두면 잘 크겠지"라는 낙관으로 방치하지 않고, 관측과 제어, 기록과 검증을 통해 목적에 맞는 성장 곡선을 만들어냅니다. Data Greenhouse는 AI 데이터 역시 동일하게 다룹니다.
Executive Summary
문제 정의: 플랫폼은 있지만, "판단"이 없다
오늘날 많은 기업은 Snowflake, Databricks, Data Lake와 같은 고급 데이터 플랫폼을 이미 보유하고 있습니다. 그러나 플랫폼의 도입은 데이터의 "저장과 처리"를 가능하게 했을 뿐, 다음 질문에 대한 답을 자동으로 제공하지 않습니다:
비용 증가의 원인
데이터와 GPU 비용은 증가하지만, 그 증가가 불가피한 성장인지 단순한 낭비인지 설명되지 않습니다.
성능 저하의 원인
모델 성능 변화의 원인이 데이터 문제인지 모델 문제인지 분해되지 않아, "더 큰 모델, 더 많은 GPU"라는 비싼 답으로 도망치기 쉽습니다.
규제 대응의 어려움
강화되는 규제 환경 속에서 데이터 품질과 운영의 증적을 제시하지 못해, AI의 상용화는 기술이 아니라 신뢰의 문제에서 좌초될 수 있습니다.
🎯 해결 정의: Data Greenhouse는 기존 데이터 플랫폼을 대체하지 않습니다. 오히려 Snowflake, Databricks, Data Lake를 "플랫폼 계층"으로 하부에 두고, 그 위에 데이터의 관측·판단·행동·증명을 자동화하는 운영 체계를 얹습니다.
3가지 핵심 가치
비용의 구조적 통제
"쿼리를 더 빠르게"가 아니라 "데이터의 정보 기여도는 얼마인가"라는 질문으로 비용의 원인을 데이터 구조에서 제거합니다.
📊
성능의 예측 가능성
성능 저하를 "모델 탓"으로 단정하지 않고, 임베딩과 온톨로지 기반 진단으로 데이터 분포 붕괴 등 구조적 원인을 제시합니다.
신뢰와 규제 대응
ISO 5259, ISO 42001 기반의 감사 로그를 운영 과정에 내재화하여 규제를 "시장 진입 조건을 충족하는 체계적 역량"으로 전환합니다.
💡 Data Diet & Data Bulk-up
Data Diet: 중복과 과밀로 인해 정보 기여도가 낮은 데이터를 줄입니다.
Data Bulk-up: 대표성 공백이 있는 영역을 정밀 합성 데이터로 보강합니다.
비용은 더 이상 불가피한 결과가 아니라 설명 가능한 의사결정의 결과가 됩니다.
운영 모델: 관측–판단–행동–증명 루프
Data Greenhouse의 핵심 루프는 네 단계로 구성됩니다:
Observation Layer
임베딩 기반의 분포 분석과 온톨로지 기반의 맥락 해석을 결합하여 데이터 품질을 진단합니다.
Orchestration Layer (AADS)
진단 결과를 해석해 개선 계획을 세우고 실행을 설계합니다. 자율형 AI 데이터 사이언티스트가 핵심입니다.
Action Layer
Diet, Bulk-up, RAG Chunk 최적화, 능동 수집과 같은 구체적 개선 행동을 수행합니다.
Governance Layer
모든 활동을 ISO 표준과 규제 요구에 맞춰 기록하고, 감사 가능한 증거와 리포트를 생성합니다.
⚖️ Human-in-the-Loop: 대규모 삭제, 합성 데이터 대량 적용, 정책 변경과 같은 중요한 결정에는 관리자 승인 게이트를 둬 자율성과 안전성을 동시에 확보합니다.
아키텍처 원칙: 뉴로-심볼릭을 구현 구조로
Data Greenhouse의 기술적 차별점은 뉴로-심볼릭(Neuro-Symbolic) 전략을 단순한 슬로건이 아니라 아키텍처의 중심으로 구현한다는 데 있습니다.
🧠 Neural (Embedding)
데이터의 통계적 현상과 기하학적 구조를 보여줍니다. 밀도, 분포, 매니폴드 형상을 분석하지만, 그것이 문제인지 의미 있는 현상인지는 말해주지 않습니다.
📚 Symbolic (Ontology)
규칙과 맥락, 책임과 규제를 제공합니다. 태스크(학습, 평가, RAG), 도메인(통신, 제조, 국방), 규제(ISO, EU AI Act)의 맥락을 담습니다.
🔗 Data Greenhouse는 이 둘을 결합해 "무엇이 이상한가"와 "왜 중요한가"를 동시에 산출하고, 그 결과를 에이전트가 실행 가능한 계획으로 바꾸도록 설계됩니다.
5개 핵심 레이어
① Platform Adapter Layer
데이터 복제와 이동을 최소화하는 것을 원칙으로 합니다. 플랫폼(Snowflake/Databricks/Data Lake)의 메타데이터, 스키마, 작업 이력, 비용/사용량, 계통 정보(lineage)를 관찰합니다.
→ 어댑터는 "관찰과 반영의 접점"이며, 플랫폼과 Data Greenhouse를 분리하고 동시에 연결합니다.
② Observation Layer
DataLens는 원천 데이터를 임베딩 공간에 매핑하여 밀도, 분포, 커버리지, 공백을 분석합니다. IOD(Image of Data)와 MIOD(Modified IOD)로 개선 전후를 비교합니다.
→ 온톨로지는 통계적 이상치가 단순 오류인지, 도메인 이벤트인지, 규제 위반 위험인지까지 판별합니다.
③ Orchestration Layer (AADS)
AADS(Agentic AI Data Scientist)는 자율형 AI 데이터 사이언티스트로서 Plan–Diagnose–Improve–Govern (PDIG) 루프를 수행합니다.
→ 위험도가 높은 행동에 대해 승인 게이트를 포함, 완전 자율성과 조직 통제 사이의 균형을 구현합니다.
④ Action Layer
Data Diet: 과밀 영역에서 정보 기여도가 낮은 데이터 제거
Data Bulk-up: 저밀도 공백 영역에 정밀 합성 데이터 생성
RAG Chunk 최적화: 청크 의미 중복 제거, 질문 분포 기반 커버리지 확장
Active Collection: 다음에 수집해야 할 데이터 정의
⑤ Governance Layer
ISO/IEC 5259 품질 특성(유사성, 대표성, 다양성, 효율성 등)을 측정 가능한 지표로 매핑하고, ISO 42001 수준의 활동 로그를 자동 생성합니다.
→ 사후 문서화가 아니라 운영 파이프라인의 일부로 설계되어 감사 가능한 추적성을 확보합니다.
배포 및 확장: 소버린 AI 지원
Data Greenhouse는 플랫폼 위 운영 레이어이므로, 클라우드 중심 환경뿐 아니라 온프레미스·하이브리드 환경에서도 동일한 개념으로 작동할 수 있어야 합니다.
☁️ 클라우드 배포
Snowflake, Databricks, AWS/Azure/GCP 기반 Data Lake와 원활하게 통합됩니다.
🏛️ 소버린 AI (Sovereign AI)
데이터 주권이 중요한 공공·국방·금융 환경에서는 외부 통신을 최소화한 배포 옵션을 제공합니다.
🌏 국가 전략과 정합성을 갖춘 소버린 AI 접근은 상용 확장의 중요한 축이 됩니다. Data Greenhouse는 엔터프라이즈 환경에서 필요한 통제성, 감사 가능성, 배포 유연성을 동시에 고려합니다.
자주 묻는 질문 (FAQ)
Q. Data Clinic과 Data Greenhouse의 차이점은?
Data Clinic이 데이터 품질 문제를 진단하고 치료하는 '병원'이었다면, Data Greenhouse는 데이터가 스스로 성장하고 그 결과가 규제와 산업 요구를 충족하도록 만드는 '산업용 온실'입니다. 일회성 진단에서 지속적 운영 체계로의 진화입니다.
Q. 기존 플랫폼(Snowflake, Databricks)을 대체하나요?
아닙니다. Data Greenhouse는 기존 플랫폼을 "플랫폼 계층"으로 하부에 두고, 그 위에 데이터 품질의 관측·판단·행동·증명을 자동화하는 운영 레이어를 얹습니다. 기존 투자를 존중하면서 플랫폼이 답하지 못하는 질문에 답합니다.
Q. AADS란 무엇인가요?
AADS(Agentic AI Data Scientist)는 자율형 AI 데이터 사이언티스트로서 Data Greenhouse의 오케스트레이션 계층 핵심기술입니다. 사용자의 목표를 해석하고, 실행 가능한 워크플로로 분해하며, 필요한 도구를 호출해 작업을 수행하고, 결과를 보고서로 정리합니다.
Q. 뉴로-심볼릭(Neuro-Symbolic) AI의 장점은?
임베딩(Neural)은 데이터의 통계적 현상을 보여주지만 그것이 문제인지 말해주지 않습니다. 온톨로지(Symbolic)는 규칙과 맥락을 제공하지만 데이터 분포를 정량화하지 못합니다. Data Greenhouse는 이 둘을 결합해 "무엇이 이상한가"와 "왜 중요한가"를 동시에 산출합니다.
Q. ISO 표준과의 연관성은?
Governance Layer는 ISO/IEC 5259가 요구하는 품질 특성(유사성, 대표성, 다양성, 효율성 등)을 측정 가능한 지표로 매핑하고, ISO 42001 수준의 활동 로그를 자동 생성합니다. 규제를 사후 문서 작업이 아니라 "운영 체계의 일부"로 만듭니다.
Q. 공공·국방 환경에서도 사용 가능한가요?
예. 데이터 주권이 중요한 환경에서는 외부 통신을 최소화한 소버린 AI(Sovereign AI) 배포 옵션을 제공합니다. 온프레미스·하이브리드 환경에서도 동일한 운영 체계를 적용할 수 있습니다.
Q. Data Greenhouse 도입 시 예상 효과는?
첫째, 비용의 구조적 통제 - Data Diet/Bulk-up으로 불필요한 데이터 비용 절감. 둘째, 성능의 예측 가능성 - 데이터 분포 붕괴 등 구조적 원인 진단. 셋째, 규제 대응 자동화 - 감사 가능한 증적을 운영 과정에서 자동 생성.
맺음말: Greenhouse는 신뢰를 생산한다
Data Greenhouse의 핵심은 "더 많은 데이터"가 아니라 "더 좋은 데이터"이며, 더 정확히는 "AI에 즉시 사용 가능한 AI-Ready Data를 지속적으로 생산하는 운영 체계"입니다.
Data Clinic이 데이터 품질 문제를 진단하고 치료하는 '병원'이었다면, Data Greenhouse는 데이터가 스스로 성장하고, 그 성장의 근거가 축적되고, 그 결과가 규제와 산업 요구를 충족하도록 만드는 '산업용 온실'입니다.
이는 플랫폼과 경쟁하는 제품이 아니라, 플랫폼 위에서 의사결정을 가능하게 만드는 책임 레이어이며, AI 시대의 조직이 결국 필요로 하게 될 데이터 운영의 표준 형태에 가깝습니다.
🌱 온실은 작물을 키우고, Greenhouse는 신뢰를 생산한다.
Pebblous Makes Data Tangible