📂 비정형 데이터 관리
업데이트: 2026-04-12
비정형 데이터 관리
출처: Gartner — "Develop Unstructured Data Management Capabilities to Support GenAI-Ready Data" (February 2025, G00821728)
개요
조직 데이터의 *70~90%*는 비정형(Unstructured) 형태다. 그러나 대부분의 데이터 관리 소프트웨어(DMS) 벤더들은 아직 비정형 데이터 관리 기능이 부족하다. 이 수요-공급 격차가 비정형 데이터 전문 니치 벤더들의 성장을 이끌고 있다.
GenAI 배포 실패의 최대 원인 = AI-Ready 데이터 부재
Gartner 조사에서 46%의 응답자가 "데이터 정확성·신뢰성·투명성"을 GenAI 구현의 최대 과제로 꼽았다.
비정형 데이터 유형
| 구분 | 예시 |
|---|---|
| 문서 | PDF, Word, HTML, 이메일 |
| 이미지 | 사진, 스캔, 의료 이미지 |
| 오디오 | 녹음, 음성 메모 |
| 비디오 | CCTV, 교육 영상 |
| 반정형 | JSON, XML, 로그 |
RAG 파이프라인과 비정형 데이터 관리
**RAG(Retrieval-Augmented Generation)**는 GenAI 애플리케이션이 기업 내부 데이터를 활용해 정확한 응답을 생성하는 핵심 기술이다. 비정형 데이터 관리 기능은 이 파이프라인에 4개 영역으로 매핑된다.
1. 데이터 통합 (Data Integration)
- 문서, 오디오, 비디오, 이미지에서 정보 추출 (OCR, 개체 추출, IDP 포함)
- 배치 이동부터 시작 → 점진적 실시간 지원 추가
- 벡터 데이터베이스(지식 저장소)와 통합
- 각 LLM 호출 시 실시간 데이터 추출 지원
- 텍스트 청킹·임베딩 기법 적용, 구조화 쿼리 + 시맨틱 검색 결합
2. 데이터 품질 (Data Quality)
- 프로파일링: 완전성·유효성·신선도 등 품질 메트릭 적용 (빈 페이지 → 완전성 저하, 파일 미수신 → 신선도 저하)
- 검증 및 매칭: 비정형 소스의 데이터를 정형 데이터와 결합 (결정적 또는 확률적 매칭)
- 데이터 품질 규칙으로 AI-Ready 여부 판정 → 미충족 시 자동 교정 워크플로 실행
3. 데이터 거버넌스 (Data Governance)
- 비정형 소스에서 민감 데이터 자동 감지 → 태깅 → 마스킹 (지식 저장소 적재 전)
- 코드 생성 유스케이스: 검색 파이프라인에 접근 제어 내장 — LLM은 테이블 컬럼명만 조회, 실제 데이터는 접근 불가
- 데이터 요약 유스케이스: AD(Active Directory) 접근 제어 목록 기반으로 허가된 데이터만 LLM 결과에 포함
4. 메타데이터 관리 (Metadata Management)
- 컨텐츠 분류 (공개/비공개/기밀) — 데이터 도메인, 고객 데이터 포함 여부 등 맥락 메타데이터 기반
- 검색 품질 향상용 메타데이터 필터 지원 (페이지 번호, 문서 ID, 파일 확장자 분포 등)
- 텍소노미·온톨로지·지식 그래프 생성 지원
- 비정형 소스의 데이터 드리프트 추적 → LLM 출력 정확도에 대한 영향 분석·예측
파트너십 우선순위 매트릭스
DMS 벤더가 모든 기능을 자체 개발하기는 현실적으로 불가능하다. 파트너십 우선순위 결정 기준:
| 비정형 DMS 세그먼트 | 최종사용자 수요 | 전문 벤더 공급 | 기존 DMS 지원도 | 대표 전문 벤더 |
|---|---|---|---|---|
| 데이터 통합 | 높음 | 보통 | 보통 | Unstructured.io, Pryon, Iterative.ai |
| 데이터 품질 | 높음 | 보통 | 보통 | Anomalo, Pebblous, Shelf.io |
| 데이터 거버넌스 | 보통 | 낮음 | 낮음 | BigID, DryvIQ |
| 메타데이터 관리 | 보통 | 낮음 | 보통 | Instill AI, Labelbox |
Pebblous는 데이터 품질 세그먼트의 전문 벤더로 Gartner에 의해 공식 인용됨
파트너십 우선순위 원칙
- 전통적 DMS 벤더들이 이미 비정형 데이터 통합을 지원하기 시작했다면 → 해당 기능은 시장 평균 이하이므로 파트너십 우선
- 최종사용자 수요가 높은 세그먼트 → 시장 수요를 선점하기 위해 파트너십 우선
주요 M&A 및 파트너십 사례
| 날짜 | 내용 |
|---|---|
| 2024.11 | Snowflake → Datavolo 인수 (멀티모달 데이터 파이프라인) |
| 2024.03 | Databricks → Lilac 인수 (텍스트 데이터셋 관리), + Unstructured.io 파트너십 |
| 2024.09 | Salesforce → Zoomin 인수 (AI 에이전트용 비정형 데이터) |
| 진행 중 | Collibra + Ohalo (비정형 데이터 발견), Matillion + Amazon Textract/Transcribe |
핵심 시사점
- 비정형 데이터 통합을 가장 먼저 구축하라 — 비디오·오디오 같은 복잡한 비정형 데이터는 구조화가 선행되어야 프로파일링·거버넌스가 가능하다.
- 단독 시장으로서의 비정형 DMS 벤더는 장기적으로 존속하기 어렵다 — Gartner는 향후 대형 DMS 벤더에 흡수될 것으로 전망.
- 전문 벤더의 규모는 대부분 소형 → 인수 타겟으로 적합.
참고
- Gartner G00821728 (2025-02-18)
- 관련: 에이전틱 데이터 관리