Executive Summary

"데이터가 지저분하다"는 말은 직관적이지만 수학적으로는 무엇을 의미할까. 1948년 클로드 섀넌이 제안한 엔트로피 공식 H(S) = −Σ pᵢ log₂(pᵢ)은 데이터의 무질서도를 0과 1 사이 숫자 하나로 압축한다. 이 단순한 공식이 오늘날 결정 트리의 분기 기준, 신경망의 손실 함수, 이상 탐지 알고리즘의 핵심 지표로 쓰인다.

그런데 데이터 품질은 무질서도만의 문제가 아니다. 데이터는 서로 의존한다 — 고객 ID가 없으면 주문 데이터는 의미를 잃는다. 이 의존 관계를 수학적으로 정리하는 도구가 위상 정렬(Topological Sort)이다. 사이클 없는 방향 그래프(DAG)에서 모든 선행 조건이 먼저 처리되도록 순서를 결정하는 이 알고리즘은, 현대 데이터 파이프라인(Airflow·dbt)과 AI 에이전트 워크플로우의 실행 순서를 결정짓는다.

두 개념이 교차하는 지점에 위상적 데이터 분석(TDA)이 있다. 데이터의 위상 구조(모양·연결성)를 추적해 불순물과 이상값을 찾아내는 이 방법은, 2024년 은행 거래 140만 건에서 머니 뮬 패턴을 사전 지식 없이 탐지하는 데 성공했다. 엔트로피가 데이터의 "무질서"를 측정하고, 위상 정렬이 데이터의 "순서"를 정의한다면 — TDA는 그 둘을 통합해 데이터 품질의 구조적 결함을 진단한다.

1데이터 품질이란 무엇인가

데이터 품질을 이야기하기 전에, 먼저 한 가지 생각 실험을 해보자. 당신이 병원 데이터베이스에서 환자 기록을 꺼냈는데, 생년월일 칸이 절반은 비어 있고, 같은 사람이 이름 표기법만 달리해 두 번 등록되어 있으며, 혈액형이 일부 기록에서는 "O+", 다른 기록에서는 "O형"으로 표기되어 있다. 이 데이터를 AI 모델 학습에 바로 쓸 수 있을까? 당연히 아니다.

데이터 품질은 보통 여섯 가지 차원으로 측정된다. 각 차원은 독립적이지 않다 — 하나가 무너지면 나머지도 연쇄적으로 무너진다.

정확성 (Accuracy)

데이터가 실제 세계를 올바르게 반영하는가. 고객 주소가 실제 주소와 일치하는가.

완전성 (Completeness)

필수 필드가 빠짐없이 채워져 있는가. NULL 비율이 허용 범위 내인가.

일관성 (Consistency)

시스템 간, 시간 간 동일 데이터가 동일하게 표현되는가. "O+"와 "O형"은 불일치다.

적시성 (Timeliness)

데이터가 필요한 시점에 최신 상태인가. 3년 된 주소는 배송 오류를 낳는다.

유효성 (Validity)

정의된 형식·범위·규칙을 따르는가. 생년월일이 미래 날짜라면 유효하지 않다.

유일성 (Uniqueness)

중복 레코드가 없는가. 같은 고객이 두 ID로 등록되면 분석이 왜곡된다.

문제는 이 여섯 차원을 "느낌"으로 평가한다는 것이다. "데이터가 좀 지저분해 보여요"라는 말은 조직 내 공유된 기준이 될 수 없다. 데이터 품질을 수학적으로 정의하면, 측정이 가능해지고 — 측정이 가능해야 개선할 수 있다.

데이터 품질의 두 핵심 질문: (1) 이 데이터가 얼마나 무질서한가? → 엔트로피로 측정. (2) 이 데이터들을 어떤 순서로 처리해야 하는가? → 위상 정렬로 결정. 이 두 질문에 수학적 답을 주는 것이 현대 데이터 품질 이론의 핵심이다.

2엔트로피 — 무질서를 수치로 말하다

엔트로피(Entropy)는 원래 열역학 개념이다. 닫힌 계(系)는 시간이 지날수록 더 무질서해진다는 열역학 제2법칙에서 나왔다. 1948년 수학자 클로드 섀넌은 이 개념을 정보 이론으로 가져왔다. 섀넌의 통찰은 단순하면서도 혁명적이었다 — "정보의 불확실성도 수치화할 수 있다."

섀넌 엔트로피 공식

동전 던지기를 생각해보자. 앞면이 나올 확률이 50%라면, 다음 결과를 전혀 예측할 수 없다 — 불확실성이 최대다. 반면 동전 양면이 모두 앞면이라면 결과는 항상 확실하다 — 불확실성이 0이다.

H(S) = −Σ pᵢ log₂(pᵢ)
섀넌 엔트로피 공식 (1948) — pᵢ는 각 결과의 확률, 합산은 모든 가능한 결과에 대해

계산 결과는 0(완전한 순수, 불확실성 없음)에서 1(완전한 무질서, 최대 불확실성) 사이의 값이다. 데이터 품질 문맥에서는 이렇게 해석한다: 엔트로피가 낮은 데이터셋은 예측 가능하고 일관성이 높다. 엔트로피가 높은 데이터셋은 혼돈스럽고 품질이 낮다.

결정 트리에서의 엔트로피 — 가장 직관적인 응용

머신러닝의 결정 트리(Decision Tree)는 엔트로피를 핵심 판단 기준으로 쓴다. 데이터를 분할할 때마다 "이 분할이 엔트로피를 얼마나 줄이는가"를 계산한다. 이것이 정보 이득(Information Gain)이다.

IG(S, A) = H(S) − Σ (|Sᵥ| / |S|) · H(Sᵥ)
정보 이득 — 특성 A로 분할했을 때 엔트로피 감소량. 감소가 클수록 좋은 분할 기준

불량 제품 탐지 데이터셋을 예로 들자. 전체 데이터의 엔트로피가 0.94(매우 혼돈)라면, "온도 > 80℃" 기준으로 분할했을 때 두 그룹 각각의 엔트로피가 0.2와 0.3으로 떨어진다면 이 기준이 데이터의 무질서를 크게 줄인다 — 좋은 분할이다. 결정 트리는 이런 방식으로, 데이터 품질(순도)을 단계적으로 높여가며 패턴을 학습한다.

33가지 엔트로피 변형 — 문맥에 따른 도구 선택

섀넌 엔트로피 이후 연구자들은 특정 문제에 맞게 33가지 이상의 엔트로피 변형을 개발했다. 주요 변형은 다음과 같다:

  • 근사 엔트로피(Approximate Entropy) — 시계열 데이터의 불규칙성 측정. 심전도, 뇌파 데이터 품질 평가에 사용
  • 순열 엔트로피(Permutation Entropy) — 데이터 순서 패턴의 복잡도 측정. 센서 데이터 이상 감지에 활용
  • 교차 엔트로피(Cross Entropy) — 신경망의 손실 함수로, 예측 분포와 실제 분포의 차이를 측정
  • 샘플 엔트로피(Sample Entropy) — 짧은 시계열에서도 안정적인 불규칙성 측정. 의료 데이터 품질 진단에 주로 사용

엔트로피가 데이터 품질에 주는 핵심 통찰: 품질은 "있다/없다"가 아니라 "얼마나"의 문제다. 엔트로피는 그 "얼마나"를 수치화한다. 데이터셋의 엔트로피가 갑자기 치솟으면, 그것은 이상값의 침입이거나 데이터 수집 프로세스의 붕괴 신호다.

3위상 정렬 — 데이터 의존성의 수학적 해소

데이터는 홀로 존재하지 않는다. 주문 데이터는 고객 데이터에 의존하고, 배송 데이터는 주문 데이터에 의존하며, 정산 데이터는 배송 완료에 의존한다. 이 의존 관계를 무시하고 데이터를 처리하면 — 고객 테이블이 아직 로드되지 않은 상태에서 주문 테이블을 처리하면 — 외래 키 오류, NULL 폭발, 참조 무결성 붕괴가 발생한다. 이것도 데이터 품질 문제다.

DAG와 위상 정렬의 수학

위상 정렬은 방향성 비순환 그래프(DAG: Directed Acyclic Graph)에서 동작한다. DAG의 규칙은 두 가지다:

  • 방향성(Directed) — 화살표가 한 방향. A→B는 "A가 B의 선행 조건"을 의미
  • 비순환(Acyclic) — 순환이 없음. A→B→C→A는 불가 — 무한 루프는 실행 불가능

위상 정렬 알고리즘은 이 그래프에서 "모든 선행 노드가 후행 노드보다 앞에 오는" 선형 순서를 찾아낸다. 현실적인 예시를 들면:

데이터 파이프라인 실행 순서 결정 예시

raw_customers → cleaned_customers → customer_segments
raw_orders → cleaned_orders → order_summary
customer_segments + order_summary → revenue_report

위상 정렬 결과: raw_customers, raw_orders → cleaned_customers, cleaned_orders → customer_segments, order_summary → revenue_report
어떤 순서로 실행해도 의존성은 반드시 지켜진다.

두 가지 구현 알고리즘

위상 정렬에는 두 가지 표준 구현이 있다:

칸 알고리즘(Kahn's Algorithm) — BFS(너비 우선 탐색) 기반. 진입 차수(들어오는 화살표 수)가 0인 노드부터 처리하고 제거한다. 제거 후 진입 차수가 0이 된 노드를 큐에 추가한다. 처리된 노드 수가 전체보다 적으면 순환이 존재 — 위상 정렬 불가.

DFS 기반 알고리즘 — 깊이 우선 탐색. 완전히 탐색된 노드를 스택에 쌓고 역순으로 출력한다. 재귀적 구현이 자연스러워 의존성 그래프가 매우 깊을 때 유리하다.

현대 데이터 도구에서의 위상 정렬

Apache Airflow의 DAG는 말 그대로 위상 정렬을 기반으로 작업 실행 순서를 결정한다. dbt(data build tool)도 모델 간 의존성을 DAG로 표현하고, 위상 정렬로 빌드 순서를 최적화한다. LangGraph·CrewAI 같은 AI 에이전트 프레임워크도 에이전트 노드를 DAG로 연결하고 위상 정렬로 실행 순서를 보장한다.

위상 정렬이 데이터 품질에 주는 핵심 통찰: 데이터 품질은 개별 데이터의 문제가 아니라 데이터 간 관계의 문제이기도 하다. 처리 순서를 잘못 정하면, 각 데이터가 개별적으로는 완벽해도 파이프라인 전체의 품질이 붕괴한다.

4두 개념의 교차점: 위상적 데이터 분석(TDA)

엔트로피가 "얼마나 무질서한가"를 측정하고, 위상 정렬이 "어떤 순서로 처리하는가"를 결정한다면 — 그 둘이 만나는 지점에 위상적 데이터 분석(TDA: Topological Data Analysis)이 있다. TDA는 데이터의 기하학적 구조(모양, 연결성, 구멍)를 분석해 품질 문제를 탐지한다.

지속적 호몰로지(Persistent Homology) — 구조를 스케일 전반에서 추적

데이터 포인트들이 공간에 흩어져 있다고 생각해보자. 이 포인트들이 얼마나 가까이 있는지를 기준으로, 클러스터(연결된 덩어리)와 루프(구멍)가 나타났다 사라졌다 한다. 지속적 호몰로지는 이 구조들이 어느 스케일에서 나타나고 어느 스케일에서 사라지는지를 추적한다.

품질 문제와의 연결: 정상 데이터는 특정 스케일에서 안정적인 클러스터를 형성한다. 이상값(Outlier)이나 오염된 데이터는 그 구조를 교란한다 — 예기치 않은 위치에 클러스터가 생기거나, 정상 클러스터에 구멍이 뚫린다. TDA는 이 구조 변화를 엔트로피 증가와 결합해 이상을 탐지한다.

Mapper 알고리즘 — 고차원 데이터를 그래프로

은행 거래 데이터는 수백 개의 변수를 가진 고차원 데이터다. 사람이 시각화하기 불가능하다. Mapper 알고리즘은 이 고차원 데이터를 저차원 그래프로 압축한다:

필터 함수(주성분 분석 등)로 데이터를 저차원 공간에 투영

투영 공간을 겹치는 구간들로 분할 (open cover)

각 구간 내 데이터를 클러스터링 → 노드 생성

공유 데이터 포인트가 있는 노드 간 엣지 연결 → 그래프 완성

결과 그래프의 구조적 특성(노드 연결도, 클러스터 크기)이 데이터 품질의 지표가 된다. 정상 고객과 패턴이 다른 노드는 이상 탐지 후보다.

실증: 140만 명 은행 데이터에서 금융사기 탐지

2024년 발표된 연구(arXiv:2508.14136)는 TDA를 140만 명의 은행 거래 데이터에 적용했다. 사전 라벨 데이터(어떤 거래가 사기인지 정보) 없이 — 완전한 비지도학습으로 — 두 가지 사기 패턴을 탐지했다:

  • 머니 뮬(Money Mule) — 대규모 입금 후 즉각적 출금 패턴
  • 스머핑(Smurfing) — 소액 다수 이체 후 즉각적 현금 인출 패턴

이 패턴들은 개별 거래의 엔트로피(불규칙성)를 보면 잘 보이지 않는다. 그러나 거래 그래프의 위상 구조(연결 방식)를 보면 정상 고객과 확연히 다른 구조가 드러난다 — 엔트로피와 위상 분석의 시너지다.

TDA의 핵심 역설: 데이터의 품질 문제는 종종 개별 레코드가 아니라 레코드들 사이의 관계 구조에 숨어 있다. 각 거래는 정상이어도, 그 패턴의 위상 구조가 이상을 드러낸다.

5실무 적용 — AI 파이프라인에서 어떻게 쓰이는가

이론이 실제 데이터 파이프라인에서 어떻게 작동하는지 구체적으로 살펴보자. 현대 데이터 엔지니어링과 머신러닝 파이프라인은 이 두 수학적 개념을 동시에 의존한다.

엔트로피 기반 데이터 품질 모니터링

프로덕션 데이터 파이프라인에서 엔트로피는 데이터 드리프트(Data Drift) 감지에 쓰인다. 학습 데이터의 특성 분포 엔트로피를 기준값으로 저장하고, 새로 들어오는 데이터의 엔트로피를 주기적으로 비교한다. 엔트로피가 임계값 이상으로 변화하면 — 데이터 수집 프로세스가 바뀌었거나, 새로운 패턴의 사용자가 유입되었거나, 버그가 발생한 신호다.

실무 패턴: 엔트로피 기반 데이터 드리프트 알림

1. 일별 특성 엔트로피 계산 및 저장
2. 7일 이동평균 대비 현재 엔트로피 비율 계산
3. 비율 > 1.3 (30% 이상 증가) 시 알림 발송
4. 원인 분석: 수집 오류? 모집단 변화? 의도적 변경?

위상 정렬 기반 파이프라인 안정성

Apache Airflow, dbt, Prefect — 이 도구들은 모두 DAG를 핵심으로 한다. 위상 정렬이 올바른 실행 순서를 보장하지만, 여기에 더해 엔트로피 측면의 고려가 필요하다. 어떤 노드(데이터 변환 단계)에서 엔트로피가 급증하는가? 그 노드가 데이터 품질 병목이다.

최신 데이터 옵저버빌리티(Data Observability) 도구들은 이 두 개념을 통합한다: DAG를 통해 어느 상위 단계가 하위 단계에 영향을 미치는지 추적하고(위상 정렬의 의존성 분석), 각 단계에서의 데이터 분포 변화를 엔트로피로 측정한다.

AI 에이전트 워크플로우에서의 적용

LangGraph, CrewAI 같은 AI 에이전트 프레임워크도 DAG 구조를 사용한다. 각 에이전트 노드가 생성하는 출력의 품질을 엔트로피로 모니터링하고, 위상 정렬로 에이전트 간 실행 순서를 보장하면 — 에이전트 파이프라인의 출력 품질을 수학적으로 추적할 수 있다.

특히 RAG(Retrieval-Augmented Generation) 파이프라인에서 유용하다. 검색된 문서의 엔트로피가 높다면(다양한 관점이 섞여 불일치) — 해당 컨텍스트로 생성된 답변의 신뢰도도 낮을 가능성이 크다.

실무 핵심: 위상 정렬은 파이프라인이 올바른 순서로 실행되게 하고, 엔트로피는 각 단계에서 데이터 품질이 유지되고 있는지를 측정한다. 둘 중 하나만으로는 충분하지 않다.

6데이터 품질 수학의 미래

2025년 현재, 데이터 품질의 수학은 세 가지 방향으로 진화하고 있다.

그래프 엔트로피와 계층 구조 분석

2025년 논문(arXiv:2509.18417)은 그래프의 엔트로피와 계층적 구조 사이의 수학적 관계를 분석했다. 핵심 발견: DAG(위상 정렬 가능한 그래프)에서 데이터가 계층적으로 정리될수록 그래프 전체의 엔트로피가 낮아진다. 즉, 의존성 순서가 명확할수록 데이터 품질 측정이 쉬워진다 — 두 개념이 수학적으로 상호 강화한다.

위상 엔트로피 기반 그래프 분할

2025년 Nature Scientific Reports 논문은 위상 엔트로피(Topology Entropy)를 활용해 그래프를 최적 분할하는 알고리즘을 제안했다. 데이터셋의 자연적 경계를 찾아내는 이 방법은 비지도 학습에서 클러스터 품질을 수학적으로 보장하는 새로운 접근이다.

엔트로피 보존 알고리즘

2022년 이후 연구들은 정렬·필터링 알고리즘이 데이터의 엔트로피를 얼마나 보존하거나 감소시키는지를 수학적으로 모델링한다. 이것은 데이터 변환 파이프라인의 품질 보증에 직접 응용된다 — 어떤 변환이 정보 손실을 최소화하는가?

LLM 시대의 데이터 품질 수학

대형 언어 모델(LLM) 시대에 데이터 품질은 새로운 차원을 얻었다. 학습 데이터의 엔트로피가 모델의 다양성과 편향을 결정한다. 파인튜닝 데이터셋의 엔트로피가 너무 낮으면(동일한 패턴만 반복) 모델은 과적합된다. 너무 높으면(무작위적 노이즈) 학습이 수렴하지 않는다. 최적의 학습 데이터 품질은 적정 엔트로피 범위를 유지하는 것이다.

데이터 품질의 수학은 더 이상 학술 연구의 영역이 아니다. 엔트로피와 위상 정렬은 현대 데이터 스택의 기반 수학이 되었다. 데이터를 다루는 모든 실무자에게 이 두 개념의 이해는 선택이 아닌 필수가 되어가고 있다.

자주 묻는 질문

참고문헌

  • Shannon, C.E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379–423.
  • Applications of Entropy in Data Analysis and Machine Learning: A Review (2024). MDPI Entropy. PMC11675792.
  • Topological Data Analysis for Unsupervised Anomaly Detection and Customer Segmentation on Banking Data (2024). arXiv:2508.14136.
  • Graph entropy, degree assortativity, and hierarchical structures in networks (2025). arXiv:2509.18417.
  • Topology entropy: Enhancing graph partitioning for TAD identification (2025). Nature Scientific Reports.
  • Entropy conservation for comparison-based algorithms (2022). Scientia Iranica.
  • Topological Information Data Analysis (2019). ResearchGate.
  • Network Entropy Based on Topology Configuration (2008). Chinese Physics Letters.
  • Topological Analysis for Detecting Anomalies (TADA) in dependent sequences (2024). JMLR.
  • The 6 Data Quality Dimensions: Key Metrics & Best Practices (2026). OvalEdge.
  • Gini Impurity and Entropy in Decision Tree (2025). GeeksforGeeks.
  • Topological deep learning: a review of an emerging paradigm (2024). Artificial Intelligence Review, Springer.