2026.03 · (주)페블러스 데이터 커뮤니케이션팀
읽는 시간: ~15분 · English
Executive Summary
본 보고서는 페블러스 데이터클리닉을 이용한 WikiArt 데이터셋의 품질 진단보고서에 대한 핵심 인사이트를 담고 있습니다.
WikiArt는 추상표현주의부터 바로크까지 27개 화풍(Style)으로 구성된 81,471장의 미술 이미지 데이터셋입니다. DataClinic 종합 진단 결과 품질점수 53점(나쁨)을 기록했습니다. 클래스 불균형이 극심하여 최소 98장부터 최대 13,060장까지 133배 이상의 차이를 보이며, 이는 모델 학습 시 특정 화풍에 편향된 분류기를 만들 가능성이 높습니다.
L2(특징 공간 분석) Wolfram ImageIdentify Net V2(1,280차원)에서는 3개의 고밀도 클러스터가 발견되었으나, 화풍 간 경계가 불명확하고 클래스 구분이 흐릿합니다. L3(도메인 최적화 분석) BLIP Image-Text Matching(56차원)에서도 클러스터 구분은 여전히 어렵지만 전반적인 분포 형태는 양호했습니다.
데이터 품질 개선을 위해서는 소수 클래스 보강(데이터 벌크업)과 다수 클래스 중복 제거(다이어트)가 동시에 필요합니다. 특히 추상화 계열 화풍의 시각적 유사성으로 인해 레이블 일관성 검토가 선행되어야 합니다.
데이터셋 소개
WikiArt는 수백 년에 걸친 서양 미술사를 담은 대규모 이미지 데이터셋입니다. Kaggle을 통해 공개된 이 데이터셋은 컴퓨터 비전과 예술 스타일 분류 연구에 널리 활용됩니다. 27개의 화풍(Art Style)을 아우르는 81,471장의 이미지로 구성되어 있으며, 인상주의, 바로크, 추상표현주의 등 미술사의 주요 사조를 포괄합니다.
| 항목 | 내용 |
|---|---|
| 데이터셋명 | WikiArt |
| 출처 | Kaggle (WikiArt) |
| 총 이미지 수 | 81,471장 |
| 클래스 수 | 27개 화풍 |
| 종합 점수 | 53점 (나쁨) |
| 발행일 | 2025.01.01 |
27개 화풍의 클래스 목록은 Abstract_Expressionism, Action_painting, Analytical_Cubism, Art_Nouveau, Baroque, Color_Field_Painting, Cubism, Early_Renaissance, Expressionism, Fauvism, High_Renaissance, Impressionism, Mannerism_Late_Renaissance, Minimalism, Naive_Art_Primitivism, New_Realism, Northern_Renaissance, Pointillism, Pop_Art, Post_Impressionism, Realism, Rococo, Romanticism, Symbolism, Synthetic_Cubism, Ukiyo_e 등으로 구성됩니다. 이 데이터셋은 예술적 화풍 분류라는 본질적으로 어려운 태스크를 다루며, 그 난이도는 데이터 품질 문제를 더욱 복잡하게 만듭니다.
WikiArt 데이터셋 — 27개 화풍 대표 이미지 콜라주 (DataClinic L1(기초 품질) 분석)
종합 진단 결과: 53점 (나쁨)
WikiArt 데이터셋의 DataClinic 종합 점수는 53점(나쁨)입니다. 이는 데이터셋이 AI 모델 학습에 직접 활용하기에는 품질 개선이 시급한 상태임을 의미합니다. 53점이 기록된 주된 이유는 단 하나, 바로 클래스 간 극단적 불균형입니다.
미술사에서 인상주의(Impressionism)나 낭만주의(Romanticism) 같은 주류 화풍은 방대한 작품이 존재하는 반면, Analytical_Cubism이나 Action_painting 같은 세부 사조는 태생적으로 작품 수가 적습니다. 이 현실 세계의 불균형이 데이터셋에 그대로 반영된 결과입니다. AI 모델은 더 많은 데이터를 가진 클래스에 편향되어 학습되고, 소수 클래스는 사실상 무시되는 문제가 발생합니다.
Level 1: 픽셀 품질 분석
Level 1은 이미지의 기초 픽셀 통계를 분석하는 단계입니다. DataClinic은 각 클래스의 평균 이미지(Mean Image)를 계산하고, RGB 채널별 밝기 분포, 결측값, 클래스 불균형 등을 점검합니다.
RGB 채널 일관성: 양호
픽셀 수준의 RGB 채널 일관성은 양호로 평가되었습니다. 채널별 분포가 고르게 나타나며, 특정 채널이 극단적으로 우세하거나 결핍된 이미지는 드뭅니다. 이는 WikiArt가 다양한 화풍과 시대의 작품을 포괄하면서도 디지털화 품질은 전반적으로 일관되게 유지되고 있음을 의미합니다.
결측값: 없음
81,471장 전체에서 결측값(Missing Value)은 발견되지 않았습니다. 모든 이미지가 유효한 픽셀 데이터를 갖추고 있어 전처리 단계에서 별도의 결측값 처리가 불필요합니다.
클래스 불균형: 나쁨 — 핵심 문제
Level 1에서 가장 심각한 문제는 클래스 불균형입니다. DataClinic 분석 결과:
- 최소 클래스: 98장 (Analytical_Cubism 등)
- 최대 클래스: 13,060장 (Impressionism 등)
- 평균: 3,016장
- 표준편차: 3,269 (평균보다 큰 표준편차 — 극단적 분산)
최소-최대 비율이 무려 133:1에 달합니다. 표준편차(3,269)가 평균(3,016)을 초과한다는 사실은 분포가 얼마나 왜곡되어 있는지를 단적으로 보여줍니다.
아래는 대표 클래스들의 평균 이미지입니다. 화풍별로 확연히 다른 시각적 특성이 드러납니다:
Abstract Expressionism
Art Nouveau
Baroque
평균 이미지에서 Abstract Expressionism은 색채와 질감이 뒤섞인 추상적 특성을, Baroque는 어두운 배경과 명암 대비가 강한 고전 회화의 특성을 보여줍니다. 이처럼 화풍별 평균 이미지가 서로 확연히 구분된다는 것은 픽셀 수준에서는 어느 정도 화풍 간 차이가 존재함을 의미합니다.
Level 2: 특징 공간 분석 (Wolfram ImageIdentify Net V2)
Level 2에서는 Wolfram ImageIdentify Net V2(1,280차원 특징 벡터)를 사용해 이미지를 고차원 임베딩 공간에 배치하고, 클래스 간 분리도와 밀도 분포를 분석합니다. 이 모델은 특정 도메인에 특화되지 않은 일반 비전 모델로, "컴퓨터가 이미지를 얼마나 다르게 인식하는가"를 측정합니다.
3개의 고밀도 클러스터 발견
PCA로 축약한 특징 공간을 분석한 결과, 고밀도 클러스터가 3개 발견되었습니다. 이는 WikiArt의 27개 화풍이 일반 비전 모델의 관점에서 크게 3가지 시각적 유형으로 묶인다는 것을 의미합니다. 구체적으로는 고전 회화 계열(Baroque, Renaissance 등), 근현대 추상 계열(Abstract Expressionism, Minimalism 등), 그리고 양식화된 화풍 계열(Ukiyo_e, Art_Nouveau 등)로 구분되는 패턴이 보입니다.
아래 PCA 시각화에서 클래스별 평균 특징의 분포를 확인할 수 있습니다:
화풍 간 경계 불명확
그러나 가장 중요한 발견은 클러스터 간 경계가 매우 불명확하다는 점입니다. 특히 추상화 계열(Abstract_Expressionism, Action_painting, Color_Field_Painting, Minimalism)이 임베딩 공간에서 상당 부분 겹칩니다. 컴퓨터 비전 모델의 관점에서 이들 화풍은 서로 구별하기 어렵습니다. 예술사적으로도 이들 사조는 연속적 맥락에서 발전했기 때문에, 이는 어느 정도 예상 가능한 결과입니다.
분포: 종형 (Bell-shaped)
밀도 분포는 종형(Bell-shaped)으로, 대부분의 이미지가 특징 공간의 중심부에 밀집되어 있고 양 극단에 소수의 이상치가 분포합니다. 이는 정규 분포에 가까운 건강한 데이터 구조를 나타냅니다.
Level 3: 도메인 특화 분석 (BLIP Image-Text Matching)
Level 3에서는 BLIP Image-Text Matching Nets(56차원 특징 벡터)를 사용합니다. BLIP은 이미지와 텍스트를 함께 학습한 멀티모달 모델로, "이미지가 예술적으로 어떤 맥락에서 이해되는가"를 측정합니다. 56차원이라는 압축된 표현은 예술 도메인에 특화된 핵심 특징만을 추출합니다.
클러스터 구분: 여전히 불명확
BLIP 기반 분석에서도 화풍 간 클러스터 구분은 여전히 불명확합니다. L2와 마찬가지로 추상화 계열 화풍들이 텍스트-이미지 매칭 공간에서도 분리되지 않는 패턴이 나타납니다. 이는 단순히 시각적 유사성 때문이 아니라, 텍스트 설명으로도 이들 화풍을 명확히 구분하기 어렵다는 것을 시사합니다.
L3 PCA 시각화에서 화풍별 특징 분포를 확인할 수 있습니다:
기하: 보통 / 분포: 좋음
L3 분석에서 기하(Geometry) 지표는 보통으로 평가되었으며, 분포(Distribution)는 좋음으로 평가되었습니다. 분포가 좋다는 것은 BLIP 특징 공간에서 전체적인 데이터 분산이 적절하게 이루어졌음을 의미합니다. L2에서는 종형 분포를 보였는데, L3에서는 이와 유사하거나 더 고른 분포가 확인됩니다.
이상치 분석: 고밀도 vs. 저밀도 샘플
DataClinic은 밀도 기반 이상치 분석을 통해 데이터셋에서 가장 전형적인 샘플(고밀도)과 가장 이례적인 샘플(저밀도)을 식별합니다. L2 분석 기준으로 다음과 같은 샘플들이 발견되었습니다.
고밀도 샘플 — 데이터셋의 대표 이미지
고밀도 샘플은 해당 클래스에서 가장 "전형적인" 특성을 가진 이미지입니다. 이 이미지들은 모델 학습 시 클래스의 중심 개념을 형성하는 핵심 데이터입니다.
Minimalism — 밀도 0.319
최소한의 형태와 색채, 미니멀리즘의 전형적 특성을 보여주는 추상 회화
Color Field Painting — 밀도 0.318
대형 색채 면(Field)이 화면을 채우는 색면 추상화의 전형
저밀도 샘플 — 이상치 이미지
저밀도 샘플은 해당 클래스 내에서 다른 이미지들과 시각적으로 크게 다른 이상치입니다. 이 이미지들은 잘못 레이블링되었거나, 해당 화풍의 비전형적 작품일 가능성이 있어 검토가 필요합니다.
Abstract Expressionism — 밀도 0.047
추상표현주의 클래스에서 다른 작품들과 현저히 다른 이상치 이미지
Naive Art Primitivism — 밀도 0.048
소박파 계열에서 밀도가 매우 낮은 비전형적 작품
주목할 점은 저밀도 샘플의 밀도 값(0.047, 0.048)이 고밀도 샘플(0.318, 0.319)에 비해 약 7배 낮다는 것입니다. 이처럼 극단적인 이상치는 레이블 오류, 수집 오류, 또는 화풍의 경계 사례(Edge Case)일 가능성이 높습니다. DataClinic은 이러한 샘플을 자동으로 식별하여 데이터 엔지니어가 검토할 수 있도록 목록화합니다.
개선 제안: 벌크업 + 다이어트 동시 전략
WikiArt 데이터셋의 품질점수를 53점에서 80점 이상으로 끌어올리기 위해서는 두 가지 방향의 개선이 동시에 필요합니다. "벌크업"으로 소수 클래스를 보강하고, "다이어트"로 다수 클래스의 불필요한 중복을 제거하는 것입니다.
1. 소수 클래스 벌크업 (데이터 수집 및 증강)
- 추가 수집: Analytical_Cubism(98장), Action_painting 등 100장 미만 클래스에 대해 WikiArt 공식 사이트, 뮤지엄 API 등에서 추가 이미지 수집
- 데이터 증강: 회전, 색상 조정, 크롭 등의 증강 기법으로 소수 클래스 이미지를 최소 500장 이상으로 확보
- 목표: 모든 클래스의 이미지 수를 최소 300장 이상으로 균형화
2. 다수 클래스 다이어트 (중복 제거)
- 유사도 기반 중복 제거: L2 임베딩 공간에서 코사인 유사도가 0.95 이상인 이미지 쌍을 중복으로 분류하고 하나 제거
- 고밀도 클러스터 샘플링: 13,000장이 넘는 Impressionism 등 다수 클래스에서 고밀도 영역 중심으로 대표 샘플 3,000장을 선별 유지
- 목표: 클래스당 최대 이미지 수를 5,000장 이하로 제한
3. 레이블 일관성 검토
- 경계 화풍 재검토: Abstract_Expressionism, Action_painting, Color_Field_Painting, Minimalism 등 임베딩 공간에서 겹치는 클래스들의 레이블 일관성 재검증
- 이상치 검토: 밀도 하위 5% 샘플(저밀도 이상치)에 대해 수동 레이블 재확인 또는 제거
- 클래스 통합 고려: 너무 유사한 화풍(예: Analytical_Cubism + Synthetic_Cubism)은 상위 클래스로 통합 고려
예상 개선 효과
위 3가지 개선을 적용했을 때의 예상 DataClinic 점수 변화:
| 항목 | 현재 | 개선 후 예상 |
|---|---|---|
| 클래스 불균형 | 나쁨 (98~13,060장) | 양호 (300~5,000장) |
| 이상치 비율 | ~5% | <1% |
| 레이블 일관성 | 보통 | 양호 |
| 종합 점수 | 53점 (나쁨) | 75~80점 (보통~양호) |
DataClinic은 단순히 문제를 발견하는 것을 넘어, 어떤 클래스에서 얼마나 개선이 필요한지를 정량적으로 제시합니다. 이를 통해 데이터 엔지니어링 리소스를 가장 효과적으로 배분할 수 있습니다.