450종 새 데이터셋의 품질을 진단하다 — DataClinic 리포트 #11

2026.03 · (주)페블러스 데이터 커뮤니케이션팀

읽는 시간: ~8분 · English

Executive Summary

본 보고서는 페블러스 데이터클리닉을 이용한 Birds 450 데이터셋의 품질 진단보고서에 대한 핵심 인사이트를 담고 있습니다.

Birds 450은 450종 조류 이미지 75,100장으로 구성된 컴퓨터 비전용 데이터셋입니다. DataClinic 종합 진단 결과 65점(Fair)을 기록했습니다. 클래스 균형(평균 150.6장, 최소 편차)과 RGB 일관성은 우수하지만, 저밀도 아웃라이어와 클래스 경계 모호 구간이 AI 분류 성능을 저해할 수 있습니다.

L1 픽셀 분석에서는 일부 이미지의 검은 배경 패딩과 이미지 크기 불균일이 발견되었습니다. L2 특징 공간 분석에서는 BLUE DACNIS, FRIGATE 등 고아웃라이어 클래스가 확인되었으며, L3 클래스 간 분석에서는 외형이 유사한 종들 사이에 임베딩 경계 혼재가 나타났습니다.

데이터 품질 개선을 통해 AI 모델 성능을 65점에서 90점 이상으로 끌어올릴 수 있습니다. 핵심 액션 아이템은 저밀도 샘플 제거, 희귀 클래스 증강, 이미지 크기 표준화(224px)입니다.

데이터셋 소개

항목	내용
데이터셋명	Birds 450 Species
출처	Kaggle
총 이미지 수	75,100장
클래스 수	450종
종합 점수	65점 (Fair)

Birds 450은 클래스당 이미지 수가 비교적 균일하게 분포되어 있어 다중 분류 태스크에 적합한 구조를 갖추고 있습니다. 그러나 DataClinic 진단을 통해 픽셀 수준부터 특징 공간에 이르기까지 다양한 품질 이슈가 발견되었습니다.

Birds 450 데이터셋 — 450종 조류 대표 이미지 콜라주 (DataClinic L1 분석)

Level 1: 픽셀 품질 분석

Level 1은 이미지의 기초 픽셀 통계를 분석하는 단계입니다. DataClinic은 각 클래스의 평균 이미지(Mean Image)를 계산하고, 채널별 밝기 분포를 점검합니다.

Blue 채널 우세 현상

채널별 분석 결과, Blue 채널의 평균 밝기가 가장 높게 나타났습니다. 이는 데이터셋 내 하늘 배경이 많은 이미지에서 기인하는 현상으로, 조류 사진 특성상 자연스러운 편향이지만, 모델 학습 시 채널 정규화에 주의가 필요합니다.

픽셀값 0 부근의 스파이크

픽셀 분포에서 값 0 근처의 비정상적인 스파이크가 관찰되었습니다. 이는 검은 배경 처리 또는 패딩된 이미지들이 다수 포함되어 있음을 의미합니다. 배경 제거 과정에서 발생한 인공물(artifact)일 가능성이 높으며, 이로 인해 Level 1 점수는 B등급을 기록했습니다.

아래는 대표 클래스(ABBOTTS BABBLER)의 평균 이미지입니다:

Level 2: 특징 공간 분석

Level 2에서는 Wolfram ImageIdentify Net V2(1,280차원 특징 벡터)를 사용해 이미지를 임베딩 공간에 배치하고, 클래스 간 분리도와 밀도 분포를 분석합니다.

클래스 분리도 (PCA 시각화)

PCA로 축약한 특징 공간을 시각화하면 클래스별 클러스터링 패턴을 확인할 수 있습니다. 대부분의 조류 클래스가 중심부에 밀집되어 있으며, 일부 클래스는 분산이 크게 나타납니다.

L2 PCA - 클래스별 평균 특징 분포

밀도 분포

밀도 기반 분석에서는 특징 공간의 중심에서 얼마나 벗어나 있는지를 측정합니다. 밀도가 낮은 이미지일수록 데이터셋에서 이례적인(outlier) 특성을 가집니다.

L2 밀도 분포

Level 2 분석을 통해 450개 클래스 중 일부가 다른 클래스와 시각적 특징을 공유하거나, 전혀 다른 촬영 환경에서 수집된 이미지를 포함하고 있음이 드러났습니다.

Level 3: 도메인 특화 분석

Level 3에서는 Birds 전용 fine-tuned 모델(41차원 특징 벡터)을 사용해 보다 세밀한 조류 분류 관점에서 데이터 품질을 진단합니다. 일반 비전 모델보다 도메인 특화 모델이 포착하는 이상치는 실제 데이터 품질 문제와 더 밀접하게 연결됩니다.

도메인 특화 PCA 시각화

L3 PCA - 도메인 특화 특징 분포

Level 3 밀도 분포

L3 밀도 분포

이상치 클래스 Top 분석

Level 3 분석에서 밀도가 가장 낮게 나온 클래스, 즉 도메인 특화 모델 관점에서 가장 이례적인 클래스는 다음과 같습니다:

클래스	밀도 점수	의미
BLUE DACNIS	0.87	다른 조류와 시각적 특징 거리가 멀다
FRIGATE	0.90	독특한 실루엣과 배경으로 인한 이상치

반면 COMMON POORWILL(밀도 4.26)은 가장 전형적인 조류 이미지 특성을 보이며, 데이터셋 내에서 가장 중심적인 클래스로 분류되었습니다.

BLUE DACNIS는 선명한 파란색과 초록색이 혼합된 소형 조류로, 일반 조류 모델의 학습 분포와 편차가 큰 시각적 특성을 보입니다. FRIGATE는 대형 해양 조류로, 특유의 날개 형태와 어두운 실루엣이 대부분의 조류 이미지와 다른 패턴을 형성합니다.

결론 및 데이터 개선 제안

Birds 450 데이터셋은 종합 65점(Fair)으로, 컴퓨터 비전 모델 학습에 활용 가능하지만 몇 가지 개선을 통해 품질을 크게 향상시킬 수 있습니다.

주요 발견 요약

픽셀 수준: 검은 배경 처리로 인한 픽셀값 0 스파이크가 모델 학습 시 편향을 유발할 수 있습니다.
채널 분포: Blue 채널이 우세하므로, 채널별 정규화(per-channel normalization)를 적용하는 것이 권장됩니다.
이상치 클래스: BLUE DACNIS, FRIGATE 등 시각적으로 독특한 클래스는 추가 데이터 수집 또는 데이터 증강(augmentation)이 필요합니다.

데이터 개선 제안

배경 균일화: 검은 배경 이미지를 자연스러운 배경으로 교체하거나, 배경 증강 기법을 적용
이상치 클래스 보강: 밀도 하위 10% 클래스에 대한 추가 수집 및 다양성 확보
채널 정규화: 전처리 파이프라인에 ImageNet 통계 기반 정규화 적용
클린징 파이프라인: 픽셀값 0 비율이 높은 이미지를 필터링하는 사전 처리 단계 추가

DataClinic의 3단계 진단은 단순한 품질 점수를 넘어, 어떤 클래스에서, 어떤 이유로, 어떤 수준의 품질 문제가 발생하는지를 명확히 제시합니다. Birds 450처럼 대규모 다중 분류 데이터셋에서 특히 그 가치가 빛납니다.

DataClinic 리포트 #11 분석은 DataClinic v1.4.0 기준으로 수행되었습니다. 더 자세한 진단 결과는 전체 보고서에서 확인하실 수 있습니다.