2026.03 · (주)페블러스 데이터 커뮤니케이션팀

읽는 시간: ~8분 · English

Executive Summary

본 분석은 페블러스 데이터클리닉이 진단한 134개 이미지 분류 데이터셋의 규모와 클래스 불균형 통계를 전수 집계한 결과입니다. 공개 API를 통해 클래스별 이미지 수를 직접 수집하여 분석했습니다.

134개 데이터셋의 총 이미지 수는 1,205만 장입니다. 데이터셋 규모의 중앙값은 11,505장으로 절반 이상이 10K 근방에 집중되어 있지만, 상위 4개 데이터셋은 각각 100만 장을 넘어서며 분포가 극도로 비대칭적입니다.

클래스 불균형은 더욱 극적입니다. 전체의 25%(33개)는 완벽히 균형 잡혀 있는 반면, 15개 데이터셋은 최대·최소 클래스 비율이 100배를 초과합니다. 가장 극단적인 경우는 73,384배로, 같은 데이터셋 안에서 3장짜리 클래스와 22만 장짜리 클래스가 공존합니다.

전체 개요

134
분석 데이터셋
1,205
총 이미지 수
11,505
중앙값 (장)
50.8
평균 클래스 수

데이터클리닉의 158개 공개 리포트 중 134개는 이미지 분류 태스크로, 클래스별 이미지 수 데이터가 제공됩니다. 나머지 24개는 레이블이 없는 비지도 학습용 데이터셋이거나 클래스 구분이 적용되지 않는 형태입니다.

134개 데이터셋의 클래스 수 합계는 6,805개이며, 여기에 포함된 총 이미지는 12,054,130장입니다. 데이터셋당 평균 이미지 수는 89,956장이지만, 이는 100만 장 이상의 대형 데이터셋 4개가 평균을 크게 끌어올린 결과입니다. 중앙값(11,505장)이 평균(89,956장)의 8분의 1 수준에 불과하다는 사실이 분포의 극단적 비대칭성을 단적으로 보여줍니다. 전체 리포트는 dataclinic.ai에서 확인하실 수 있습니다.

데이터셋 규모 분포

총 이미지 수 기준으로 134개 데이터셋의 분포를 5개 구간으로 나누면 다음과 같습니다.

<1K (소규모)9개 (6.7%)
1K–10K55개 (41.0%)
10K–100K54개 (40.3%)
100K–1M12개 (9.0%)
>1M (대규모)4개 (3.0%)

전체의 81%가 1K–100K 규모 범위에 집중되어 있습니다. 특히 10K 미만의 소규모 데이터셋이 64개(48%)로 절반에 가까우며, 이는 실제 AI 프로젝트 현장에서 가장 많이 마주치는 규모와 일치합니다.

반면 100만 장을 넘는 대규모 데이터셋은 4개에 불과하지만 — Places365(180만), OpenImages(174만), ImageNet(128만), 열화상 카메라(122만) — 이 4개가 전체 이미지의 50.4%를 차지합니다. 데이터의 총량은 소수의 대형 데이터셋에 극도로 집중되어 있습니다.

가장 작은 데이터셋은 Marble Surface Anomaly Detection(55장)이며, 가장 큰 데이터셋은 Places365(1,803,460장)입니다. 최대·최소 규모의 차이가 32,790배에 달합니다.

🔍 클래스 평균 이미지로 보는 데이터셋 다양성

클래스 내 모든 이미지의 픽셀 평균. 선명할수록 해당 클래스의 시각적 일관성이 높습니다.

PEACOCK 클래스 평균

Birds 525
PEACOCK

EMU 클래스 평균

Birds 525
EMU

CROWNED CRANE 클래스 평균

Birds 450
CRANE

Impressionism 클래스 평균

WikiArt
Impressionism

Cubism 클래스 평균

WikiArt
Cubism

김밥 클래스 평균

Korean Food
김밥

클래스 수 분포

2
최소 클래스 수
10
중앙값
1,000
최대 (ImageNet)

클래스 수의 중앙값은 10개이며, 평균은 50.8개입니다. 이분법적 분류(클래스 2개)부터 ImageNet의 1,000개 클래스까지 스펙트럼이 매우 넓습니다.

클래스 수 상위 5개 데이터셋은 다음과 같습니다:

  1. ImageNet — 1,000 클래스 (1,281,167장)
  2. OpenImages — 599 클래스 (1,743,042장)
  3. Birds 525 — 525 클래스 (89,885장) · 스토리 보기
  4. Birds 450 — 450 클래스 (67,792장) · 스토리 보기
  5. MPII (Human Pose) — 398 클래스 (40,522장)

클래스가 많을수록 클래스당 이미지 수가 적어지는 경향이 있으며, 이는 불균형 문제와 직결됩니다. ImageNet(클래스당 평균 1,281장)은 이 점에서 상대적으로 잘 설계된 데이터셋이며, Birds 525(클래스당 평균 171장)는 클래스 수에 비해 데이터 규모가 제한적입니다.

클래스 불균형 현황

클래스 불균형 비율(최대 클래스 이미지 수 ÷ 최소 클래스 이미지 수)을 분석한 결과입니다. 단일 클래스 데이터셋 제외, 다중 클래스 134개 기준입니다.

완벽 균형 (1.0x)33개 (24.6%)
약한 불균형 (1–2x)30개 (22.4%)
보통 불균형 (2–10x)38개 (28.4%)
심한 불균형 (10–100x)18개 (13.4%)
극단적 불균형 (>100x)15개 (11.2%)

134개 중 33개(24.6%)는 모든 클래스가 동일한 이미지 수를 가진 완벽 균형 데이터셋입니다. 이는 연구자가 의도적으로 균형을 맞춘 경우로, 대표적으로 EPL 로고 탐지(클래스당 정확히 1,000장), 수어 숫자 인식(클래스당 204~208장) 등이 있습니다.

반면 불균형 비율이 100배를 초과하는 데이터셋이 15개(11.2%)에 달합니다. 이 중 가장 극단적인 OpenImages의 경우 3장짜리 클래스와 220,154장짜리 클래스가 같은 데이터셋에 존재합니다. 이러한 극단적 불균형 속에서 AI 모델을 학습시키면 소수 클래스는 사실상 학습되지 않습니다.

불균형 비율의 중앙값은 2.1배로, 전형적인 공개 데이터셋은 가장 많은 클래스가 가장 적은 클래스보다 약 2배 많은 이미지를 가지고 있습니다. 이는 얼핏 양호해 보이지만, 평균(748배)과 중앙값(2.1배)의 극단적 차이가 분포의 왜곡을 보여줍니다.

📖 불균형 데이터셋 심층 분석 스토리

WikiArt 81,471장 진단기 — 27개 화풍, 불균형 133x, 품질점수 53점

한국 음식 150가지 진단기 — 150개 클래스, 불균형 121x, 품질점수 71점

Birds 525 진단기 — 525종, 89,880장, 품질점수 77점

Birds 450 진단기 — 450종, 75,100장, 품질점수 65점

주요 순위

📦 규모 Top 10 (총 이미지 수)

1Places3651,803,460
2OpenImages1,743,042
3ImageNet1,281,167
5Kfashion967,806
7CelebA202,599
8SVHN99,289
9Birds 52589,885
10EuroSAT81,500

⚠️ 불균형 Top 10 (max/min 비율)

🗂 클래스 수 Top 10

✅ 가장 균형 잡힌 Top 5

완벽 균형(1.0x) 데이터셋이 전체의 24.6%(33개)를 차지합니다.

3가지 핵심 인사이트

1. 중형 데이터셋이 주류지만, 실질적 데이터량은 소수 대형에 집중

전체의 81%가 1K~100K 범위에 있지만, 100만 장 이상 대형 데이터셋 4개가 전체 이미지의 절반을 차지합니다. 데이터셋 수와 데이터 총량은 완전히 다른 분포를 보입니다. 연구 커뮤니티가 벤치마크로 사용하는 "잘 알려진" 데이터셋일수록 규모가 큰 경향이 있습니다.

2. 불균형은 피할 수 없지만, 의도적 설계로 균형을 달성한 사례도 많다

25%의 데이터셋이 완벽한 균형을 달성했습니다. 이들의 공통점은 연구 목적에 맞게 수집 단계에서부터 클래스별 이미지 수를 동일하게 제어한 것입니다. 반면 "자연스럽게" 수집된 데이터셋(OpenImages, CelebA, UTKFace 등)은 현실 세계의 불균형을 그대로 반영해 100배 이상의 불균형을 보입니다.

3. 클래스가 많을수록 클래스당 이미지가 적어 품질 리스크가 높아진다

클래스 수 상위 10개 데이터셋의 클래스당 평균 이미지 수는 3,164장이지만, ImageNet을 제외하면 875장으로 떨어집니다. Birds 525의 경우 525개 클래스에 89,885장으로 클래스당 171장에 불과합니다. 세분화된 분류 태스크일수록 데이터 수집과 균형 유지가 더 어렵고, 모델 성능 저하 리스크도 높아집니다. DataClinic의 다중 레벨 진단(L1/L2/L3)이 이런 데이터셋에서 특히 중요한 이유입니다.

여러분의 데이터셋은 어떤가요?

DataClinic은 이미지 분류 데이터셋의 L1(기초 품질)부터 L3(도메인 특화 분석)까지 무료로 진단합니다.

DataClinic에서 진단하기 →