2026.03 · (주)페블러스 데이터 커뮤니케이션팀

읽는 시간: ~12분 · English

Executive Summary

본 포스팅은 페블러스 데이터클리닉을 이용한 BIRDS 525 SPECIES 데이터셋의 품질 진단보고서 #116에 대한 핵심 인사이트와 전작 Birds 450과의 비교 분석을 담고 있습니다.

BIRDS 525는 525개 조류 종, 총 89,880장의 이미지로 구성된 대규모 조류 분류 데이터셋입니다. DataClinic 종합 진단 결과 품질점수 77점(보통)을 기록했습니다. 이는 전작 Birds 450(품질점수 65점)보다 12점 높은 수치로, ① 원본 해상도 보존(L1 개선), ② 75종 추가에 따른 특징 공간 커버리지 확대(L2/L3 개선), ③ L3 분석 차원 2배 정교화(41→81차원)가 복합적으로 작용한 결과입니다.

L1(기초 품질) 분석에서는 Birds 450이 모든 이미지가 224px로 균일하게 전처리된 반면, Birds 525는 45px~4,763px의 원본 해상도를 보존합니다. 범용 AI 렌즈(L2, 특징 공간 분석)에서는 두 개의 클러스터가 발견되었으며, L2 밀도 분포 비교에서 Birds 525가 450보다 더 넓은 특징 공간에 분포하는 것으로 나타났습니다. 도메인 특화 렌즈(L3, 도메인 최적화 분석)에서도 81차원 공간에서 종형 분포가 안정적으로 유지됩니다.

가장 '전형적인' 새는 공작(PEACOCK)이었으며, 가장 이질적인 새는 EMU와 극락조(BIRD OF PARADISE)였습니다. 단, 상업적 이용이 불가하므로 연구·교육 목적 외 사용 시 주의가 필요합니다.

Birds 450 vs Birds 525 — 무엇이 달라졌나

Birds 450 · 품질점수 65점 +12 → Birds 525 · 품질점수 77점
항목 Birds 450 (#11) Birds 525 (#116) 변화
종합 점수 품질점수 65점 (보통) 품질점수 77점 (보통) +12점 ↑
클래스 수 450종 525종 +75종 ↑
총 이미지 75,100장 89,880장 +14,780장 ↑
클래스당 평균 150.6장 161.2장 +10.6장 ↑
클래스 균형 표준편차 15.7 20.6 -4.9 ↓
최소 해상도 170×196px 45×109px 더 작아짐
최대 해상도 224×224px 4,763×3,421px 훨씬 다양 ↑
L1 통계 등급 나쁨 좋음 대폭 개선 ↑
L2 분석 렌즈 BLIP (멀티모달) Wolfram ImageIdentify Net V2 렌즈 변경
L3 차원 41차원 81차원 2배 정교 ↑
상업적 이용 가능 ✓ 불가 ✗ ⚠️ 주의

🔑 점수 향상의 핵심: 복합 요인

12점 상승은 단일 요인이 아닌 여러 개선이 복합적으로 작용한 결과입니다:

① 원본 데이터 보존 (L1 기여) — Birds 450은 모든 이미지를 224×224px로 사전 전처리하여, 카메라·거리·조명·배경 등 촬영 조건이 만드는 자연스러운 픽셀 통계 다양성이 소실되었습니다. Birds 525는 45px 썸네일부터 4,763px 전문 사진까지 원본 해상도를 보존하여, L1 통계 등급이 '나쁨 → 좋음'으로 대폭 개선되었습니다.

② 클래스 다양성 확대 (L2/L3 기여) — 75종이 추가되면서 특징 공간의 커버리지가 넓어졌습니다. 새로 포함된 종들(SNOWY SHEATHBILL, OILBIRD, JACOBIN PIGEON 등)은 기존 450종에 없던 시각적 특성을 가진 희귀종·지역 고유종입니다. 이들이 특징 공간의 빈 영역을 채우면서 전체 분포의 균형이 개선되었습니다.

③ L3 분석 정교화 (41→81차원) — Birds 525의 도메인 특화 렌즈는 450의 2배인 81차원을 사용합니다. 더 높은 차원은 종 간 미세한 시각 차이를 더 정밀하게 포착하여, 임베딩 공간에서의 클래스 분리도가 향상됩니다.

⚠️ 중요: 상업적 이용 불가

Birds 450은 상업적 이용이 허가된 반면, Birds 525는 상업적 이용이 불가합니다. 연구·교육 목적으로만 사용 가능하며, 실제 서비스나 제품에 활용하려면 Birds 450 또는 별도의 라이선스가 확보된 데이터셋을 사용해야 합니다.

데이터셋 소개 — 525종 조류의 세계

BIRDS 525 SPECIES IMAGE CLASSIFICATION은 Kaggle에서 공개된 전 세계 525종의 조류 이미지 89,880장으로 구성된 대규모 다중 분류 데이터셋입니다. 친숙한 비둘기(JACOBIN PIGEON)부터 화려한 극락조(BIRD OF PARADISE), 날지 못하는 타조과(EMU), 야행성 오일버드(OILBIRD)까지, 지구상 조류 다양성의 단면을 담고 있습니다.

525
조류 종 수
89,880
총 이미지 수
161
클래스당 평균 이미지
77
DataClinic 점수

525종에 새롭게 추가된 75종은 Birds 450에서 다루지 않았던 더 희귀하거나 지역 고유종, 혹은 외형적으로 구별이 까다로운 종들입니다. SNOWY SHEATHBILL(흰부리갈매기류), OILBIRD(오일버드), JACOBIN PIGEON(자코뱅 비둘기) 등이 포함됩니다.

Birds 450과의 또 다른 차이점은 이미지 출처의 다양성입니다. 450은 전처리된 균일 해상도를 사용한 반면, 525는 야생 촬영 사진, 도감 이미지, 전문 조류 사진 등 다양한 출처의 이미지를 원본 해상도로 수록합니다. 이는 실제 배포 환경(in-the-wild)에 더 가까운 데이터 조건을 만들어 줍니다.

Birds 525 데이터셋 — 525종 조류 대표 이미지 콜라주

Birds 525 데이터셋 — 525종 조류 대표 이미지 콜라주 (DataClinic L1 분석)

ANHINGA 클래스 평균
ANHINGA
ABBOTTS BABBLER 클래스 평균
ABBOTTS BABBLER
ABBOTTS BOOBY 클래스 평균
ABBOTTS BOOBY
ABYSSINIAN GROUND HORNBILL 클래스 평균
GROUND HORNBILL
AFRICAN CROWNED CRANE 클래스 평균
CROWNED CRANE
AFRICAN EMERALD CUCKOO 클래스 평균
EMERALD CUCKOO

▲ 클래스 평균 이미지 — 각 클래스의 161장을 픽셀 단위로 평균한 결과. 이미지가 선명할수록 클래스 내 시각적 일관성이 높습니다.

Level 1: 기초 품질 점검 — 450과의 결정적 차이

Level 1은 이미지 무결성, 결측치, 클래스 균형, 픽셀 통계를 검사합니다. 이 단계에서 Birds 525가 Birds 450보다 크게 개선된 핵심 원인이 드러납니다.

✅ 결측치: 특이사항 없음

89,880장 전체에서 결측치가 발견되지 않았습니다. Birds 450과 동일하게 양호한 수준입니다.

✅ 채널 구성: 전체 RGB 일관

525개 클래스 89,880장 모두 RGB 채널 구성이 동일합니다. 그레이스케일 이미지나 알파 채널 혼입이 없어 전처리 부담이 최소화됩니다.

✅ 클래스 균형: 양호

클래스당 이미지 수는 최소 130장 ~ 최대 263장, 평균 161.2장, 표준편차 20.6입니다. Birds 450(평균 150.6, 표준편차 15.7)보다 편차가 약간 크지만, 여전히 대규모 다중 분류 태스크에서 편향 위험이 낮은 수준입니다.

🌟 이미지 해상도: Birds 450과 결정적으로 다른 점

Birds 525의 가장 큰 특징은 이미지 해상도의 다양성입니다:

  • 최소: 45×109px (매우 작은 썸네일)
  • 최대: 4,763×3,421px (고해상도 전문 사진)

반면 Birds 450은 최소 170×196px, 최대 224×224px로 거의 모든 이미지가 균일하게 전처리되어 있었습니다.

💡 왜 원본 해상도 보존이 중요한가?

직관적으로는 균일한 해상도가 AI 학습에 편리해 보이지만, DataClinic의 관점에서는 다릅니다. 핵심은 해상도의 크기 자체가 아니라 원본 촬영 조건이 만들어내는 통계적 다양성의 보존입니다. 224px로 균일화된 Birds 450은 카메라, 거리, 조명 등 촬영 환경의 차이가 만드는 픽셀 통계 다양성이 소실되어 L1 등급이 '나쁨'이었습니다. 학습 전처리(리사이즈)는 모델 입력 시에 하되, 데이터셋 자체는 원본을 유지하는 것이 품질 관점에서 더 우수합니다. 이는 12점 상승의 여러 요인 중 L1에 기여하는 핵심 요인이며, 클래스 다양성 확대와 L3 정교화도 함께 기여합니다.

Level 2: 범용 AI 렌즈로 본 조류 세계

Level 2는 Wolfram ImageIdentify Net V2(1,280차원)으로 전체 이미지의 특징을 추출합니다. Birds 450이 L2에서 BLIP(멀티모달 언어-이미지 모델)을 사용한 것과 달리, Birds 525는 순수 비전 모델을 사용하여 시각적 특징만으로 분포를 분석합니다.

🔵 두 개의 고밀도 클러스터

PCA와 밀도 지형도 분석 결과 두 개의 고밀도 클러스터가 발견됩니다. 이를 도메인 지식으로 해석하면:

  • 클러스터 A — 화려한 색채와 독특한 형태를 가진 열대·아열대 조류. 공작, 극락조, 에메랄드 뻐꾸기, 왕관학 등 시각적으로 뚜렷한 종들
  • 클러스터 B — 갈색·회색 계열의 숲·초원 서식 조류. 참새목(Passeriformes) 계열로 외형이 상대적으로 유사한 종들

이는 Birds 450에서도 유사하게 발견된 두 클러스터 구조입니다. 범용 AI 모델은 새를 '화려한 새 vs. 수수한 새'라는 가장 강한 시각적 신호로 먼저 분류하는 경향이 있습니다.

L2 PCA — Birds 525 클래스별 평균 특징 분포

📊 밀도 분포 비교: Birds 450 vs. 525

L2 밀도 분포를 나란히 비교하면 두 데이터셋의 구조적 차이가 드러납니다. Birds 450(좌)은 최고밀도 4.26(COMMON POORWILL)으로 밀도 범위가 좁고 집중적인 반면, Birds 525(우)는 최고밀도 0.34(PEACOCK)로 밀도 범위가 넓고 분산적입니다.

이 차이는 525가 75종이 추가되면서 특징 공간이 더 넓게 퍼졌음을 의미합니다. 밀도가 낮아진 것은 부정적 신호가 아니라, 더 많은 종이 특징 공간을 골고루 점유하고 있다는 긍정적 신호입니다.

L2 밀도 분포 — Birds 450

Birds 450 L2 밀도 · 최고밀도 4.26 · 좁은 분포

L2 밀도 분포 — Birds 525

Birds 525 L2 밀도 · 최고밀도 0.34 · 넓은 분포

🔬 클래스별 밀도 비교: 왕관학 vs. 불꽃새

AFRICAN CROWNED CRANE 밀도 분포

AFRICAN CROWNED CRANE — 독특한 왕관 형태로 특징 집중

AFRICAN FIREFINCH 밀도 분포

AFRICAN FIREFINCH — 소형 참새류 특유의 넓은 분포

Level 3: 조류 전문 렌즈 — 81차원으로 더 정교하게

Level 3는 Wolfram ImageIdentify Net V2를 기반으로 Birds 525 데이터셋에 맞게 81차원으로 최적화한 도메인 특화 렌즈를 적용합니다. Birds 450의 L3가 41차원이었던 것에 비해, 525는 2배 더 정교한 표현 공간을 사용합니다.

🔵 클러스터 구조 유지

도메인 특화 렌즈(L3)에서도 L2와 유사하게 두 개의 클러스터 구조가 유지됩니다. 이는 조류 데이터에서 '화려한 새 vs. 수수한 새'라는 시각적 이분법이 도메인 특화 모델에서도 핵심적인 구분 기준으로 작동함을 보여줍니다.

이 점은 한국 음식 데이터셋(L2에서 2클러스터 → L3에서 1클러스터로 통합)과 대조적입니다. 한식은 도메인 특화 렌즈로 보면 '모두 한식'이라는 공통성이 부각되지만, 조류는 도메인 전문가도 화려한 종과 수수한 종을 시각적으로 구분하는 것이 의미 있기 때문입니다.

L3 PCA — Birds 525 도메인 특화 렌즈

📈 밀도 분포 비교: L3에서의 450 vs. 525

L3 밀도 분포 비교에서도 L2와 유사한 패턴이 나타납니다. Birds 450(좌, 41차원)은 밀도가 집중적인 반면, Birds 525(우, 81차원)는 더 넓게 분포합니다.

주목할 점은 차원이 2배(41→81)로 늘어났음에도 종형 분포가 안정적으로 유지된다는 것입니다. 이는 81차원 공간에서도 데이터의 구조적 건전성이 보존됨을 의미합니다. 다만, 일부 클래스 간 임베딩 경계가 완전히 분리되지 않아 정합성은 '보통' 수준으로 평가되었습니다.

L3 밀도 분포 — Birds 450 (41차원)

Birds 450 L3 밀도 · 41차원 · 좁은 분포

L3 밀도 분포 — Birds 525 (81차원)

Birds 525 L3 밀도 · 81차원 · 넓은 분포

이상치 분석 — 공작이 가장 '전형적인' 새인 이유

🏆 고밀도 샘플 — AI가 인식하는 '전형적 조류'

고밀도 샘플 상위권을 공작(PEACOCK)이 압도적으로 차지합니다. 밀도 0.33~0.34로, Birds 450에서 COMMON POORWILL이 최고 밀도를 기록한 것과 대비됩니다.

공작이 가장 전형적인 이유는 아이러니하게도 가장 화려하기 때문입니다:

  • 독특하지만 일관된 시각 패턴 — 수컷의 꼬리 깃털 부채 모양은 매우 독특하지만, 공작 사진끼리는 매우 유사합니다
  • 색상 선명도 — 파란색-초록색 금속광택의 몸통과 눈알 무늬 꼬리는 AI 모델이 강하게 인식하는 시각 패턴
  • 촬영 구도 일관성 — 꼬리를 펼친 정면 구도 사진이 압도적으로 많아 특징 벡터의 분산이 낮음
PEACOCK 고밀도 샘플 (density 0.3402)
PEACOCK (고밀도)
density: 0.3402
PEACOCK 고밀도 샘플 (density 0.3363)
PEACOCK (고밀도)
density: 0.3363
PEACOCK 고밀도 샘플 (density 0.3332)
PEACOCK (고밀도)
density: 0.3332
PEACOCK 고밀도 샘플 (density 0.3308)
PEACOCK (고밀도)
density: 0.3308

⚠️ 저밀도 이상치 — 범주를 벗어난 새들

저밀도 이상치에는 시각적으로 '일반적인 새'의 이미지와 크게 다른 종들이 등장합니다:

  • SNOWY SHEATHBILL(흰부리류, 0.0529) — 전체 흰색에 가깝고 날카로운 부리. 설원 배경 촬영이 많아 특징 공간에서 극단적 위치
  • EMU(에뮤, 0.0532) — 날지 못하는 대형 조류. 긴 목과 대형 몸집이 일반 조류와 전혀 다른 실루엣을 형성
  • BIRD OF PARADISE(극락조, 0.0541) — 수컷의 극도로 화려하고 기이한 깃털 장식. 공작처럼 화려하지만 촬영 구도가 훨씬 다양
  • RED BILLED TROPICBIRD(열대새, 0.0545) — 긴 꼬리 깃털과 흰 몸통이 특이한 비행 포착 사진이 많음
SNOWY SHEATHBILL 저밀도 이상치 (0.0529)
SNOWY SHEATHBILL
density: 0.0529 ⚠️
EMU 저밀도 이상치 (0.0532)
EMU
density: 0.0532 ⚠️
BIRD OF PARADISE 저밀도 이상치 (0.0541)
BIRD OF PARADISE
density: 0.0541 ⚠️
RED BILLED TROPICBIRD 저밀도 이상치 (0.0545)
RED BILLED TROPICBIRD
density: 0.0545 ⚠️

↔️ 가장 다른 쌍: OILBIRD vs. JACOBIN PIGEON

특징 공간에서 가장 거리가 먼 쌍은 OILBIRD(오일버드)JACOBIN PIGEON(자코뱅 비둘기)입니다. OILBIRD는 동굴 서식 야행성 조류로 날카로운 부리와 짙은 갈색 몸통, JACOBIN PIGEON은 화려하게 개량된 장식용 비둘기로 흰 깃털과 독특한 머리 장식을 가집니다. 색상, 형태, 서식 환경 모든 면에서 대극적입니다.

OILBIRD — 가장 거리가 먼 쌍 기준 이미지

OILBIRD
(동굴 야행성)

VS
JACOBIN PIGEON — OILBIRD와 가장 거리가 먼 이미지

JACOBIN PIGEON
(장식 비둘기)

▲ 특징 공간에서 가장 멀리 떨어진 쌍. 색상·형태·서식 환경 모든 면에서 대극적입니다.

개선 제안 — Data Diet + Bulk-up 병행

DataClinic은 이 데이터셋에 Data Diet(중복 제거)Data Bulk-up(데이터 보강)을 병행 권장합니다. 품질점수 77점은 양호한 출발점이지만, 두 처방을 함께 적용하면 85~90점대 진입이 가능합니다.

🥗 Data Diet — 공작 클래스의 중복 정리

공작(PEACOCK) 클래스는 고밀도 이상치가 몰려있는 전형적인 Diet 대상입니다. 꼬리를 펼친 정면 구도 사진이 과도하게 반복된다면, 다양한 각도·행동·비꼬리 사진들로 대체하는 것이 모델 강건성 향상에 도움이 됩니다.

💉 Data Bulk-up — 이상치 클래스 보강

저밀도 이상치로 나타난 클래스들은 데이터 보강이 필요합니다:

  • EMU — 다양한 촬영 각도(측면, 전면, 군집)와 다양한 환경(초원, 사육장) 이미지 추가
  • BIRD OF PARADISE — 수컷의 다양한 구애 행동 장면, 암컷 이미지 추가로 클래스 내 다양성 확보
  • SNOWY SHEATHBILL — 비설원 환경 촬영 이미지 추가로 배경 편향 감소

🎯 핵심 요약

✅ 종합 품질점수: 77점 (Birds 450보다 +12점, 복합 요인)

✅ L1 통계: 좋음 (원본 해상도 보존) / L2·L3: 넓은 특징 공간 분포

✅ 결측치: 없음 / 채널: 전체 RGB / L3 81차원(2배 정교화)

⚠️ 최소 해상도 45px — 전처리 표준화 필요

⚠️ 상업적 이용 불가 — 연구·교육 목적으로만 사용

📈 Data Diet + Bulk-up 적용 시 85~90점 목표 가능

전체 진단 결과와 525개 클래스별 상세 분석은 DataClinic 리포트 #116에서 직접 확인하실 수 있습니다.