2026.03 · 페블러스 데이터커뮤니케이션팀

읽는 시간: ~10분 · English

핵심 요약

이 글은 DataClinic 리포트 #131의 분석 결과를 바탕으로 작성되었습니다. 산업 폐기물 이미지 데이터셋은 AI Hub(과기부 국가 AI 데이터)에서 제공하는 국내 최대 규모의 산업 폐기물 이미지 컬렉션입니다. 72종 폐기물 카테고리, 100만 장이라는 방대한 규모를 자랑하지만, DataClinic 진단에서는 51점(나쁨)을 기록했습니다. 클래스 불균형이 최대 3,978배에 달하고, 유사 이미지가 넘쳐납니다.

51
DataClinic 종합 점수
72
폐기물 클래스
100만
총 이미지 수
3,978배
클래스 불균형 최대치

DataClinic 등급 요약

L1 무결성보통
L1 결측값보통
L1 클래스균형나쁨
L1 통계나쁨
L2 DataLens특이사항 없음
L2 기하좋음
L2 분포좋음
L3 DataLens특이사항 없음
L3 기하좋음
L3 분포좋음
💡 51점은 어떻게 산출되나?

DataClinic 종합 점수는 L1(기본 품질), L2(범용 신경망), L3(도메인 특화) 각 레벨의 세부 등급을 가중 합산하여 0~100점으로 산출합니다. 이 데이터셋은 L2·L3 분포/기하에서 '좋음'을 받았지만, L1 클래스균형·통계에서 '나쁨'을 받아 종합 점수가 크게 깎였습니다. 즉, 데이터의 구조는 건전하지만 기본 품질 관리에서 실패한 전형적인 케이스입니다.

📊 DataClinic의 3단계 진단 체계

DataClinic은 데이터셋을 3단계 깊이로 진단합니다. 표면적인 통계부터 도메인 특화 분석까지, 단계가 올라갈수록 더 정밀한 품질 문제를 발견합니다.

L1

기본 품질 진단

결측치, 클래스 균형, 해상도, 통계적 다양성 등 데이터셋의 기본 건강 상태를 점검합니다. 가장 빠르게 문제를 파악할 수 있는 첫 단계입니다.

L2

DataLens 분석 (범용 신경망)

Wolfram ImageIdentify Net V2(1,280차원)로 이미지를 벡터화한 뒤, 클래스 간 기하학적 관계와 밀도 분포를 분석합니다. "AI의 눈"으로 데이터를 바라보는 단계입니다.

L3

도메인 특화 분석 (최적화 렌즈)

해당 도메인에 맞게 차원을 최적화(이 데이터셋은 136차원)하여 분석합니다. 범용 L2에서 놓치는 도메인 고유의 패턴과 이상치를 포착합니다.

데이터셋 소개 — 국가가 만든 폐기물 AI 데이터

한국은 연간 약 2억 톤의 산업 폐기물을 배출하며, 이 중 상당수가 수작업으로 분류됩니다. 폐기물 분류 자동화는 탄소중립과 순환경제 달성을 위한 핵심 과제이며, AI 기반 분류 시스템은 그 해법의 중심에 있습니다. 이러한 배경에서 정부는 대규모 폐기물 이미지 데이터셋 구축에 나섰습니다.

한국 정부는 2019년부터 AI Hub를 통해 국가 AI 학습 데이터를 구축하고 있습니다. 산업 폐기물 이미지 데이터셋은 그 일환으로 제작된 국내 최대 규모의 산업 폐기물 이미지 컬렉션입니다. 공장·산업시설에서 발생하는 72종의 폐기물을 실제 현장에서 촬영한 고해상도 이미지들로 구성되어 있습니다.

산업 폐기물 이미지 데이터셋 전체 콜라주

▲ 산업 폐기물 이미지 데이터셋 콜라주 — 금속류, 폐섬유, 유리도자기류, 합성수지 등 72종의 다양한 폐기물

🏭

국가 AI 데이터

과기부 AI Hub 공식 제공
상업적 이용 가능

📸

실사 고해상도

최대 3,024×4,032px
실제 산업현장 촬영

♻️

재활용·분류 AI용

분류·탐지·세그멘테이션
다목적 활용 가능

파일명 구조 해독: 01_X020_C056_0223_3.jpg
앞 2자리: 대분류 번호 · X번호: 촬영 장소 · C번호: 세부 클래스 코드 · MMDD: 촬영 날짜 · 마지막 숫자: 동일 대상 연속 촬영 순번

72종 폐기물 카테고리 — 어떤 쓰레기가 있나?

72개 클래스는 대분류 6개 카테고리 아래 세분류로 나뉩니다. 금속 캔부터 폐콘크리트 하수도관까지, 산업현장에서 나오는 거의 모든 종류의 폐기물을 망라합니다.

🔩 금속류 (Metal Waste)
기타 락카통 페인트통 철사·철근 캔류

철, 알루미늄, 금속 용기류. 재활용 가치 높음. 락카·페인트통은 위험 폐기물로 별도 관리.

🏺 유리도자기류 (Glass & Ceramic)
도자기류 창유리 기타

도자기 파편, 유리병, 창유리 등. AI에게 가장 '전형적'인 폐기물 — 고밀도 1위 (밀도 2.13).

🧵 폐섬유 (Textile Waste)
기타 원단 침낭 텐트

의류·직물 폐기물. 침낭·텐트 등 캠핑 용품 폐기물도 별도 분류. L1 평균 이미지 다수 포함.

🧴 합성수지 (Synthetic Resin)
플라스틱 비닐 스티로폼

플라스틱·비닐 폐기물. AI에게 가장 어려운 클래스 — 저밀도 1위 (밀도 0.36). 형태 다양성이 극도로 높음.

📄 폐지류 (Paper Waste)
벽지류 골판지 혼합지

종이·판지 폐기물. 벽지류는 다양한 패턴으로 AI 인식 혼란 유발. 저밀도 이상치로 자주 등장.

🧱 폐콘크리트 (Waste Concrete)
하수도관 콘크리트 파편 벽돌류

건설 폐기물. 하수도관은 원통형 구조로 창유리와 가장 '다른' 폐기물 — 비유사 쌍으로 등장.

Level 1 — 기본 품질 진단

✅ 강점

  • 🎨 RGB 채널 일관성: 전체 이미지 RGB 포맷 통일
  • 📐 고해상도: 최소 1,920×1,080px → 최대 3,024×4,032px
  • 🏷️ 라벨 무결성: 분류 라벨 정합성 문제 없음
  • 결측치 극소: 100만 장 중 단 2장만 누락 (0.0002%)

⚠️ 주요 문제

  • 📊 클래스 균형: 나쁨 — 최소 20장 vs 최대 79,560장
  • 🔄 시각적 다양성: 나쁨 — 유사 이미지 다수
  • 📏 해상도 불일치: 최소~최대 해상도 차이 큼

클래스 평균 이미지 — AI의 눈에 비친 각 폐기물의 "얼굴"

각 클래스 이미지를 픽셀 단위로 평균 낸 결과입니다. 흐릿하게 보일수록 해당 클래스 내 이미지 다양성이 높다는 의미, 선명할수록 유사한 이미지들이 반복된다는 의미입니다.

금속류-기타 대표 이미지 실제
금속류-기타 평균 이미지 평균
금속류-기타
금속류-락카 대표 이미지 실제
금속류-락카 평균 이미지 평균
금속류-락카
폐섬유-기타 대표 이미지 실제
폐섬유-기타 평균 이미지 평균
폐섬유-기타
폐섬유-원단 대표 이미지 실제
폐섬유-원단 평균 이미지 평균
폐섬유-원단
폐섬유-침낭 대표 이미지 실제
폐섬유-침낭 평균 이미지 평균
폐섬유-침낭
폐섬유-텐트 대표 이미지 실제
폐섬유-텐트 평균 이미지 평균
폐섬유-텐트

▲ 각 카드 왼쪽: 클래스 대표 이미지(실제 샘플) / 오른쪽: 평균 이미지(전체 픽셀 평균)

💡 인사이트 — 텐트·침낭의 선명한 평균 이미지: 폐섬유-텐트와 폐섬유-침낭의 평균 이미지가 상대적으로 선명합니다. 이는 해당 클래스 내 이미지들이 유사한 구도와 배경으로 촬영되었다는 뜻 — L1 통계: 나쁨의 원인이 됩니다. 다양한 각도와 환경에서 추가 촬영이 필요합니다.

클래스 불균형 심층 분석 — 3,978배의 충격

이 데이터셋의 가장 심각한 문제는 클래스 불균형입니다. 클래스당 평균 11,257장이지만, 표준편차가 20,343으로 평균보다 1.8배 크다는 것은 극단적인 편중을 의미합니다.

⚠️ 클래스 불균형 현황

20장
최소 클래스
11,257장
클래스 평균
79,560장
최대 클래스

최소 클래스 20장 대비 최대 클래스 79,560장 → 3,978배 차이

불균형 시각화

최대 클래스 (예: 합성수지-비닐류)79,560장
100%
평균 클래스11,257장
14%
최소 클래스20장
💡 왜 불균형이 문제인가? AI 모델은 데이터가 많은 클래스를 편향적으로 학습합니다. 최소 클래스(20장)는 AI가 거의 "본 적 없는" 폐기물이 됩니다. 실제 현장에서 AI가 해당 폐기물을 맞닥뜨리면 오분류 가능성이 높아집니다. 데이터 벌크업(소수 클래스 보강)이 시급합니다.

🤔 이 불균형은 수집 편향인가, 현실 반영인가?

합성수지-비닐류(79,560장)가 압도적으로 많은 것은 실제 산업 현장에서도 비닐 폐기물이 가장 흔하기 때문일 수 있습니다. 그렇다면 불균형 자체가 현실을 충실히 반영한 것이므로, 무조건적인 균형 맞추기는 오히려 현실과 동떨어진 모델을 만들 수 있습니다.

그러나 최소 클래스가 20장에 불과한 것은 현실 반영이 아닌 수집 누락에 가깝습니다. 이상적인 접근은 현실 분포를 참고하되, 최소 클래스도 모델이 학습 가능한 수준(수백 장 이상)으로 보강하는 것입니다.

Level 2 — DataLens 분석 (Wolfram ImageIdentify Net V2)

1,280차원 범용 신경망으로 분석합니다. 72개 폐기물 클래스가 특징 공간에서 어떻게 분포되는지 확인합니다. L1의 심각한 불균형에도 불구하고, L2 기하와 분포는 좋음 등급을 받았습니다.

산업 폐기물 L2 PCA 분포도

▲ Level 2 PCA 분포도 — 72개 클래스가 5개 클러스터로 자연스럽게 그룹화

산업 폐기물 L2 밀도 지형도

▲ Level 2 전체 밀도 지형도 — 5개 주요 클러스터, 종모양 균일 분포

💡 L2 핵심 발견 — 폐기물의 5가지 시각적 그룹: 범용 AI는 72종 폐기물을 5개의 시각적 그룹으로 인식합니다. 예상되는 그룹 구성: ① 금속 용기류 ② 직물·섬유류 ③ 유리·도자기류 ④ 플라스틱·비닐 ⑤ 건설 폐재류. 흥미롭게도 범용 AI도 폐기물의 재질별 특성을 어느 정도 구별해냅니다.

클래스별 밀도 플롯 (L2)

금속류-기타 L2 밀도 밀도
금속류-기타 대표 이미지 실제
금속류-기타
금속류-락카 L2 밀도 밀도
금속류-락카 대표 이미지 실제
금속류-락카
폐섬유-기타 L2 밀도 밀도
폐섬유-기타 대표 이미지 실제
폐섬유-기타
폐섬유-원단 L2 밀도 밀도
폐섬유-원단 대표 이미지 실제
폐섬유-원단
폐섬유-침낭 L2 밀도 밀도
폐섬유-침낭 대표 이미지 실제
폐섬유-침낭
폐섬유-텐트 L2 밀도 밀도
폐섬유-텐트 대표 이미지 실제
폐섬유-텐트

▲ 각 카드 왼쪽: L2 밀도 분포 차트 / 오른쪽: 클래스 대표 이미지(실제 샘플)

Level 3 — 도메인 특화 분석 (136차원)

136차원으로 최적화된 도메인 특화 렌즈를 적용합니다. L2의 5개 클러스터가 L3에서는 3개로 압축되며 더욱 명확한 폐기물 그룹 구분이 이루어집니다. L3 기하와 분포 모두 좋음 — 이 데이터셋의 몇 안 되는 긍정적 발견입니다.

산업 폐기물 L3 PCA 분포도

▲ Level 3 PCA 분포도 — 도메인 최적화 136차원에서의 3-클러스터 구조

산업 폐기물 L3 밀도 지형도

▲ Level 3 밀도 지형도 — 일부 클래스 고밀도 집중 확인 (유리도자기류-도자기류)

L3가 발견한 3개 폐기물 그룹

1

단단한 폐기물 그룹

금속류, 유리도자기류, 폐콘크리트. 딱딱하고 광택이 있거나 불투명한 질감이 공통점. 도자기류가 이 그룹의 핵심 고밀도 클러스터.

2

유연한 폐기물 그룹

폐섬유, 비닐, 합성수지 연질류. 유연하고 구겨지는 형태. 가장 다양한 형태 변화로 이상치 집중.

3

혼합·경계 그룹

폐지류, 복합 폐기물. 그룹 1·2의 경계에 위치하며, 재질 특성이 복합적으로 나타나는 폐기물들.

클래스별 밀도 플롯 (L3)

금속류-기타 L3 밀도 밀도
금속류-기타 대표 이미지 실제
금속류-기타
금속류-락카 L3 밀도 밀도
금속류-락카 대표 이미지 실제
금속류-락카
폐섬유-원단 L3 밀도 밀도
폐섬유-원단 대표 이미지 실제
폐섬유-원단
폐섬유-텐트 L3 밀도 밀도
폐섬유-텐트 대표 이미지 실제
폐섬유-텐트
폐섬유-침낭 L3 밀도 밀도
폐섬유-침낭 대표 이미지 실제
폐섬유-침낭
폐섬유-기타 L3 밀도 밀도
폐섬유-기타 대표 이미지 실제
폐섬유-기타

▲ 각 카드 왼쪽: L3 밀도 분포 차트 / 오른쪽: 클래스 대표 이미지(실제 샘플)

이상치 분석 — 도자기는 왜 전형적이고, 플라스틱은 왜 이상한가?

📏 "밀도"란? 여기서 말하는 밀도(density)는 물리적 질량이 아니라, 특징 공간(feature space)에서의 데이터 집중도를 뜻합니다. 밀도가 높은 클래스는 이미지들이 서로 비슷해 AI가 쉽게 분류할 수 있지만, 과도하게 높으면 중복 이미지 의심 대상입니다. 밀도가 낮은 클래스는 이미지가 너무 다양해 AI가 일관된 패턴을 잡기 어려운 "이상치"입니다.

🎯 고밀도 — AI에게 가장 "전형적인" 폐기물 (유리도자기류-도자기류)

도자기 파편이 밀도 2.13으로 데이터셋 전체에서 압도적 1위를 차지합니다. 도자기는 일정한 형태(깨진 파편)와 특유의 광택·질감으로 AI가 가장 확신을 가지고 분류할 수 있는 폐기물입니다.

도자기류 고밀도 샘플 1
도자기류 (밀도 2.13) 🔥
도자기류 고밀도 샘플 2
도자기류 (밀도 2.13)
도자기류 고밀도 샘플 3
도자기류 (밀도 2.11)
도자기류 고밀도 샘플 4
도자기류 (밀도 2.08)
도자기류 고밀도 샘플 5
도자기류 (밀도 2.07)
도자기류 고밀도 샘플 6
도자기류 (밀도 2.04)
💡 도자기가 전형적인 이유: 폐도자기 파편은 일정한 흰색/베이지 배경에 깨진 형태가 반복됩니다. 같은 장소(X307, X024...)에서 같은 날 연속 촬영된 이미지들이 고밀도 군집을 형성합니다. 이것은 "전형성"이 아니라 중복 촬영의 결과일 수 있습니다 — 데이터 다이어트가 필요한 이유입니다.

⚠️ 저밀도 — AI가 가장 혼란스러워하는 이상치들

합성수지-플라스틱과 금속류-페인트통이 저밀도 상위를 차지합니다. 형태가 극도로 다양하거나, 다른 클래스와 시각적으로 혼동되기 쉬운 폐기물들입니다.

합성수지-플라스틱 저밀도
플라스틱 (밀도 0.36) 🔴
금속류-페인트통 저밀도
금속 페인트통 (밀도 0.36)
금속류-기타 저밀도
금속류-기타 (밀도 0.38)
금속류-페인트통 저밀도 2
금속 페인트통 (밀도 0.38)
폐지류-벽지류 저밀도
폐지-벽지류 (밀도 0.39)
도자기류 저밀도 이상치
도자기류 이상치 (밀도 0.39)

🔄 가장 다른 두 폐기물 — 유리도자기류 vs 창유리/폐콘크리트

L3에서 가장 거리가 먼 쌍: 유리도자기류-기타유리도자기류-창유리. 같은 "유리도자기류" 대분류임에도 세부 형태가 극단적으로 다릅니다.

유리도자기류-기타
유리도자기류-기타

불규칙한 유리 파편, 투명·반투명

유리도자기류-창유리
유리도자기류-창유리

대형 평판 유리, 규칙적인 형태

폐콘크리트-하수도관
폐콘크리트-하수도관

원통형 구조, 회색 질감

유리도자기류-창유리 2
유리도자기류-창유리

투명 대형 유리판, 구조물과 혼동 가능

💡 이것이 데이터 품질에 의미하는 것:

같은 "유리도자기류" 대분류 안에서 극단적으로 다른 쌍이 존재한다는 것은 분류 체계의 세분화가 적절하다는 긍정적 신호입니다. 반면, AI 모델 관점에서는 대분류만으로 학습하면 혼동이 불가피하므로 세부 클래스 라벨이 필수입니다. 또한 이런 극단적 쌍은 데이터 증강 시 특별히 주의해야 할 경계 클래스를 알려줍니다 — 잘못된 증강은 오히려 모델 성능을 떨어뜨릴 수 있습니다.

개선 제안 — 51점에서 70점대로 올리려면

🥗

① 데이터 다이어트 (Data Diet)

같은 장소·같은 날 연속 촬영된 유사 이미지를 제거합니다. 도자기류 고밀도 군집에서 보듯, 밀도 2.0 이상의 극고밀도 이미지들은 중복 가능성이 높습니다.

예상 효과: L1 통계 '나쁨' → '보통' 개선

💪

② 데이터 벌크업 (Data Bulk-up)

최소 클래스(20장)부터 중간 클래스까지 이미지를 추가합니다. 목표: 최소 클래스를 평균의 50% 이상(약 5,000장) 수준으로 끌어올립니다. 데이터 증강(Augmentation)이나 추가 촬영 모두 활용 가능합니다.

예상 효과: L1 클래스균형 '나쁨' → '보통~좋음' 개선

🎯 실용적 우선순위 제안

  1. 중복 이미지 제거 (다이어트) — 빠른 품질 개선 가능
  2. 최소 클래스 20~100장 구간 집중 보강 (벌크업)
  3. 저밀도 이상치 클래스(플라스틱, 금속-페인트통) 다양성 확대
  4. 해상도 표준화 — 촬영 장비·거리 가이드라인 통일

결론 — 100만 장의 가능성과 숙제

산업 폐기물 이미지 데이터셋은 규모 면에서 인상적입니다. 100만 장, 72종이라는 포괄적인 커버리지는 한국 정부의 AI 데이터 투자 의지를 보여줍니다. 그러나 DataClinic 51점은 냉정한 현실을 보여줍니다 — 규모가 품질을 보장하지 않습니다.

3,978배의 클래스 불균형, 유사 이미지 과다는 그대로 모델 학습에 사용하면 오히려 편향된 AI를 만들 위험이 있습니다. 하지만 L2·L3 분포 구조가 좋다는 것은 데이터 구조 자체는 건전하다는 의미 — 다이어트와 벌크업으로 충분히 개선 가능합니다.

폐기물 분류 AI는 탄소중립·순환경제의 핵심 기술입니다. 이 데이터셋이 한 단계 더 정제된다면, 한국 산업현장의 폐기물 자동 분류·재활용 AI를 위한 강력한 기반이 될 수 있습니다.

산업 폐기물 이미지 핵심 요약

51점
DataClinic 종합
72종
폐기물 클래스
100만
이미지 규모
3,978배
클래스 불균형

원본 DataClinic 리포트: dataclinic.ai/en/report/131 · AI Hub 원본 데이터: AIHub #137 · 상업적 이용 가능

🔗 관련 데이터셋 — 함께 보면 좋은 폐기물·환경 데이터

생활 폐기물 이미지 (AI Hub)

가정·상업시설 폐기물 이미지. 산업 폐기물과 비교하면 분류 체계와 이미지 특성 차이를 파악할 수 있습니다.

AI Hub에서 검색 →

TrashNet (Stanford)

6종 재활용품 2,527장. 규모는 작지만 균형 잡힌 클래스 분포로, 이 데이터셋의 불균형 문제와 대비됩니다.

GitHub →

TACO (Trash Annotations in Context)

실제 환경에서 촬영된 쓰레기 이미지에 세그멘테이션 어노테이션이 포함. 객체 탐지 모델 학습에 적합합니다.

tacodataset.org →

WasteNet (Kaggle)

재활용 가능/불가능 이진 분류 데이터셋. 간단한 베이스라인 모델 구축과 전이학습 실험에 유용합니다.

Kaggle에서 검색 →