2026.03 · 페블러스 데이터커뮤니케이션팀
읽는 시간: ~10분 · English
핵심 요약
이 글은 DataClinic 리포트 #131의 분석 결과를 바탕으로 작성되었습니다. 산업 폐기물 이미지 데이터셋은 AI Hub(과기부 국가 AI 데이터)에서 제공하는 국내 최대 규모의 산업 폐기물 이미지 컬렉션입니다. 72종 폐기물 카테고리, 100만 장이라는 방대한 규모를 자랑하지만, DataClinic 진단에서는 51점(나쁨)을 기록했습니다. 클래스 불균형이 최대 3,978배에 달하고, 유사 이미지가 넘쳐납니다.
DataClinic 등급 요약
DataClinic 종합 점수는 L1(기본 품질), L2(범용 신경망), L3(도메인 특화) 각 레벨의 세부 등급을 가중 합산하여 0~100점으로 산출합니다. 이 데이터셋은 L2·L3 분포/기하에서 '좋음'을 받았지만, L1 클래스균형·통계에서 '나쁨'을 받아 종합 점수가 크게 깎였습니다. 즉, 데이터의 구조는 건전하지만 기본 품질 관리에서 실패한 전형적인 케이스입니다.
📊 DataClinic의 3단계 진단 체계
DataClinic은 데이터셋을 3단계 깊이로 진단합니다. 표면적인 통계부터 도메인 특화 분석까지, 단계가 올라갈수록 더 정밀한 품질 문제를 발견합니다.
기본 품질 진단
결측치, 클래스 균형, 해상도, 통계적 다양성 등 데이터셋의 기본 건강 상태를 점검합니다. 가장 빠르게 문제를 파악할 수 있는 첫 단계입니다.
DataLens 분석 (범용 신경망)
Wolfram ImageIdentify Net V2(1,280차원)로 이미지를 벡터화한 뒤, 클래스 간 기하학적 관계와 밀도 분포를 분석합니다. "AI의 눈"으로 데이터를 바라보는 단계입니다.
도메인 특화 분석 (최적화 렌즈)
해당 도메인에 맞게 차원을 최적화(이 데이터셋은 136차원)하여 분석합니다. 범용 L2에서 놓치는 도메인 고유의 패턴과 이상치를 포착합니다.
데이터셋 소개 — 국가가 만든 폐기물 AI 데이터
한국은 연간 약 2억 톤의 산업 폐기물을 배출하며, 이 중 상당수가 수작업으로 분류됩니다. 폐기물 분류 자동화는 탄소중립과 순환경제 달성을 위한 핵심 과제이며, AI 기반 분류 시스템은 그 해법의 중심에 있습니다. 이러한 배경에서 정부는 대규모 폐기물 이미지 데이터셋 구축에 나섰습니다.
한국 정부는 2019년부터 AI Hub를 통해 국가 AI 학습 데이터를 구축하고 있습니다. 산업 폐기물 이미지 데이터셋은 그 일환으로 제작된 국내 최대 규모의 산업 폐기물 이미지 컬렉션입니다. 공장·산업시설에서 발생하는 72종의 폐기물을 실제 현장에서 촬영한 고해상도 이미지들로 구성되어 있습니다.
▲ 산업 폐기물 이미지 데이터셋 콜라주 — 금속류, 폐섬유, 유리도자기류, 합성수지 등 72종의 다양한 폐기물
국가 AI 데이터
과기부 AI Hub 공식 제공
상업적 이용 가능
실사 고해상도
최대 3,024×4,032px
실제 산업현장 촬영
재활용·분류 AI용
분류·탐지·세그멘테이션
다목적 활용 가능
파일명 구조 해독: 01_X020_C056_0223_3.jpg
앞 2자리: 대분류 번호 · X번호: 촬영 장소 · C번호: 세부 클래스 코드 · MMDD: 촬영 날짜 · 마지막 숫자: 동일 대상 연속 촬영 순번
72종 폐기물 카테고리 — 어떤 쓰레기가 있나?
72개 클래스는 대분류 6개 카테고리 아래 세분류로 나뉩니다. 금속 캔부터 폐콘크리트 하수도관까지, 산업현장에서 나오는 거의 모든 종류의 폐기물을 망라합니다.
철, 알루미늄, 금속 용기류. 재활용 가치 높음. 락카·페인트통은 위험 폐기물로 별도 관리.
도자기 파편, 유리병, 창유리 등. AI에게 가장 '전형적'인 폐기물 — 고밀도 1위 (밀도 2.13).
의류·직물 폐기물. 침낭·텐트 등 캠핑 용품 폐기물도 별도 분류. L1 평균 이미지 다수 포함.
플라스틱·비닐 폐기물. AI에게 가장 어려운 클래스 — 저밀도 1위 (밀도 0.36). 형태 다양성이 극도로 높음.
종이·판지 폐기물. 벽지류는 다양한 패턴으로 AI 인식 혼란 유발. 저밀도 이상치로 자주 등장.
건설 폐기물. 하수도관은 원통형 구조로 창유리와 가장 '다른' 폐기물 — 비유사 쌍으로 등장.
Level 1 — 기본 품질 진단
✅ 강점
- 🎨 RGB 채널 일관성: 전체 이미지 RGB 포맷 통일
- 📐 고해상도: 최소 1,920×1,080px → 최대 3,024×4,032px
- 🏷️ 라벨 무결성: 분류 라벨 정합성 문제 없음
- ✅ 결측치 극소: 100만 장 중 단 2장만 누락 (0.0002%)
⚠️ 주요 문제
- 📊 클래스 균형: 나쁨 — 최소 20장 vs 최대 79,560장
- 🔄 시각적 다양성: 나쁨 — 유사 이미지 다수
- 📏 해상도 불일치: 최소~최대 해상도 차이 큼
클래스 평균 이미지 — AI의 눈에 비친 각 폐기물의 "얼굴"
각 클래스 이미지를 픽셀 단위로 평균 낸 결과입니다. 흐릿하게 보일수록 해당 클래스 내 이미지 다양성이 높다는 의미, 선명할수록 유사한 이미지들이 반복된다는 의미입니다.
실제
평균
실제
평균
실제
평균
실제
평균
실제
평균
실제
평균
▲ 각 카드 왼쪽: 클래스 대표 이미지(실제 샘플) / 오른쪽: 평균 이미지(전체 픽셀 평균)
클래스 불균형 심층 분석 — 3,978배의 충격
이 데이터셋의 가장 심각한 문제는 클래스 불균형입니다. 클래스당 평균 11,257장이지만, 표준편차가 20,343으로 평균보다 1.8배 크다는 것은 극단적인 편중을 의미합니다.
⚠️ 클래스 불균형 현황
최소 클래스 20장 대비 최대 클래스 79,560장 → 3,978배 차이
불균형 시각화
🤔 이 불균형은 수집 편향인가, 현실 반영인가?
합성수지-비닐류(79,560장)가 압도적으로 많은 것은 실제 산업 현장에서도 비닐 폐기물이 가장 흔하기 때문일 수 있습니다. 그렇다면 불균형 자체가 현실을 충실히 반영한 것이므로, 무조건적인 균형 맞추기는 오히려 현실과 동떨어진 모델을 만들 수 있습니다.
그러나 최소 클래스가 20장에 불과한 것은 현실 반영이 아닌 수집 누락에 가깝습니다. 이상적인 접근은 현실 분포를 참고하되, 최소 클래스도 모델이 학습 가능한 수준(수백 장 이상)으로 보강하는 것입니다.
Level 2 — DataLens 분석 (Wolfram ImageIdentify Net V2)
1,280차원 범용 신경망으로 분석합니다. 72개 폐기물 클래스가 특징 공간에서 어떻게 분포되는지 확인합니다. L1의 심각한 불균형에도 불구하고, L2 기하와 분포는 좋음 등급을 받았습니다.
▲ Level 2 PCA 분포도 — 72개 클래스가 5개 클러스터로 자연스럽게 그룹화
▲ Level 2 전체 밀도 지형도 — 5개 주요 클러스터, 종모양 균일 분포
클래스별 밀도 플롯 (L2)
밀도
실제
밀도
실제
밀도
실제
밀도
실제
밀도
실제
밀도
실제
▲ 각 카드 왼쪽: L2 밀도 분포 차트 / 오른쪽: 클래스 대표 이미지(실제 샘플)
Level 3 — 도메인 특화 분석 (136차원)
136차원으로 최적화된 도메인 특화 렌즈를 적용합니다. L2의 5개 클러스터가 L3에서는 3개로 압축되며 더욱 명확한 폐기물 그룹 구분이 이루어집니다. L3 기하와 분포 모두 좋음 — 이 데이터셋의 몇 안 되는 긍정적 발견입니다.
▲ Level 3 PCA 분포도 — 도메인 최적화 136차원에서의 3-클러스터 구조
▲ Level 3 밀도 지형도 — 일부 클래스 고밀도 집중 확인 (유리도자기류-도자기류)
L3가 발견한 3개 폐기물 그룹
단단한 폐기물 그룹
금속류, 유리도자기류, 폐콘크리트. 딱딱하고 광택이 있거나 불투명한 질감이 공통점. 도자기류가 이 그룹의 핵심 고밀도 클러스터.
유연한 폐기물 그룹
폐섬유, 비닐, 합성수지 연질류. 유연하고 구겨지는 형태. 가장 다양한 형태 변화로 이상치 집중.
혼합·경계 그룹
폐지류, 복합 폐기물. 그룹 1·2의 경계에 위치하며, 재질 특성이 복합적으로 나타나는 폐기물들.
클래스별 밀도 플롯 (L3)
밀도
실제
밀도
실제
밀도
실제
밀도
실제
밀도
실제
밀도
실제
▲ 각 카드 왼쪽: L3 밀도 분포 차트 / 오른쪽: 클래스 대표 이미지(실제 샘플)
이상치 분석 — 도자기는 왜 전형적이고, 플라스틱은 왜 이상한가?
📏 "밀도"란? 여기서 말하는 밀도(density)는 물리적 질량이 아니라, 특징 공간(feature space)에서의 데이터 집중도를 뜻합니다. 밀도가 높은 클래스는 이미지들이 서로 비슷해 AI가 쉽게 분류할 수 있지만, 과도하게 높으면 중복 이미지 의심 대상입니다. 밀도가 낮은 클래스는 이미지가 너무 다양해 AI가 일관된 패턴을 잡기 어려운 "이상치"입니다.
🎯 고밀도 — AI에게 가장 "전형적인" 폐기물 (유리도자기류-도자기류)
도자기 파편이 밀도 2.13으로 데이터셋 전체에서 압도적 1위를 차지합니다. 도자기는 일정한 형태(깨진 파편)와 특유의 광택·질감으로 AI가 가장 확신을 가지고 분류할 수 있는 폐기물입니다.
⚠️ 저밀도 — AI가 가장 혼란스러워하는 이상치들
합성수지-플라스틱과 금속류-페인트통이 저밀도 상위를 차지합니다. 형태가 극도로 다양하거나, 다른 클래스와 시각적으로 혼동되기 쉬운 폐기물들입니다.
🔄 가장 다른 두 폐기물 — 유리도자기류 vs 창유리/폐콘크리트
L3에서 가장 거리가 먼 쌍: 유리도자기류-기타와 유리도자기류-창유리. 같은 "유리도자기류" 대분류임에도 세부 형태가 극단적으로 다릅니다.
불규칙한 유리 파편, 투명·반투명
대형 평판 유리, 규칙적인 형태
원통형 구조, 회색 질감
투명 대형 유리판, 구조물과 혼동 가능
같은 "유리도자기류" 대분류 안에서 극단적으로 다른 쌍이 존재한다는 것은 분류 체계의 세분화가 적절하다는 긍정적 신호입니다. 반면, AI 모델 관점에서는 대분류만으로 학습하면 혼동이 불가피하므로 세부 클래스 라벨이 필수입니다. 또한 이런 극단적 쌍은 데이터 증강 시 특별히 주의해야 할 경계 클래스를 알려줍니다 — 잘못된 증강은 오히려 모델 성능을 떨어뜨릴 수 있습니다.
개선 제안 — 51점에서 70점대로 올리려면
① 데이터 다이어트 (Data Diet)
같은 장소·같은 날 연속 촬영된 유사 이미지를 제거합니다. 도자기류 고밀도 군집에서 보듯, 밀도 2.0 이상의 극고밀도 이미지들은 중복 가능성이 높습니다.
예상 효과: L1 통계 '나쁨' → '보통' 개선
② 데이터 벌크업 (Data Bulk-up)
최소 클래스(20장)부터 중간 클래스까지 이미지를 추가합니다. 목표: 최소 클래스를 평균의 50% 이상(약 5,000장) 수준으로 끌어올립니다. 데이터 증강(Augmentation)이나 추가 촬영 모두 활용 가능합니다.
예상 효과: L1 클래스균형 '나쁨' → '보통~좋음' 개선
🎯 실용적 우선순위 제안
- 중복 이미지 제거 (다이어트) — 빠른 품질 개선 가능
- 최소 클래스 20~100장 구간 집중 보강 (벌크업)
- 저밀도 이상치 클래스(플라스틱, 금속-페인트통) 다양성 확대
- 해상도 표준화 — 촬영 장비·거리 가이드라인 통일
결론 — 100만 장의 가능성과 숙제
산업 폐기물 이미지 데이터셋은 규모 면에서 인상적입니다. 100만 장, 72종이라는 포괄적인 커버리지는 한국 정부의 AI 데이터 투자 의지를 보여줍니다. 그러나 DataClinic 51점은 냉정한 현실을 보여줍니다 — 규모가 품질을 보장하지 않습니다.
3,978배의 클래스 불균형, 유사 이미지 과다는 그대로 모델 학습에 사용하면 오히려 편향된 AI를 만들 위험이 있습니다. 하지만 L2·L3 분포 구조가 좋다는 것은 데이터 구조 자체는 건전하다는 의미 — 다이어트와 벌크업으로 충분히 개선 가능합니다.
폐기물 분류 AI는 탄소중립·순환경제의 핵심 기술입니다. 이 데이터셋이 한 단계 더 정제된다면, 한국 산업현장의 폐기물 자동 분류·재활용 AI를 위한 강력한 기반이 될 수 있습니다.
산업 폐기물 이미지 핵심 요약
원본 DataClinic 리포트: dataclinic.ai/en/report/131 · AI Hub 원본 데이터: AIHub #137 · 상업적 이용 가능
🔗 관련 데이터셋 — 함께 보면 좋은 폐기물·환경 데이터
TACO (Trash Annotations in Context)
실제 환경에서 촬영된 쓰레기 이미지에 세그멘테이션 어노테이션이 포함. 객체 탐지 모델 학습에 적합합니다.
tacodataset.org →