2026.03 · (주)페블러스 데이터 커뮤니케이션팀

읽는 시간: ~15분 · English

Executive Summary

본 포스팅은 페블러스 데이터클리닉을 이용한 한국 이미지(음식) 데이터셋의 품질 진단보고서 #59에 대한 핵심 인사이트를 담고 있습니다.

한국 이미지(음식) 데이터셋은 갈비탕부터 후라이드치킨까지 150개 클래스, 총 150,507장의 이미지로 구성된 대규모 한식 데이터셋입니다. L1(기초 품질) DataClinic 종합 진단 결과 품질점수 71점(보통)을 기록했습니다. 클래스 균형 측면에서는 최소 992장~최대 1,125장으로 표준편차 16.8에 불과한 교과서적 분포를 보여줍니다.

L2(특징 공간 분석) Wolfram ImageIdentify Net V2(1,280차원)에서는 범용 AI가 한식을 국물 있는 음식군과 건식 음식군이라는 두 클러스터로 구분하는 흥미로운 패턴이 발견되었습니다. 반면 L3(도메인 최적화 분석, 129차원 한식 특화)에서는 이 두 클러스터가 하나의 한식 공간으로 통합됩니다.

가장 '전형적인' 음식은 송편이었으며, 가장 이질적인 이미지는 김밥에서 발견되었습니다. 시각적 다양성이 낮은 클래스를 대상으로 Data Diet(중복 제거)가 권장됩니다.

데이터셋 소개 — 150가지 한식의 세계

한국 이미지(음식) 데이터셋은 AI Hub에서 공개된 한국 전통 음식부터 현대 분식까지 150개 클래스, 총 150,507장의 이미지로 구성된 대규모 한식 비전 데이터셋입니다. 상업적 이용도 가능하여 AI 기반 음식 인식 서비스 개발에 즉시 활용할 수 있습니다.

150개 클래스는 한국 음식 문화의 풍경을 고스란히 담고 있습니다:

  • 국·탕·찌개류 — 갈비탕, 물냉면, 삼계탕, 추어탕, 육개장, 닭계장, 무국
  • 구이류 — 갈비구이, 삼겹살, 갈치구이, 고등어구이
  • 조림·볶음류 — 가지볶음, 깻잎장아찌, 간장게장, 갈비찜
  • 분식류 — 김밥, 라면, 만두, 떡볶이, 순대
  • 전통 떡류 — 송편, 경단, 꿀떡, 한과
  • 해산물류 — 멍게, 과메기, 젓갈
  • 기타 — 후라이드치킨(한국식), 짜장면, 짬뽕 등 외래 음식의 한국화 버전도 포함

음식 이름 하나하나가 한국 음식 문화의 맥락을 가집니다. 멍게(우렁쉥이)는 특유의 비린향과 주홍색 때문에 AI 모델이 인식하기 어려운 음식 중 하나이며, 과메기는 포항 지역 겨울 제철 음식으로 시각적으로는 일반 생선포와 구분이 쉽지 않습니다. 이런 '도메인 지식이 필요한 음식들'이 데이터 품질에 어떤 영향을 미치는지가 이번 진단의 핵심입니다.

한국 음식 데이터셋 — 150종 한식 대표 이미지 콜라주

한국 음식 데이터셋 — 150종 한식 대표 이미지 콜라주 (DataClinic L1 분석)

경단 클래스 평균 이미지
경단
김밥 클래스 평균 이미지
김밥
꿀떡 클래스 평균 이미지
꿀떡
라면 클래스 평균 이미지
라면
만두 클래스 평균 이미지
만두
멍게 클래스 평균 이미지
멍게

▲ 클래스 평균 이미지 — 각 클래스의 1,000여 장을 픽셀 단위로 평균한 결과. 시각적 일관성이 높을수록 선명하게 나타납니다.

종합 진단 결과 — 품질점수 71점(보통)

DataClinic 종합 점수: 71점 (보통)
150
클래스 수
150,507
총 이미지 수
1,003
클래스당 평균
16.8
클래스 균형 표준편차

종합 71점은 '보통' 등급으로, 대규모 공개 데이터셋 중에서는 상위권에 해당합니다. 클래스 균형이라는 근본 체력은 탁월하지만, 일부 클래스에서의 시각적 다양성 부족이 점수를 끌어내립니다. 상업적 이용이 허가되어 있어 실전 AI 개발에 바로 투입할 수 있는 수준의 데이터셋입니다.

Level 1: 기초 품질 점검 — 픽셀 수준의 체력 검사

Level 1은 이미지 무결성, 결측치, 클래스 균형, 픽셀 통계를 검사합니다. DataClinic이 원본 데이터를 받아 가장 먼저 실행하는 기초 체력 검사입니다.

✅ 클래스 균형: 교과서적 수준

150개 클래스의 이미지 수는 최소 992장 ~ 최대 1,125장으로, 표준편차가 단 16.8에 불과합니다. 이는 인위적으로 균형을 맞춘 수준의 분포입니다. 비교 대상으로, WikiArt 데이터셋의 클래스 균형 표준편차는 수천에 달합니다. AI 모델 학습 시 특정 음식에 편향될 위험이 극히 낮다는 의미입니다.

⚠️ 이미지 해상도: 광범위한 스펙트럼

이미지 크기는 최소 121×91px에서 최대 6,048×4,032px까지 매우 넓게 분포합니다. 스마트폰 스냅샷부터 DSLR 전문 촬영까지 다양한 출처에서 수집된 흔적입니다. AI 학습을 위해서는 입력 해상도를 표준화하는 전처리가 필수입니다. 특히 최소 해상도인 121×91px 이미지는 ResNet-50(224×224px 입력 요구) 등 표준 모델에서 업스케일링이 필요합니다.

✅ 채널 구성: 안정적

전체 이미지의 99.42%가 표준 RGB 3채널입니다. 0.33%는 알파 채널 포함 RGBa, 0.25%는 기타 포맷으로, 전처리 시 알파 채널 제거 혹은 RGB 변환이 필요한 이미지는 전체의 0.58%에 불과합니다.

✅ 결측치: 무시 가능한 수준

원본 150,610장 중 103장(0.07%)이 누락되어 150,507장이 실제 진단에 사용됐습니다. 0.07%는 대규모 웹 크롤링 기반 데이터셋 기준으로 매우 낮은 수준입니다. 실질적으로 무시 가능합니다.

🔍 도메인 인사이트: 클래스 평균 이미지가 말해주는 것

위 평균 이미지들을 보면, 경단과 꿀떡은 선명하게 나타나는 반면 김밥은 약간 흐릿합니다. 이는 경단·꿀떡이 시각적으로 일관된 음식(비슷한 색, 형태, 배치)임을 의미하며, 김밥은 단면 컷·롤 형태·접시 배치 등 촬영 방식이 다양함을 시사합니다. 평균 이미지의 선명도가 곧 클래스 내 시각적 일관성의 지표입니다.

Level 2: 범용 AI의 눈으로 본 한식 — 두 개의 세계

Level 2는 Wolfram ImageIdentify Net V2(1,280차원 특징 벡터)로 전체 데이터셋의 특징을 추출하고 분포를 분석합니다. 이 신경망은 음식 도메인에 특화되지 않은 범용 이미지 인식 모델입니다. 즉, 요리사가 아닌 일반인의 시선으로 한식을 바라보는 것과 같습니다.

🌊 두 개의 클러스터: 국물 vs. 건식

PCA와 밀도 지형도 분석 결과, 범용 렌즈에서 한식은 두 개의 뚜렷한 클러스터로 나뉩니다. 분석 결과를 도메인 지식으로 해석하면:

  • 클러스터 A (건식 음식군) — 구이, 볶음, 떡, 전, 분식. 단단한 형태와 진한 색감이 특징
  • 클러스터 B (국물 음식군) — 국, 탕, 찌개, 면류. 넓은 그릇에 담긴 액체 형태가 특징

이것이 바로 한식 특유의 '국물 문화'가 이미지 데이터에도 고스란히 반영된다는 증거입니다. 범용 AI가 레시피나 재료를 알지 못해도, 시각적 구조만으로 '국물 있음/없음'을 자연스럽게 학습합니다.

아래 PCA 시각화에서 클래스별 평균 특징의 분포를 확인할 수 있습니다:

L2 PCA — 한국 이미지(음식) 클래스별 평균 특징 분포

📊 분포: 종형(Bell-shaped) — 양호

전체 밀도 분포는 종형 곡선을 유지합니다. 대부분의 이미지가 특징 공간 중심부에 밀집하고, 양 극단에 소수 이상치가 분포합니다. 이는 정규 분포에 가까운 건강한 데이터 구조입니다.

L2 전체 밀도 플롯 — 한국 이미지(음식)

🔬 클래스별 밀도 비교: 라면 vs. 멍게

클래스별 밀도 분포를 비교해 보면 흥미로운 차이가 나타납니다. 라면은 밀도 분포가 좁고 높은 피크를 형성하는 반면, 멍게는 상대적으로 넓고 낮은 분포를 보입니다. 라면은 빨간 국물+면+파 조합이라는 시각적 일관성이 높지만, 멍게는 날것·손질 후·플레이팅 등 다양한 상태로 촬영되기 때문입니다.

라면 클래스 밀도 분포

라면 — 밀도 분포가 좁고 집중적

멍게 클래스 밀도 분포

멍게 — 밀도 분포가 넓고 다양

Level 3: 한식 전문 렌즈 — 두 세계가 하나로

Level 3는 Wolfram ImageIdentify Net V2를 기반으로 한식 데이터셋에 특화된 129차원 렌즈를 적용합니다. 범용 시선이 아닌, 한식을 이해하는 전문가의 시선으로 데이터를 다시 바라봅니다.

🎯 클러스터 통합: 두 개 → 하나

가장 주목할 변화는 Level 2에서 보였던 두 클러스터가 하나로 합쳐진다는 점입니다. 범용 렌즈가 '국물 유무'라는 시각적 구조에 반응했다면, 도메인 특화 렌즈는 '한식'이라는 공통 정체성을 우선 인식합니다.

이는 실제 AI 서비스 개발에 중요한 시사점을 줍니다. 한식 인식 모델을 만들 때 범용 백본을 그대로 쓰면 국물 음식과 건식 음식을 서로 다른 분야처럼 취급할 수 있지만, 한식에 특화된 피처 추출기를 사용하면 더 통합된 인식 공간이 형성됩니다.

L3 PCA 시각화에서 통합된 분포를 확인할 수 있습니다:

L3 PCA — 한식 도메인 특화 렌즈 클래스 분포

📈 분포: 여전히 종형 — 안정적

도메인 특화 렌즈에서도 전체 분포는 종형(Bell-shaped)을 유지합니다. 클러스터가 통합되면서도 분포의 건강한 형태는 유지되었다는 것은, 도메인 특화가 단순히 압축이 아니라 의미 있는 표현 학습임을 보여줍니다.

L3 전체 밀도 플롯 — 한식 도메인 특화

이상치 분석 — 왜 송편이 가장 '전형적'인가

DataClinic은 밀도 기반 이상치 분석을 통해 데이터셋에서 가장 전형적인 샘플(고밀도)과 가장 이례적인 샘플(저밀도)을 식별합니다.

🏆 고밀도 샘플 — AI가 인식하는 '전형적 한식'

고밀도 샘플, 즉 특징 공간에서 가장 중심에 위치한 이미지들에는 송편과 물냉면이 주를 이룹니다. 이는 우연이 아닙니다.

송편은 시각적으로 매우 일관된 음식입니다:

  • 반달 모양의 동일한 실루엣
  • 흰색·분홍색·초록색의 정해진 색상 팔레트
  • 접시 위에 가지런히 놓인 정형화된 구도
  • 배경이 단순하고 조명이 균일한 경우가 많음

AI 입장에서 송편은 "예측 가능한" 이미지입니다. 거의 모든 송편 사진이 비슷한 특징 벡터를 가지기 때문에 밀도가 높게 측정됩니다.

송편 고밀도 샘플 1 (density 0.6961)
송편 (고밀도)
density: 0.6961
송편 고밀도 샘플 2 (density 0.6952)
송편 (고밀도)
density: 0.6952
송편 고밀도 샘플 3 (density 0.6945)
송편 (고밀도)
density: 0.6945
물냉면 고밀도 샘플 (density 0.6957)
물냉면 (고밀도)
density: 0.6957

⚠️ 저밀도 샘플 — 이상치의 정체

저밀도 이상치로는 김밥, 순대, 깻잎장아찌, 삼겹살이 상위권을 차지합니다. 이들의 공통점은 촬영 각도, 플레이팅 방식, 조리 상태가 제각각이라는 것입니다:

  • 김밥 — 단면 노출(단무지·계란 구성 노출) vs. 옆면(원통형 외관)으로 전혀 다른 이미지가 섞임
  • 삼겹살 — 구워지기 전 분홍빛 vs. 구워진 후 갈색빛으로 색상이 크게 달라짐
  • 깻잎장아찌 — 접시에 단독으로 담긴 형태 vs. 쌈으로 활용된 형태
  • 순대 — 통째로 vs. 잘린 단면 노출 형태
김밥 저밀도 이상치 (density 0.0513)
김밥 (저밀도)
density: 0.0513 ⚠️
순대 저밀도 이상치 (density 0.0541)
순대 (저밀도)
density: 0.0541 ⚠️
깻잎장아찌 저밀도 이상치 (density 0.0552)
깻잎장아찌 (저밀도)
density: 0.0552 ⚠️
삼겹살 저밀도 이상치 (density 0.0566)
삼겹살 (저밀도)
density: 0.0566 ⚠️

↔️ 가장 다른 쌍: 한과 vs. 김밥·육개장

유사도 분석에서 특징 공간상 가장 거리가 먼 이미지 쌍이 발견되었습니다. 한과김밥/육개장의 조합이 대표적입니다. 한과는 황금색·갈색의 건조하고 정형화된 과자 형태인 반면, 김밥은 흑백 원통형에 알록달록한 단면, 육개장은 붉은 국물이 가득한 그릇 형태로—색상, 질감, 형태 모든 면에서 대극적입니다.

한과 — 가장 거리가 먼 쌍 기준 이미지

한과

VS
김밥 — 한과와 가장 거리가 먼 이미지

김밥

▲ 특징 공간에서 가장 멀리 떨어진 쌍. 색상·질감·형태 모든 면에서 대극적입니다.

💡 이상치 분석의 실전 활용

저밀도 이상치는 두 가지 의미를 가집니다. ① 레이블 오류 가능성 — 해당 클래스에 속하지 않는 이미지가 잘못 레이블링된 경우, ② 다양성 풍부한 샘플 — 비전형적이지만 실제 촬영 환경에서 자주 등장하는 변형. 두 번째 경우는 오히려 모델 강건성(Robustness)을 높이는 데 중요합니다. DataClinic 이상치 샘플을 수동으로 검토하여 오류와 다양성을 구분하는 것이 품질 개선의 첫 단계입니다.

개선 제안 — Data Diet 처방

DataClinic은 이 데이터셋에 Data Diet(데이터 다이어트)를 권장합니다. 품질점수 71점(보통)이라는 점수는 클래스 균형의 교과서적 품질에도 불구하고, 특정 클래스의 시각적 다양성 부족이 발목을 잡고 있기 때문입니다.

🥗 Data Diet란?

Data Diet는 단순히 데이터를 줄이는 것이 아닙니다. 고밀도 영역에 밀집한 거의 동일한 이미지를 식별하고 중복을 제거하여 모델이 더 다양한 패턴을 학습할 수 있도록 돕습니다.

  • 송편 — 반달 모양·파스텔 색상의 이미지가 밀집. 다양한 조명 조건·러스틱 스타일·빚는 장면 등 비전형적 이미지 추가 권장
  • 물냉면 — 그릇 중앙 구도가 반복적. 더 다양한 앵글과 플레이팅 스타일 보강 권장
  • 고밀도 클래스 전반 — 중복 이미지 제거 후 다양한 촬영 환경(식당·가정·길거리) 이미지로 대체 권장

💊 Data Bulkup(데이터 보강)은 필요없나요?

현재 클래스 균형이 매우 훌륭하기 때문에, 소수 클래스 보강보다는 Diet가 더 시급합니다. 단, 멍게·과메기·젓갈 같은 비전형적 해산물 클래스는 시각적 다양성이 자연적으로 낮으므로, 다양한 촬영 조건의 이미지를 추가하면 모델 강건성이 크게 향상될 수 있습니다.

🎯 핵심 요약

✅ 클래스 균형: 교과서적 (표준편차 16.8)

✅ 결측치: 0.07% 무시 가능

✅ 채널 구성: 99.42% RGB

⚠️ 해상도 범위: 전처리 표준화 필요

⚠️ 고밀도 클래스 중복: Data Diet 권장

📈 예상 개선 점수: Data Diet 적용 시 71 → 80점대 상승 가능

전체 진단 결과와 150개 클래스별 상세 분석은 DataClinic 리포트 #59에서 직접 확인하실 수 있습니다.