2026.03 · (주)페블러스 데이터 커뮤니케이션팀

읽는 시간: ~12분 · English

핵심 요약

이 글은 DataClinic 리포트 #224의 분석 결과를 바탕으로 작성되었습니다. PBLS_Military는 한국 방산 주요 수출품을 포함한 군용 장비 10종을 컴퓨터 그래픽으로 생성한 합성(Synthetic) 이미지 데이터셋입니다. 실제 전투 환경의 촬영 없이 다양한 시나리오·환경·배경을 조합해 만들어진 3,171장의 이미지로, DataClinic 종합 점수 68점(보통)을 기록했습니다.

68
DataClinic 종합 점수
10
무기체계 클래스
3,171
총 이미지 수
216
클래스당 이미지 (완벽 균형)

DataClinic 등급 요약

L1 무결성 좋음
L1 결측값 좋음
L1 클래스균형 좋음
L1 통계 나쁨
L2 DataLens 특이사항 없음
L2 기하 좋음
L2 분포 나쁨
L3 DataLens 특이사항 없음
L3 기하 보통
L3 분포 보통

왜 합성데이터인가? — 전장을 데이터로 만드는 법

실제 K-2 흑표 전차를 사막, 설원, 도시 폐허에서 각각 다른 조명과 날씨 조건으로 촬영한다고 상상해 보세요. 수십억 원짜리 전차 10여 대를 동원해 수백 가지 장면을 연출하는 것은 현실적으로 불가능합니다. 그래서 국방 AI 연구자들은 합성데이터(Synthetic Data)를 택합니다.

합성데이터는 컴퓨터 그래픽으로 생성된 이미지로, 실제 촬영 없이도 무한한 조합의 훈련 데이터를 만들어낼 수 있습니다. PBLS_Military는 이 개념을 실제로 구현한 데이터셋입니다.

🎮

무한한 환경 조합

실사 촬영이 불가능한 전투 시나리오를 CG로 구현

⚖️

완벽한 클래스 균형

10종 모두 정확히 216장 — 편향 없는 학습 데이터

🔒

보안·기밀 문제 없음

실제 군사 시설 촬영 불필요, 기밀 정보 노출 없음

합성데이터 파일명에 숨겨진 전장 설계도

PBLS_Military의 파일명은 단순한 번호가 아닙니다. 각 이미지가 어떤 전장 조건에서 렌더링됐는지를 코드로 기록합니다.

sn3_en4_bg9_mt01.png
sn
Scenario (1~4)
촬영 각도·상황
en
Environment (1~6)
조명·날씨 환경
bg
Background (1~9)
지형·배경 종류
mt
Model Type (01~10)
무기체계 종류

📐 이론적 최대 조합: 4 × 6 × 9 × 10 = 2,160가지 장면 — 각 클래스는 이 중 216장을 선택적으로 포함합니다.

데이터셋 소개 — PBLS_Military

PBLS_Military는 한국 방위산업체 페블러스(Pebblous)가 구축한 군용 합성 이미지 데이터셋입니다. 10종의 군용 장비 — 한국 방산 수출의 대표주자들과 훈련에 필수적인 적군 차량을 포함합니다. 겨울·가을 자연환경을 배경으로 총 3,171장의 HD 와이드스크린(최대 1,344×768px) 이미지로 구성되어 있습니다.

PBLS_Military 데이터셋 — 10종 군용 장비 대표 이미지 콜라주

PBLS_Military — 10종 군용 장비 대표 이미지 콜라주 (DataClinic L1 분석)

PBLS_Military 대표 이미지 — K-9 Thunder 자주포 합성 이미지

▲ PBLS_Military 대표 이미지 — K-9 Thunder 자주포 (고밀도 전형 샘플, 밀도 0.248)

⚠️ 상업적 이용 불가

PBLS_Military 데이터셋은 군사 장비 이미지를 포함하므로 상업적 이용이 허가되지 않습니다. 연구·교육·국방 AI 개발 등 비영리 목적으로만 사용 가능합니다.

Level 1 — 기본 품질 진단

클래스별 평균 이미지 — AI의 눈에 비친 각 무기의 "전형"

평균 이미지는 해당 클래스 전체 이미지를 픽셀 단위로 평균 낸 것입니다. 흐릿하게 보이는 것이 정상 — 겹쳐진 이미지들의 공통 윤곽을 보여줍니다. 평균 이미지가 선명할수록 해당 클래스 이미지들이 시각적으로 유사하다는 의미입니다.

K-2 흑표 평균 이미지
K-2 흑표
K200 평균 이미지
K200 장갑차
K806 평균 이미지
K806 장갑차
BMP-3 평균 이미지
BMP-3 (적군)
코브라 헬기 평균 이미지
코브라 헬기
군용 지프 평균 이미지
군용 지프

✅ 강점

  • 📐 완벽한 클래스 균형: 표준편차 0.0 — 10종 모두 정확히 216장
  • 🎨 RGB 채널 일관성: 모든 이미지 RGB 포맷, 그레이스케일·RGBA 혼입 없음
  • 결측치 제로: 손상 파일, 빈 이미지 없음
  • 🖼️ HD 해상도: 1,338~1,344 × 768px 와이드스크린 렌더링

⚠️ 주의 사항

  • 📊 L1 통계: 나쁨 — 시각적 다양성 부족
  • 🔄 유사 구조: 대부분 이미지가 비슷한 구도를 공유
  • 📁 합성데이터 한계: 실사 이미지 대비 텍스처·조명의 현실감 차이
💡 DataClinic 인사이트: 합성데이터는 클래스 균형과 결측치 제로라는 측면에서 실사 데이터보다 월등합니다. 하지만 시각적 다양성(L1 통계: 나쁨)은 합성데이터의 고질적 약점입니다 — 모든 이미지가 비슷한 렌더링 스타일을 공유하기 때문입니다. 실제 AI 훈련에 사용 시 도메인 랜덤화(Domain Randomization) 기법으로 보완하거나, 실사 데이터와 혼합 사용을 권장합니다.

Level 2 — DataLens 분석 (Wolfram ImageIdentify Net V2)

Level 2에서는 3백만 개 이미지로 학습된 Wolfram의 ImageIdentify Net V2를 렌즈로 사용합니다. 이 신경망은 군용 장비를 특별히 학습하지 않았지만, 범용 시각 패턴(형태, 텍스처, 색상)으로 데이터를 분석합니다. 1,280차원의 특징 공간에서 PBLS_Military 데이터가 어떻게 분포되는지 살펴봅니다.

PBLS_Military L2 PCA 전체 분포도

▲ Level 2 PCA 분포도 — 10개 클래스의 특징 공간 분포 (Wolfram ImageIdentify Net V2 기준)

PBLS_Military L2 밀도 지형도

▲ Level 2 밀도 지형도 — 전체 데이터의 클러스터 분포 (단일 클러스터)

💡 L2 핵심 발견 — 범용 AI 눈에는 전부 "비슷한 물건": Wolfram의 범용 신경망은 군용 장비들을 단일 클러스터로 인식합니다. K-2 전차든 코브라 헬기든, 범용 AI에게는 모두 "황록색 배경의 군용 장비"로 보이는 것입니다. 밀도가 낮고 다봉형 분포가 나타나는 것은 10개의 서로 다른 장비들이 범용 렌즈 아래 억지로 묶여 있기 때문입니다. 이것이 바로 군사 특화 도메인 렌즈(Level 3)가 필요한 이유입니다.

클래스별 밀도 플롯 — 각 장비의 분포 패턴

K-2 L2 밀도 플롯
K-2 흑표
K200 L2 밀도 플롯
K200 장갑차
K806 L2 밀도 플롯
K806 장갑차
BMP-3 L2 밀도 플롯
BMP-3 (적군)
코브라 L2 밀도 플롯
코브라 헬기
군용 지프 L2 밀도 플롯
군용 지프

Level 3 — 군사 특화 DataLens (79차원)

Level 3에서는 도메인 특화 최적화가 적용됩니다. 79차원으로 압축된 특징 공간은 군용 장비의 구별력을 최대화하도록 조정됩니다. 범용 렌즈와 달리 3개의 클러스터가 등장합니다 — 장비의 형태·크기·기능적 특성에 따라 자연스럽게 그룹화됩니다.

PBLS_Military L3 PCA 전체 분포도

▲ Level 3 PCA 분포도 — 도메인 최적화 79차원에서의 클래스 분리도

PBLS_Military L3 밀도 지형도

▲ Level 3 밀도 지형도 — 3개 클러스터 확인 (L2 단일 클러스터 → L3 3분할)

군사 AI가 발견한 3가지 그룹

1

중장갑 전투 차량

K-2 흑표, T-80U, BMP-3, K200 등 무한궤도 기반 중장갑 지상 전투 플랫폼. 낮고 넓은 차체가 공통 시각 특성.

2

자주포 & 대형 포병

K-9 Thunder, K806 등 장포신 혹은 독특한 차체 형태를 가진 그룹. 포탑 비율과 형태가 분류 기준.

3

경량 지원 & 공중 전력

Jeep, Truck, 코브라 헬기 등 상대적으로 가볍고 수직적 형태를 가진 그룹. L3에서 일부 클러스터 경계 혼선 발생.

L3 클래스별 밀도 플롯

K-2 L3 밀도 플롯
K-2 (L3)
K-9 L3 밀도 플롯
K-9 (L3)
K200 L3 밀도 플롯
K200 (L3)
K806 L3 밀도 플롯
K806 (L3)
T-80U L3 밀도 플롯
T-80U (L3)
군용 트럭 L3 밀도 플롯
Truck (L3)

이상치 샘플 분석 — AI에게 가장 인상적인 장면들

데이터셋에서 가장 "전형적인" 이미지와 가장 "특이한" 이미지를 살펴봅니다. 이 분석은 AI 모델이 어떤 장면을 "전형"으로 학습하고, 어떤 장면에서 혼란을 겪을 수 있는지를 보여줍니다.

🎯 고밀도 — AI가 가장 확신하는 "핵심" 장면들 (L3 기준)

K-9 자주포와 K-2 흑표가 고밀도 군집의 핵심을 차지합니다. 이들이 데이터셋의 "얼굴"입니다.

K-9 고밀도 샘플 1
K-9 (밀도 1.285) 🔥
K-9 고밀도 샘플 2
K-9 (밀도 1.280)
K-9 고밀도 샘플 3
K-9 (밀도 1.227)
K-2 고밀도 샘플
K-2 (밀도 1.153)
K-2 고밀도 샘플 2
K-2 (밀도 1.147)
K-9 고밀도 샘플 4
K-9 (밀도 1.147)
💡 인사이트 — bg5(배경5)와 en3(환경3)의 지배: 고밀도 샘플들이 모두 en3(환경 조건 3)과 bg5(배경 5)를 공유합니다. 특정 조명·배경 조합이 전체 데이터셋의 "표준"을 지배하고 있다는 증거입니다. 이는 중복 이미지 문제와도 연결됩니다.

⚠️ 저밀도 — AI가 가장 혼란스러워하는 이상치 장면들 (L3 기준)

T-80U, BMP-3, K806이 저밀도 이상치로 자주 등장합니다. 이 장면들은 AI 모델이 오인식할 위험이 높습니다.

T-80U 저밀도 샘플
T-80U (밀도 0.283) 🔴
BMP-3 저밀도 샘플 1
BMP-3 (밀도 0.306)
K806 저밀도 샘플
K806 (밀도 0.309)
BMP-3 저밀도 샘플 2
BMP-3 (밀도 0.310)
K-9 저밀도 샘플
K-9 (밀도 0.312)
K-2 저밀도 샘플
K-2 (밀도 0.312)

🔄 가장 다른 두 장면 — 데이터셋의 극단

군용 지프와 K200 장갑차가 L3에서 가장 시각적으로 다른 쌍으로 나타납니다.

군용 지프 — 가장 거리 먼 쌍
군용 지프 (Jeep)
경량·수직 형태
K200 장갑차 — 가장 거리 먼 쌍
K200 장갑차 (K200)
중장갑·수평 형태

⬆️ 이 두 장면은 L3 특징 공간에서 가장 먼 거리에 위치합니다. AI가 가장 명확히 구별하는 조합.

개선 제안 — 68점에서 더 높은 점수로

🥗

데이터 다이어트 (Data Diet)

DataClinic이 제안하는 핵심 개선 방향입니다. 현재 데이터에 중복에 가까운 유사 이미지가 다수 존재합니다. 특히 en3_bg5 조합의 이미지들이 밀도 공간에서 극도로 밀집되어 있습니다.

중복 이미지를 제거하고 더 다양한 환경 조합으로 교체하면 AI 모델의 일반화 성능이 크게 향상될 수 있습니다.

🌍

환경 다양성 확대 권장

현재 데이터는 "겨울·가을 자연환경" 위주입니다. 실전 AI 모델이 다양한 전장에서 작동하려면 사막, 도시 폐허, 정글, 야간 환경 데이터도 필요합니다.

도메인 랜덤화(Domain Randomization): 배경 텍스처, 조명 방향, 날씨 효과를 랜덤하게 변경하여 AI 모델의 실전 적응력을 높이는 기법입니다.

🔥 일부 클러스터에서 "불" 장면 과다 — L3 분석 결과

Level 3 분석에서 일부 클러스터에 불이 발생하는 장면(폭발·화염)이 다소 빈번하게 나타납니다. 이 장면들이 특정 클러스터에 집중될 경우, AI가 "불 = 해당 장비"로 잘못 연관 학습할 위험이 있습니다. 화염 장면의 비율을 조정하거나, 다양한 클래스에 균등하게 분포시키는 것이 권장됩니다.

결론 — 합성 전장의 가능성과 한계

PBLS_Military는 국방 AI 연구에 있어 매우 의미 있는 출발점입니다. 완벽한 클래스 균형, HD 해상도, 체계적인 환경 조합은 합성데이터만이 제공할 수 있는 장점입니다. K-2 흑표, K-9 Thunder 등 세계가 주목하는 한국 방산 수출품이 AI 훈련 데이터로 등장한다는 것 자체가 한국 방위산업의 높아진 위상을 보여줍니다.

DataClinic 68점은 "좋은 시작"입니다. 중복 이미지 정리(데이터 다이어트)와 환경 다양성 확대를 통해 80점대 진입이 가능합니다. 더 나아가, 이 합성데이터를 실제 촬영 이미지와 혼합(Hybrid Dataset)한다면 실전 배치 가능한 수준의 국방 AI 모델 개발에 한 걸음 더 가까워질 것입니다.

실탄 없이도 AI는 전장을 배울 수 있습니다. 그 배움의 질을 높이는 것이 국방 합성데이터의 다음 과제입니다.

PBLS_Military 핵심 요약 카드

68점
DataClinic 종합
10종
무기체계 클래스
3,171장
합성 이미지
HD
1,344×768px

원본 DataClinic 리포트: dataclinic.ai/en/report/224 · 상업적 이용 불가