핵심 요약
이 글은 DataClinic 리포트 #224의 분석 결과를 바탕으로 작성되었습니다. PBLS_Military는 한국 방산 주요 수출품을 포함한 군용 장비 10종을 컴퓨터 그래픽으로 생성한 합성(Synthetic) 이미지 데이터셋입니다. 실제 전투 환경의 촬영 없이 다양한 시나리오·환경·배경을 조합해 만들어진 3,171장의 이미지로, DataClinic 종합 점수 68점(보통)을 기록했습니다.
DataClinic 등급 요약
왜 합성데이터인가? — 전장을 데이터로 만드는 법
실제 K-2 흑표 전차를 사막, 설원, 도시 폐허에서 각각 다른 조명과 날씨 조건으로 촬영한다고 상상해 보세요. 수십억 원짜리 전차 10여 대를 동원해 수백 가지 장면을 연출하는 것은 현실적으로 불가능합니다. 그래서 국방 AI 연구자들은 합성데이터(Synthetic Data)를 택합니다.
합성데이터는 컴퓨터 그래픽으로 생성된 이미지로, 실제 촬영 없이도 무한한 조합의 훈련 데이터를 만들어낼 수 있습니다. PBLS_Military는 이 개념을 실제로 구현한 데이터셋입니다.
무한한 환경 조합
실사 촬영이 불가능한 전투 시나리오를 CG로 구현
완벽한 클래스 균형
10종 모두 정확히 216장 — 편향 없는 학습 데이터
보안·기밀 문제 없음
실제 군사 시설 촬영 불필요, 기밀 정보 노출 없음
합성데이터 파일명에 숨겨진 전장 설계도
PBLS_Military의 파일명은 단순한 번호가 아닙니다. 각 이미지가 어떤 전장 조건에서 렌더링됐는지를 코드로 기록합니다.
촬영 각도·상황
조명·날씨 환경
지형·배경 종류
무기체계 종류
📐 이론적 최대 조합: 4 × 6 × 9 × 10 = 2,160가지 장면 — 각 클래스는 이 중 216장을 선택적으로 포함합니다.
데이터셋 소개 — PBLS_Military
PBLS_Military는 한국 방위산업체 페블러스(Pebblous)가 구축한 군용 합성 이미지 데이터셋입니다. 10종의 군용 장비 — 한국 방산 수출의 대표주자들과 훈련에 필수적인 적군 차량을 포함합니다. 겨울·가을 자연환경을 배경으로 총 3,171장의 HD 와이드스크린(최대 1,344×768px) 이미지로 구성되어 있습니다.
PBLS_Military — 10종 군용 장비 대표 이미지 콜라주 (DataClinic L1 분석)
▲ PBLS_Military 대표 이미지 — K-9 Thunder 자주포 (고밀도 전형 샘플, 밀도 0.248)
⚠️ 상업적 이용 불가
PBLS_Military 데이터셋은 군사 장비 이미지를 포함하므로 상업적 이용이 허가되지 않습니다. 연구·교육·국방 AI 개발 등 비영리 목적으로만 사용 가능합니다.
10종 무기체계 갤러리 — 전장의 플레이어들
이 데이터셋의 진정한 가치는 포함된 무기체계에 있습니다. 한국이 세계에 수출하는 첨단 방산 장비부터 AI 표적 인식 훈련에 필수적인 가상 적군 차량까지, 현대 전장의 핵심 플레이어들을 담았습니다.
🇰🇷 한국 방산 수출의 자부심
2014년 전력화된 한국의 3세대 주력전차. 1,500마력 파워팩과 능동방어시스템(APS)을 갖추고 최고 55km/h로 질주합니다. 2022년 폴란드와 980대 수출 계약(약 6조 원)을 체결하며 K-방산 수출 신화의 아이콘이 됐습니다.
155mm/52구경장 자주포로 세계 자주포 수출 시장 점유율 1위(50% 이상)를 차지합니다. 최대 사거리 54km(활성 탄약). 이 데이터셋에서 가장 전형적(고밀도)인 군용 표적으로 나타납니다.
1985년부터 운용된 한국의 보병전투차량. 400마력 엔진으로 최대 9명의 병력을 수송하며 37년 이상 실전 배치되며 신뢰성을 입증했습니다. 다양한 파생형으로 발전됐습니다.
2022년부터 한국군에 배치된 최신 8×8 차륜형 장갑차. 기동성과 방호력의 균형을 중시하며 NBC(핵·생물·화학) 방호 기능을 탑재합니다. AI 데이터에서 의외로 자주 이상치로 나타납니다 — 독특한 형태 때문입니다.
🎯 피아식별(IFF) 훈련을 위한 적군 차량
효과적인 국방 AI는 아군 장비만큼이나 적군 장비를 정확히 인식해야 합니다. BMP-3와 T-80U는 러시아제 주요 지상 전투 차량으로, 피아식별(IFF: Identification Friend or Foe) AI 훈련에 필수적인 데이터입니다.
러시아의 3세대 보병전투차량. 100mm 주포 + 30mm 기관포 + 7.62mm 공축기관총의 강력한 화력을 자랑합니다. 수상 도하 능력을 보유하며, 2022년 우크라이나 전쟁에서 대규모로 투입됐습니다. AI 피아식별 데이터셋의 핵심 "적군" 전투차량입니다.
1980년대 소련이 개발한 가스터빈 엔진 탑재 전차. 1,000마력 엔진으로 최대 70km/h를 자랑합니다. K-2 흑표의 가장 중요한 가상 적 전차로, AI가 K-2와 T-80U를 정확히 구별할 수 있도록 훈련하는 것이 피아식별 AI의 핵심 과제입니다.
🚁 공중 전력 & 지원 차량
AH-1 코브라 계열 공격헬기. 베트남전부터 검증된 전천후 공격 플랫폼으로 TOW 대전차 미사일과 로켓, 기관포를 운용합니다. 한국 육군의 주력 공격헬기입니다.
전선 지휘, 정찰, 연락 임무의 핵심 전술 차량. 가볍고 기동성이 높아 모든 지형에서 운용됩니다. AI 데이터에서 트럭과 함께 "경량 지원 차량" 클러스터를 형성합니다.
보급·병력 수송의 생명선. 전장에서의 트럭 인식 능력은 적의 보급선 차단이나 아군 보급로 보호에 필수적입니다. AI는 트럭의 독특한 적재함 형태로 식별합니다.
Level 1 — 기본 품질 진단
클래스별 평균 이미지 — AI의 눈에 비친 각 무기의 "전형"
평균 이미지는 해당 클래스 전체 이미지를 픽셀 단위로 평균 낸 것입니다. 흐릿하게 보이는 것이 정상 — 겹쳐진 이미지들의 공통 윤곽을 보여줍니다. 평균 이미지가 선명할수록 해당 클래스 이미지들이 시각적으로 유사하다는 의미입니다.
✅ 강점
- 📐 완벽한 클래스 균형: 표준편차 0.0 — 10종 모두 정확히 216장
- 🎨 RGB 채널 일관성: 모든 이미지 RGB 포맷, 그레이스케일·RGBA 혼입 없음
- ❌ 결측치 제로: 손상 파일, 빈 이미지 없음
- 🖼️ HD 해상도: 1,338~1,344 × 768px 와이드스크린 렌더링
⚠️ 주의 사항
- 📊 L1 통계: 나쁨 — 시각적 다양성 부족
- 🔄 유사 구조: 대부분 이미지가 비슷한 구도를 공유
- 📁 합성데이터 한계: 실사 이미지 대비 텍스처·조명의 현실감 차이
Level 2 — DataLens 분석 (Wolfram ImageIdentify Net V2)
Level 2에서는 3백만 개 이미지로 학습된 Wolfram의 ImageIdentify Net V2를 렌즈로 사용합니다. 이 신경망은 군용 장비를 특별히 학습하지 않았지만, 범용 시각 패턴(형태, 텍스처, 색상)으로 데이터를 분석합니다. 1,280차원의 특징 공간에서 PBLS_Military 데이터가 어떻게 분포되는지 살펴봅니다.
▲ Level 2 PCA 분포도 — 10개 클래스의 특징 공간 분포 (Wolfram ImageIdentify Net V2 기준)
▲ Level 2 밀도 지형도 — 전체 데이터의 클러스터 분포 (단일 클러스터)
클래스별 밀도 플롯 — 각 장비의 분포 패턴
Level 3 — 군사 특화 DataLens (79차원)
Level 3에서는 도메인 특화 최적화가 적용됩니다. 79차원으로 압축된 특징 공간은 군용 장비의 구별력을 최대화하도록 조정됩니다. 범용 렌즈와 달리 3개의 클러스터가 등장합니다 — 장비의 형태·크기·기능적 특성에 따라 자연스럽게 그룹화됩니다.
▲ Level 3 PCA 분포도 — 도메인 최적화 79차원에서의 클래스 분리도
▲ Level 3 밀도 지형도 — 3개 클러스터 확인 (L2 단일 클러스터 → L3 3분할)
군사 AI가 발견한 3가지 그룹
중장갑 전투 차량
K-2 흑표, T-80U, BMP-3, K200 등 무한궤도 기반 중장갑 지상 전투 플랫폼. 낮고 넓은 차체가 공통 시각 특성.
자주포 & 대형 포병
K-9 Thunder, K806 등 장포신 혹은 독특한 차체 형태를 가진 그룹. 포탑 비율과 형태가 분류 기준.
경량 지원 & 공중 전력
Jeep, Truck, 코브라 헬기 등 상대적으로 가볍고 수직적 형태를 가진 그룹. L3에서 일부 클러스터 경계 혼선 발생.
L3 클래스별 밀도 플롯
이상치 샘플 분석 — AI에게 가장 인상적인 장면들
데이터셋에서 가장 "전형적인" 이미지와 가장 "특이한" 이미지를 살펴봅니다. 이 분석은 AI 모델이 어떤 장면을 "전형"으로 학습하고, 어떤 장면에서 혼란을 겪을 수 있는지를 보여줍니다.
🎯 고밀도 — AI가 가장 확신하는 "핵심" 장면들 (L3 기준)
K-9 자주포와 K-2 흑표가 고밀도 군집의 핵심을 차지합니다. 이들이 데이터셋의 "얼굴"입니다.
en3(환경 조건 3)과 bg5(배경 5)를 공유합니다.
특정 조명·배경 조합이 전체 데이터셋의 "표준"을 지배하고 있다는 증거입니다. 이는 중복 이미지 문제와도 연결됩니다.
⚠️ 저밀도 — AI가 가장 혼란스러워하는 이상치 장면들 (L3 기준)
T-80U, BMP-3, K806이 저밀도 이상치로 자주 등장합니다. 이 장면들은 AI 모델이 오인식할 위험이 높습니다.
🔄 가장 다른 두 장면 — 데이터셋의 극단
군용 지프와 K200 장갑차가 L3에서 가장 시각적으로 다른 쌍으로 나타납니다.
⬆️ 이 두 장면은 L3 특징 공간에서 가장 먼 거리에 위치합니다. AI가 가장 명확히 구별하는 조합.
개선 제안 — 68점에서 더 높은 점수로
데이터 다이어트 (Data Diet)
DataClinic이 제안하는 핵심 개선 방향입니다. 현재 데이터에 중복에 가까운 유사 이미지가 다수 존재합니다.
특히 en3_bg5 조합의 이미지들이 밀도 공간에서 극도로 밀집되어 있습니다.
중복 이미지를 제거하고 더 다양한 환경 조합으로 교체하면 AI 모델의 일반화 성능이 크게 향상될 수 있습니다.
환경 다양성 확대 권장
현재 데이터는 "겨울·가을 자연환경" 위주입니다. 실전 AI 모델이 다양한 전장에서 작동하려면 사막, 도시 폐허, 정글, 야간 환경 데이터도 필요합니다.
도메인 랜덤화(Domain Randomization): 배경 텍스처, 조명 방향, 날씨 효과를 랜덤하게 변경하여 AI 모델의 실전 적응력을 높이는 기법입니다.
🔥 일부 클러스터에서 "불" 장면 과다 — L3 분석 결과
Level 3 분석에서 일부 클러스터에 불이 발생하는 장면(폭발·화염)이 다소 빈번하게 나타납니다. 이 장면들이 특정 클러스터에 집중될 경우, AI가 "불 = 해당 장비"로 잘못 연관 학습할 위험이 있습니다. 화염 장면의 비율을 조정하거나, 다양한 클래스에 균등하게 분포시키는 것이 권장됩니다.
결론 — 합성 전장의 가능성과 한계
PBLS_Military는 국방 AI 연구에 있어 매우 의미 있는 출발점입니다. 완벽한 클래스 균형, HD 해상도, 체계적인 환경 조합은 합성데이터만이 제공할 수 있는 장점입니다. K-2 흑표, K-9 Thunder 등 세계가 주목하는 한국 방산 수출품이 AI 훈련 데이터로 등장한다는 것 자체가 한국 방위산업의 높아진 위상을 보여줍니다.
DataClinic 68점은 "좋은 시작"입니다. 중복 이미지 정리(데이터 다이어트)와 환경 다양성 확대를 통해 80점대 진입이 가능합니다. 더 나아가, 이 합성데이터를 실제 촬영 이미지와 혼합(Hybrid Dataset)한다면 실전 배치 가능한 수준의 국방 AI 모델 개발에 한 걸음 더 가까워질 것입니다.
실탄 없이도 AI는 전장을 배울 수 있습니다. 그 배움의 질을 높이는 것이 국방 합성데이터의 다음 과제입니다.
PBLS_Military 핵심 요약 카드
원본 DataClinic 리포트: dataclinic.ai/en/report/224 · 상업적 이용 불가