하늘의 위협을 AI로 식별하다 — 국방 드론 합성데이터의 품질 인사이트

핵심 요약

이 글은 DataClinic 리포트 #226의 분석 결과를 바탕으로 작성되었습니다. PBLS_Drone은 드론 객체 인식 AI 모델의 성능 최적화를 위해 페블러스(Pebblous)가 자체 제작한 국방 특화 합성 이미지 데이터셋입니다. 28,801장, 52GB의 대용량 단일 클래스 드론 이미지로 구성되며, DataClinic 종합 점수 87점(좋음)을 기록했습니다. 앞서 진단된 PBLS_Military(68점)보다 크게 향상된 수치로, 이번에는 데이터 다이어트 대신 데이터 벌크업이 권장됩니다.

87

DataClinic 종합 점수

28,801

총 이미지 수

52GB

데이터셋 크기

1920×1080

이미지 해상도 (FHD)

PBLS_Drone vs PBLS_Military — 두 국방 데이터셋 비교

87점

PBLS_Drone

단일 클래스 · 28,801장 · FHD

DataBulkup 권장

68점

PBLS_Military

10개 클래스 · 3,171장 · HD

DataDiet 권장

점수 차이의 핵심: PBLS_Drone은 단일 클래스로 클래스 균형 문제가 없고, 이미지 다양성이 높아 높은 점수를 획득했습니다.

DataClinic 등급 요약

L1 무결성 좋음

L1 결측값 좋음

L1 클래스균형 특이사항 없음

L1 통계 좋음

L2 DataLens 특이사항 없음

L2 기하 보통

L2 분포 좋음

L3 DataLens 특이사항 없음

L3 기하 보통

L3 분포 좋음

왜 드론 AI인가? — 하늘의 위협, 그리고 방어

2022년 우크라이나 전쟁은 드론이 현대 전장의 게임 체인저가 됐음을 전 세계에 증명했습니다. 저가 상용 드론부터 정밀 타격 자폭드론(Loitering Munition)까지, 드론은 정찰·타격·보급·전자전 등 거의 모든 작전 영역에 침투했습니다.

이에 대응하는 드론 방어(Counter-UAS) 기술도 급속도로 발전하고 있습니다. 레이더, 재밍(Jamming), 레이저, 요격 드론 등 다양한 수단 중 AI 기반 드론 인식(Detection & Classification)은 모든 방어 체계의 핵심 "눈" 역할을 합니다. AI가 드론을 빠르고 정확하게 인식하려면, 풍부하고 다양한 훈련 데이터가 필요합니다.

🎯

Counter-UAS 핵심 기술

적 드론을 탐지·분류·추적하는 AI — 방어 체계의 두뇌

📷

실사 촬영의 한계

다양한 드론을 다양한 고도·거리·조명에서 촬영하는 것은 극도로 비용이 높음

🏭

합성데이터의 해법

CG로 무한한 드론 시나리오·각도·환경·거리 조합 생성 — 실사 없이 AI 훈련 가능

파일명에 담긴 드론 시뮬레이션 설계도

PBLS_Drone의 각 파일명은 어떤 드론 모델을 어떤 프레임에서 촬영했는지를 체계적으로 인코딩합니다.

DR08_0912.png

DR01~DR12

드론 모델 번호
12종의 서로 다른 드론

0001~2400+

프레임/시퀀스 번호
비행 경로·각도 순서

12종 드론 × 약 2,400 프레임 = 약 28,800장의 체계적 합성 드론 이미지. 각 드론이 비행하는 시뮬레이션 경로를 따라 다양한 각도와 배경에서 연속 캡처됩니다.

데이터셋 소개 — PBLS_Drone

PBLS_Drone은 한국 AI 기업 페블러스(Pebblous)가 자체 제작한 국방 특화 드론 합성 이미지 데이터셋입니다. 환경 및 운송 분야 활용을 염두에 두고 설계된 이 데이터셋은 이미지 분류와 이미지 처리 작업에 최적화됐습니다. 모든 이미지는 1920×1080(Full HD) 고해상도 RGB 포맷으로, 드론 객체 인식 모델의 실전 배치를 전제로 설계됐습니다.

PBLS_Drone — 드론 합성 이미지 콜라주 (DataClinic L1 분석)

▲ PBLS_Drone 고밀도 대표 샘플 — DR08 드론 모델 (밀도 0.677, L2 기준 데이터셋 최고밀도)

📊 데이터셋 사양

🖼️ 28,801장 (진단 사용: 28,800장)
📦 52GB (52,646MB)
📐 1920×1080px — Full HD, 고정 사이즈
🎨 RGB 채널 — 전체 일관
🏷️ 단일 클래스 — "drone" (클래스 내 12종 모델)
📅 2026.03.12 진단 완료

🎯 활용 분야

🛡️ 드론 방어(Counter-UAS) AI 모델 훈련
🔍 드론 탐지·분류 알고리즘 개발
📡 레이더·EO/IR 센서 융합 AI 연구
🌐 환경·운송 분야 드론 모니터링
🧪 벤치마크 데이터셋으로 모델 평가

⚠️ 상업적 이용 불가

PBLS_Drone 데이터셋은 국방 특화 목적으로 개발됐으므로 상업적 이용이 허가되지 않습니다. 연구·교육·국방 AI 개발 등 비영리 목적으로만 사용 가능합니다.

12종 드론 갤러리 — AI의 인식 대상들

PBLS_Drone은 단일 클래스("drone")이지만, 내부적으로는 DR01부터 DR12까지 12종의 서로 다른 드론 모델을 포함합니다. 각 모델은 형태(쿼드콥터·고정익·혼합형), 크기, 용도(정찰·타격·자폭·군집)가 다릅니다. 이 다양성이 단일 클래스임에도 Level 2에서 3개의 클러스터가 형성되는 이유입니다.

단일 클래스 데이터셋의 전략: 드론 인식 AI에서 "드론인지 아닌지"를 판별하는 이진 분류(Binary Classification)나 드론의 위치를 특정하는 객체 탐지(Object Detection) 모델 훈련에는 단일 클래스 데이터가 효율적입니다. 다양한 드론 형태를 하나의 클래스로 묶어 AI가 "드론의 본질적 특성"을 학습하도록 유도합니다.

🔷 멀티로터 정찰·감시 드론

쿼드콥터·헥사콥터 계열의 정찰 드론. 저고도 감시 및 전장 정보 수집에 특화되며, 민수용 드론과 형태가 유사해 AI 오인식 가능성이 높습니다.

DR01 — 소형 정찰 드론

정찰형

소형 멀티로터 기반 정찰 드론. 낮은 RCS(레이더 단면적)와 조용한 비행 특성으로 은밀 정찰에 활용됩니다. DataClinic L3에서 중간 밀도를 기록하며 안정적인 분포를 보입니다.

DR02 — 중형 감시 드론

감시형

중형 멀티로터 감시 드론. 광학·열화상 카메라를 탑재하며 지속 감시 임무에 특화됩니다. DataClinic에서 저밀도 이상치가 다수 포함돼 특이 비행 자세나 특수 환경 장면이 많습니다.

DR03 — 전술 정찰 드론

전술형

전술 운용 목적의 정찰 드론. 빠른 전개와 회수가 가능하며 군 소대급에서 운용합니다. L3에서 고밀도 클러스터의 핵심을 이루며 전형적 드론 이미지입니다.

🔴 공격·자폭(Loitering) 드론

자폭드론(Loitering Munition)은 목표물 상공을 배회하다 타격하는 신개념 무기입니다. 이란제 샤헤드-136처럼 우크라이나 전쟁에서 막대한 피해를 입힌 이 무기류의 AI 인식은 Counter-UAS 시스템의 최우선 과제입니다.

DR04 — 공격형 멀티로터

공격형

폭발물 투하 또는 직격 타격이 가능한 공격 드론. 헥사콥터 기반 강화 프레임으로 페이로드 탑재 능력이 높습니다. L3 기준 고밀도 상위권으로 안정적인 특성을 보입니다.

DR05 — 자폭형 드론 (배회형)

자폭형

목표물 상공을 배회하며 타격 기회를 포착하는 Loitering Munition. 소형 고정익과 멀티로터가 결합된 VTOL 형태로, DataClinic에서 최고 고밀도를 기록합니다.

DR06 — 중형 공격 드론

공격형

중거리 타격 능력을 갖춘 군사용 드론. 항속 거리와 페이로드의 균형을 고려한 설계로, 전선 후방의 고가치 목표물 타격에 운용됩니다.

🔵 고정익 & VTOL 드론

DR07 — 소형 고정익 UAV

고정익

장거리 정찰에 특화된 소형 고정익 무인기. 글라이더형 날개로 활공 효율이 높고 조용합니다. 멀티로터와 형태가 판이해 AI 인식 알고리즘에서 특수 처리가 필요한 유형입니다.

DR08 — 중형 VTOL 드론

VTOL

수직 이착륙(VTOL)과 고정익 비행을 겸하는 고성능 드론. DataClinic L2·L3 모두에서 데이터셋 전체 최고 밀도를 기록 — AI가 가장 "전형적인 드론"으로 인식합니다.

DR09 — 전술 고정익 UAV

고정익

전술 급 정찰·타격이 가능한 중형 고정익 무인기. 터보팬 엔진 기반으로 장시간 체공이 가능하며, 자율 비행 경로 계획 기능을 탑재합니다.

🟣 군집(Swarm) & 특수 목적 드론

DR10 — 군집 드론 유닛

군집형

군집 작전(Swarm Attack)을 위한 소형 표준화 드론. 수십~수백 대가 동시에 운용되며 방공 시스템을 포화 공격합니다. AI 인식에서 저밀도 이상치가 다수 나타납니다.

DR11 — EW/재밍 드론

전자전형

전자전(EW) 및 통신 재밍 특화 드론. 대형 안테나 어레이와 전자 장비 탑재로 특유의 시각적 특성을 가집니다. L3에서 고밀도 그룹에 포함됩니다.

DR12 — 대형 전략 드론

전략형

대형 전략급 무인기. 장거리 타격 및 광역 정찰에 특화된 고성능 플랫폼으로, DataClinic 저밀도 이상치 목록에 가장 많이 등장하는 모델 — 다양한 비행 자세가 특이 샘플로 분류됩니다.

🌿 같은 드론, 다른 환경 — 자연 배경 비교

위의 도시 배경(건물)과 동일한 12종 드론을 자연 환경(산·초원)에서 촬영한 이미지입니다. 배경이 바뀌어도 드론의 형태적 특성은 동일하게 유지되는지, AI가 배경에 의존하지 않고 드론 자체를 인식할 수 있는지를 비교해 볼 수 있습니다.

DR01

DR02

DR03

DR04

DR05

DR06

DR07

DR08

DR09

DR10

DR11

DR12

▲ 동일 12종 드론 — 자연 환경(산·초원) 배경. 위의 도시 배경과 비교해 보세요.

Level 1 — 기본 품질 진단

전체 평균 이미지 — AI의 눈에 비친 "드론"의 전형

28,800장의 드론 이미지를 픽셀 단위로 평균 낸 결과입니다. 흐릿하게 보이는 것이 정상이며, 12종의 서로 다른 드론이 겹쳐진 공통 윤곽을 보여줍니다. 평균 이미지에서 드론의 기본 형태가 식별 가능하다면, 그것은 데이터셋에 시각적 일관성이 있다는 증거입니다.

▲ PBLS_Drone 전체 평균 이미지 — 28,800장 픽셀 평균 (DataClinic L1)

✅ L1 강점

📐 완벽한 해상도 일관성: 전체 1920×1080px 고정 — 패딩·리사이즈 불필요
🎨 RGB 채널 일관성: 그레이스케일·RGBA 혼입 없음
❌ 결측치 제로: 손상·빈 이미지 없음
📊 L1 통계: 좋음 — 구조와 질감이 다양해 데이터셋이 풍부

📌 L1 특이사항

🏷️ 단일 클래스: 클래스 균형 지표 해당 없음 (N/A)
🔄 다종 드론 혼재: 12가지 모델의 시각적 다양성이 풍부
🌐 자연·도시 배경 혼합: L2에서 명확한 환경 클러스터 형성

💡 PBLS_Military와의 차이 — L1 통계 등급의 역전: PBLS_Military는 L1 통계 나쁨이었지만, PBLS_Drone은 좋음입니다. Military 데이터는 특정 환경(en3)·배경(bg5) 조합이 지배적이었던 반면, Drone 데이터는 12종 드론 모델 × 다양한 배경·고도·조명 조합으로 시각적 다양성이 훨씬 풍부합니다. 이것이 87점의 핵심 원인입니다.

Level 2 — DataLens 분석 (Wolfram ImageIdentify Net V2)

Level 2에서는 3백만 개 이미지로 학습된 Wolfram의 ImageIdentify Net V2를 렌즈로 사용합니다. 1,280차원의 특징 공간에서 단일 클래스인 PBLS_Drone 데이터가 어떻게 분포되는지, 그리고 왜 범용 AI조차 3개의 클러스터를 발견하는지 살펴봅니다.

▲ Level 2 PCA 분포도 — 단일 클래스 드론 데이터의 1280차원 특징 공간 분포 (Wolfram ImageIdentify Net V2)

▲ Level 2 밀도 지형도 — 자연·도시 환경으로 구분되는 3개 클러스터

범용 AI가 발견한 3가지 드론 그룹 — "배경이 다르다"

1

자연 환경 클러스터

숲·산·평원 등 자연 배경에서 촬영된 드론 이미지. 녹색·갈색 계열 배경이 특징. 전체 약 40% 추정.

2

도시 환경 클러스터

건물·도로·시가지 배경의 드론 이미지. 직선적 구조물과 회색 계열 배경이 특징. 전체 약 35% 추정.

3

혼합·전환 클러스터

자연·도시 경계 또는 하늘·저고도 배경 이미지. 두 환경이 혼재하거나 고도가 높아 배경이 하늘인 경우.

💡 L2 핵심 발견 — 드론 형태가 아닌 "배경"이 클러스터를 결정: 단일 클래스이기 때문에, Wolfram의 범용 AI는 드론 자체의 차이보다 배경 환경(자연 vs 도시)을 기준으로 클러스터를 형성합니다. 이것은 실제 드론 인식 AI 개발에 중요한 시사점을 제공합니다 — 모델이 드론 자체를 인식하는 것이 아니라 "배경에 없는 물체"를 찾아내는 방식으로 학습될 위험이 있다는 뜻입니다. L3 특화 렌즈에서 더 의미 있는 분석이 가능합니다.

L2 주요 수치

1,280

관찰 차원

0.3

평균 밀도

6.8%

이상치 비율

3

클러스터 수

Level 3 — 드론 특화 DataLens (788차원)

Level 3에서는 265층, 40MB 모델을 기반으로 788차원으로 최적화된 특화 렌즈가 적용됩니다. 클래스 구별력을 유지하는 차원 최적화로, 범용 렌즈보다 드론의 형태적 특성을 더 정밀하게 포착합니다. 평균 밀도가 L2의 0.3에서 0.41로 상승했고, 이상치는 6%로 안정적입니다.

▲ Level 3 PCA 분포도 — 788차원 특화 렌즈에서의 드론 데이터 분포

▲ Level 3 밀도 지형도 — 복합형 클러스터와 다봉형 분포 확인

L3에서 드러나는 복합형 구조 — "형태가 보이기 시작한다"

특화 렌즈가 적용되면 단순한 배경 분류를 넘어, 드론의 형태적 특성이 분포에 영향을 주기 시작합니다. DataClinic은 클러스터 1이 건물과 자연 풍경이 혼합된 복합형으로, 내부에 다수의 피크(sub-cluster)가 존재함을 확인했습니다. 이는 12종 드론이 다양한 비행 자세와 환경에서 촬영돼 세부 그룹이 형성됐음을 의미합니다.

L2 (범용 렌즈)

· 1,280차원 → 평균 밀도 0.3
· 배경 환경 기준 클러스터
· "자연 vs 도시" 이분 구조
· 이상치 6.8%

L3 (특화 렌즈)

· 788차원 → 평균 밀도 0.41 (+37%)
· 형태+환경 복합 기준 클러스터
· 복합형 다봉 분포 (다양성 확인)
· 이상치 6% (소폭 감소)

💡 L3 인사이트 — 밀도 상승이 말하는 것: L3에서 평균 밀도가 0.3 → 0.41로 상승한 것은 특화 렌즈가 데이터의 핵심 구조를 더 잘 포착했음을 의미합니다. 드론 훈련 데이터에서 범용 특징보다 형태 특화 특징이 더 중요하다는 증거입니다. 실제 Counter-UAS AI 모델 개발 시, 드론 특화 백본(Backbone) 네트워크 선택이 범용 분류 네트워크보다 유리할 가능성이 높습니다.

이상치 샘플 분석 — AI가 가장 확신하는 장면과 혼란스러워하는 장면

단일 클래스 데이터셋에서의 이상치 분석은 특별한 의미를 가집니다. "전형적인 드론"(고밀도)과 "비전형적인 드론"(저밀도)의 시각적 차이가 실제 AI 인식 성능의 강·약점 지도가 되기 때문입니다.

🟢 고밀도 — AI가 가장 확신하는 "전형적 드론" 장면들 (L3 기준)

DR08 모델이 고밀도 상위를 독점합니다. DR05, DR04, DR03도 상위권에 포진하며, 이들 드론 모델과 비행 자세가 데이터셋의 "표준"을 정의합니다.

DR08 (밀도 0.858) 🔥

DR05 (밀도 0.857)

DR04 (밀도 0.850)

DR03 (밀도 0.849)

DR08 (밀도 0.849)

DR11 (밀도 0.848)

💡 인사이트 — DR08이 "가장 드론다운" 이유: DR08(VTOL형)이 L2·L3 모두에서 최고밀도를 기록하는 것은, 이 드론의 형태적 특성(회전 날개 + 고정익의 결합)이 12종 드론 중 가장 "보편적인 드론의 특성"에 가깝기 때문입니다. 반대로 DR12(대형 전략 드론)는 이례적인 크기와 자세로 저밀도 이상치에 자주 등장합니다. 형태가 독특할수록 AI가 어려워합니다.

🔴 저밀도 — AI가 혼란스러워하는 이상치 드론 장면들 (L3 기준)

DR02, DR09가 저밀도 상위를 차지합니다. 특이한 비행 각도, 극단적 조명, 특수 배경 조합이 이상치 원인입니다.

DR02 (밀도 0.151) 🔴

DR09 (밀도 0.158)

DR02 (밀도 0.159)

DR06 (밀도 0.165)

DR12 (밀도 0.170)

DR11 (밀도 0.167)

🔄 가장 다른 두 장면 — 데이터셋의 극단

피봇(기준점)은 DR08_0910(최고밀도 0.858). 이 이미지와 가장 멀리 떨어진 장면은 DR12 계열의 이미지들입니다. 단일 클래스 내에서 가장 "드론답지 않은" 드론 장면이 어떤 것인지를 보여줍니다.

DR08 — 기준 이미지 (피봇)

밀도 0.858 (최고)

DR12 — 가장 먼 이미지

밀도 0.245 (극단)

⬆️ 이 두 장면은 L3 특징 공간에서 가장 먼 거리에 위치합니다. 드론 인식 AI가 가장 어려움을 겪을 수 있는 구간입니다.

🔗 가장 유사한 장면 — DR08 중심의 근접 클러스터

DR08_0910을 기준으로 가장 가까운 이미지들은 모두 DR04, DR05, DR03의 "0910번대" 프레임입니다. 같은 시뮬레이션 시간대(0910번)에서 서로 다른 드론 모델이 유사한 포즈를 취한다는 것을 의미합니다.

DR04_0910 (밀도 0.850)

DR03_0910 (밀도 0.838)

DR05_0910 (밀도 0.843)

DR01_0910 (밀도 0.818)

💡 인사이트 — "0910번대 프레임의 지배": 가장 유사한 장면들이 모두 0910번 전후 프레임에 집중돼 있습니다. 이는 시뮬레이션의 특정 비행 단계(각도·거리)에서 드론이 가장 "전형적"으로 보이도록 설계됐음을 시사합니다. 반면 0048~0296, 0890~0896, 1495~1497, 2250, 2381 등 특수 프레임 구간에서 저밀도 이상치가 집중됩니다. 이 구간은 특이한 비행 고도·각도·배경이 등장하는 시뮬레이션 구간으로 추정됩니다.

개선 제안 — 87점에서 더 높은 점수로, DataBulkup의 이유

DataClinic이 PBLS_Drone에 데이터 벌크업(Data Bulk-up)을 권장하는 이유: 현재 데이터는 중복이나 편향이 크지 않고 다이어트가 필요 없습니다. 오히려 클러스터 간 경계와 저밀도 영역의 샘플이 부족해, 이 구간을 채울 합성 데이터 추가가 성능 향상에 기여합니다.

💪

데이터 벌크업 (Data Bulk-up)

DataClinic의 핵심 권장 방향입니다. 현재 28,801장은 훈련에 충분해 보이지만, 저밀도 구간(특수 비행 자세·극단적 조명·교차 환경)의 샘플이 상대적으로 부족합니다.

특히 클러스터 경계 구간(자연↔도시 전환, 고도 변화)에 샘플을 추가하면 AI 모델의 엣지 케이스 인식 성능이 크게 향상될 수 있습니다.

🌐

더 다양한 환경 확대

현재 데이터는 자연·도시 환경 중심입니다. 실전 드론 인식 AI는 야간, 안개, 역광, 강우·강설, 사막, 해양 등 극한 환경에서도 작동해야 합니다.

도메인 랜덤화(Domain Randomization) 기법으로 조명 방향, 안개 밀도, 배경 텍스처를 무작위로 변경한 증강 이미지 생성을 권장합니다.

두 국방 데이터셋 권장 방향의 대비

PBLS_Military

68점 / 3,171장

🥗

DataDiet

중복 이미지 제거
특정 환경 편향 정리

PBLS_Drone

87점 / 28,801장

💪

DataBulkup

저밀도 구간 채우기
극한 환경 추가

질 좋은 데이터에는 더 많은 데이터가 답이고, 편향된 데이터에는 다이어트가 답입니다.

⚠️ 저밀도 프레임 구간 주의 — 시뮬레이션 설계 재검토 권장

0048~0296, 0890~0896 번대 프레임에서 저밀도 이상치가 집중됩니다. 이 구간은 드론이 특수한 비행 자세(급격한 선회·고속 상승·근거리 촬영 등)에 있는 장면으로 추정됩니다. 이 이상치들이 실제 전장 시나리오에서 의미 있는 케이스라면 오히려 보강이 필요하고, 단순한 렌더링 아티팩트라면 품질 검수 후 교체를 권장합니다.

결론 — 87점 드론 데이터셋이 열어주는 가능성

PBLS_Drone은 국방 AI 드론 인식 분야에서 현재 공개된 가장 대규모의 합성데이터셋 중 하나입니다. 28,801장, 52GB, Full HD 해상도 — 숫자만으로도 인상적이지만, DataClinic 87점은 이 데이터가 단순히 많을 뿐 아니라 질적으로도 우수함을 증명합니다.

앞서 PBLS_Military가 68점으로 "데이터 다이어트"가 필요했던 것과 달리, PBLS_Drone은 데이터 다양성과 균형이 이미 양호합니다. 오히려 더 풍부한 데이터로 AI 모델의 성능을 끌어올릴 수 있는 단계에 있습니다.

드론이 현대 전장의 핵심 전력이 된 지금, 드론을 인식하는 AI는 방어 체계의 첫 번째 방어선입니다. PBLS_Drone은 그 AI를 훈련시키기 위한 기반을 제공합니다. 저밀도 구간을 채우는 데이터 벌크업과 극한 환경 데이터 확장이 이루어진다면, 실전 배치 가능한 수준의 드론 인식 모델 개발에 한 걸음 더 가까워질 것입니다.

PBLS_Drone 핵심 요약 카드

87점

DataClinic 종합

28,801장

합성 드론 이미지

52GB

데이터셋 크기

FHD

1920×1080px

12종

드론 모델 유형

3개

환경 클러스터

6%

이상치 비율 (L3)

원본 DataClinic 리포트: dataclinic.ai/en/report/226 · 상업적 이용 불가