2026.03 · (주)페블러스 데이터 커뮤니케이션팀

읽는 시간: ~15분 · English

핵심 요약

이 글은 DataClinic 리포트 #226의 분석 결과를 바탕으로 작성되었습니다. PBLS_Drone은 드론 객체 인식 AI 모델의 성능 최적화를 위해 페블러스(Pebblous)가 자체 제작한 국방 특화 합성 이미지 데이터셋입니다. 28,801장, 52GB의 대용량 단일 클래스 드론 이미지로 구성되며, DataClinic 종합 점수 87점(좋음)을 기록했습니다. 앞서 진단된 PBLS_Military(68점)보다 크게 향상된 수치로, 이번에는 데이터 다이어트 대신 데이터 벌크업이 권장됩니다.

87
DataClinic 종합 점수
28,801
총 이미지 수
52GB
데이터셋 크기
1920×1080
이미지 해상도 (FHD)

PBLS_Drone vs PBLS_Military — 두 국방 데이터셋 비교

87점
PBLS_Drone
단일 클래스 · 28,801장 · FHD
DataBulkup 권장
68점
PBLS_Military
10개 클래스 · 3,171장 · HD
DataDiet 권장

점수 차이의 핵심: PBLS_Drone은 단일 클래스로 클래스 균형 문제가 없고, 이미지 다양성이 높아 높은 점수를 획득했습니다.

DataClinic 등급 요약

L1 무결성 좋음
L1 결측값 좋음
L1 클래스균형 특이사항 없음
L1 통계 좋음
L2 DataLens 특이사항 없음
L2 기하 보통
L2 분포 좋음
L3 DataLens 특이사항 없음
L3 기하 보통
L3 분포 좋음

왜 드론 AI인가? — 하늘의 위협, 그리고 방어

2022년 우크라이나 전쟁은 드론이 현대 전장의 게임 체인저가 됐음을 전 세계에 증명했습니다. 저가 상용 드론부터 정밀 타격 자폭드론(Loitering Munition)까지, 드론은 정찰·타격·보급·전자전 등 거의 모든 작전 영역에 침투했습니다.

이에 대응하는 드론 방어(Counter-UAS) 기술도 급속도로 발전하고 있습니다. 레이더, 재밍(Jamming), 레이저, 요격 드론 등 다양한 수단 중 AI 기반 드론 인식(Detection & Classification)은 모든 방어 체계의 핵심 "눈" 역할을 합니다. AI가 드론을 빠르고 정확하게 인식하려면, 풍부하고 다양한 훈련 데이터가 필요합니다.

🎯

Counter-UAS 핵심 기술

적 드론을 탐지·분류·추적하는 AI — 방어 체계의 두뇌

📷

실사 촬영의 한계

다양한 드론을 다양한 고도·거리·조명에서 촬영하는 것은 극도로 비용이 높음

🏭

합성데이터의 해법

CG로 무한한 드론 시나리오·각도·환경·거리 조합 생성 — 실사 없이 AI 훈련 가능

파일명에 담긴 드론 시뮬레이션 설계도

PBLS_Drone의 각 파일명은 어떤 드론 모델을 어떤 프레임에서 촬영했는지를 체계적으로 인코딩합니다.

DR08_0912.png
DR01~DR12
드론 모델 번호
12종의 서로 다른 드론
0001~2400+
프레임/시퀀스 번호
비행 경로·각도 순서

12종 드론 × 약 2,400 프레임 = 약 28,800장의 체계적 합성 드론 이미지. 각 드론이 비행하는 시뮬레이션 경로를 따라 다양한 각도와 배경에서 연속 캡처됩니다.

데이터셋 소개 — PBLS_Drone

PBLS_Drone은 한국 AI 기업 페블러스(Pebblous)가 자체 제작한 국방 특화 드론 합성 이미지 데이터셋입니다. 환경 및 운송 분야 활용을 염두에 두고 설계된 이 데이터셋은 이미지 분류이미지 처리 작업에 최적화됐습니다. 모든 이미지는 1920×1080(Full HD) 고해상도 RGB 포맷으로, 드론 객체 인식 모델의 실전 배치를 전제로 설계됐습니다.

PBLS_Drone 데이터셋 — 드론 대표 이미지 콜라주

PBLS_Drone — 드론 합성 이미지 콜라주 (DataClinic L1 분석)

PBLS_Drone 대표 이미지 — DR08 드론 고밀도 전형 샘플

▲ PBLS_Drone 고밀도 대표 샘플 — DR08 드론 모델 (밀도 0.677, L2 기준 데이터셋 최고밀도)

📊 데이터셋 사양

  • 🖼️ 28,801장 (진단 사용: 28,800장)
  • 📦 52GB (52,646MB)
  • 📐 1920×1080px — Full HD, 고정 사이즈
  • 🎨 RGB 채널 — 전체 일관
  • 🏷️ 단일 클래스 — "drone" (클래스 내 12종 모델)
  • 📅 2026.03.12 진단 완료

🎯 활용 분야

  • 🛡️ 드론 방어(Counter-UAS) AI 모델 훈련
  • 🔍 드론 탐지·분류 알고리즘 개발
  • 📡 레이더·EO/IR 센서 융합 AI 연구
  • 🌐 환경·운송 분야 드론 모니터링
  • 🧪 벤치마크 데이터셋으로 모델 평가

⚠️ 상업적 이용 불가

PBLS_Drone 데이터셋은 국방 특화 목적으로 개발됐으므로 상업적 이용이 허가되지 않습니다. 연구·교육·국방 AI 개발 등 비영리 목적으로만 사용 가능합니다.

Level 1 — 기본 품질 진단

전체 평균 이미지 — AI의 눈에 비친 "드론"의 전형

28,800장의 드론 이미지를 픽셀 단위로 평균 낸 결과입니다. 흐릿하게 보이는 것이 정상이며, 12종의 서로 다른 드론이 겹쳐진 공통 윤곽을 보여줍니다. 평균 이미지에서 드론의 기본 형태가 식별 가능하다면, 그것은 데이터셋에 시각적 일관성이 있다는 증거입니다.

PBLS_Drone 전체 평균 이미지 — 28,800장 픽셀 평균

▲ PBLS_Drone 전체 평균 이미지 — 28,800장 픽셀 평균 (DataClinic L1)

✅ L1 강점

  • 📐 완벽한 해상도 일관성: 전체 1920×1080px 고정 — 패딩·리사이즈 불필요
  • 🎨 RGB 채널 일관성: 그레이스케일·RGBA 혼입 없음
  • 결측치 제로: 손상·빈 이미지 없음
  • 📊 L1 통계: 좋음 — 구조와 질감이 다양해 데이터셋이 풍부

📌 L1 특이사항

  • 🏷️ 단일 클래스: 클래스 균형 지표 해당 없음 (N/A)
  • 🔄 다종 드론 혼재: 12가지 모델의 시각적 다양성이 풍부
  • 🌐 자연·도시 배경 혼합: L2에서 명확한 환경 클러스터 형성
💡 PBLS_Military와의 차이 — L1 통계 등급의 역전: PBLS_Military는 L1 통계 나쁨이었지만, PBLS_Drone은 좋음입니다. Military 데이터는 특정 환경(en3)·배경(bg5) 조합이 지배적이었던 반면, Drone 데이터는 12종 드론 모델 × 다양한 배경·고도·조명 조합으로 시각적 다양성이 훨씬 풍부합니다. 이것이 87점의 핵심 원인입니다.

Level 2 — DataLens 분석 (Wolfram ImageIdentify Net V2)

Level 2에서는 3백만 개 이미지로 학습된 Wolfram의 ImageIdentify Net V2를 렌즈로 사용합니다. 1,280차원의 특징 공간에서 단일 클래스인 PBLS_Drone 데이터가 어떻게 분포되는지, 그리고 왜 범용 AI조차 3개의 클러스터를 발견하는지 살펴봅니다.

PBLS_Drone L2 PCA 전체 분포도

▲ Level 2 PCA 분포도 — 단일 클래스 드론 데이터의 1280차원 특징 공간 분포 (Wolfram ImageIdentify Net V2)

PBLS_Drone L2 밀도 지형도

▲ Level 2 밀도 지형도 — 자연·도시 환경으로 구분되는 3개 클러스터

범용 AI가 발견한 3가지 드론 그룹 — "배경이 다르다"

1

자연 환경 클러스터

숲·산·평원 등 자연 배경에서 촬영된 드론 이미지. 녹색·갈색 계열 배경이 특징. 전체 약 40% 추정.

2

도시 환경 클러스터

건물·도로·시가지 배경의 드론 이미지. 직선적 구조물과 회색 계열 배경이 특징. 전체 약 35% 추정.

3

혼합·전환 클러스터

자연·도시 경계 또는 하늘·저고도 배경 이미지. 두 환경이 혼재하거나 고도가 높아 배경이 하늘인 경우.

💡 L2 핵심 발견 — 드론 형태가 아닌 "배경"이 클러스터를 결정: 단일 클래스이기 때문에, Wolfram의 범용 AI는 드론 자체의 차이보다 배경 환경(자연 vs 도시)을 기준으로 클러스터를 형성합니다. 이것은 실제 드론 인식 AI 개발에 중요한 시사점을 제공합니다 — 모델이 드론 자체를 인식하는 것이 아니라 "배경에 없는 물체"를 찾아내는 방식으로 학습될 위험이 있다는 뜻입니다. L3 특화 렌즈에서 더 의미 있는 분석이 가능합니다.

L2 주요 수치

1,280
관찰 차원
0.3
평균 밀도
6.8%
이상치 비율
3
클러스터 수

Level 3 — 드론 특화 DataLens (788차원)

Level 3에서는 265층, 40MB 모델을 기반으로 788차원으로 최적화된 특화 렌즈가 적용됩니다. 클래스 구별력을 유지하는 차원 최적화로, 범용 렌즈보다 드론의 형태적 특성을 더 정밀하게 포착합니다. 평균 밀도가 L2의 0.3에서 0.41로 상승했고, 이상치는 6%로 안정적입니다.

PBLS_Drone L3 PCA 전체 분포도

▲ Level 3 PCA 분포도 — 788차원 특화 렌즈에서의 드론 데이터 분포

PBLS_Drone L3 밀도 지형도

▲ Level 3 밀도 지형도 — 복합형 클러스터와 다봉형 분포 확인

L3에서 드러나는 복합형 구조 — "형태가 보이기 시작한다"

특화 렌즈가 적용되면 단순한 배경 분류를 넘어, 드론의 형태적 특성이 분포에 영향을 주기 시작합니다. DataClinic은 클러스터 1이 건물과 자연 풍경이 혼합된 복합형으로, 내부에 다수의 피크(sub-cluster)가 존재함을 확인했습니다. 이는 12종 드론이 다양한 비행 자세와 환경에서 촬영돼 세부 그룹이 형성됐음을 의미합니다.

L2 (범용 렌즈)

  • · 1,280차원 → 평균 밀도 0.3
  • · 배경 환경 기준 클러스터
  • · "자연 vs 도시" 이분 구조
  • · 이상치 6.8%

L3 (특화 렌즈)

  • · 788차원 → 평균 밀도 0.41 (+37%)
  • · 형태+환경 복합 기준 클러스터
  • · 복합형 다봉 분포 (다양성 확인)
  • · 이상치 6% (소폭 감소)
💡 L3 인사이트 — 밀도 상승이 말하는 것: L3에서 평균 밀도가 0.3 → 0.41로 상승한 것은 특화 렌즈가 데이터의 핵심 구조를 더 잘 포착했음을 의미합니다. 드론 훈련 데이터에서 범용 특징보다 형태 특화 특징이 더 중요하다는 증거입니다. 실제 Counter-UAS AI 모델 개발 시, 드론 특화 백본(Backbone) 네트워크 선택이 범용 분류 네트워크보다 유리할 가능성이 높습니다.

이상치 샘플 분석 — AI가 가장 확신하는 장면과 혼란스러워하는 장면

단일 클래스 데이터셋에서의 이상치 분석은 특별한 의미를 가집니다. "전형적인 드론"(고밀도)과 "비전형적인 드론"(저밀도)의 시각적 차이가 실제 AI 인식 성능의 강·약점 지도가 되기 때문입니다.

🟢 고밀도 — AI가 가장 확신하는 "전형적 드론" 장면들 (L3 기준)

DR08 모델이 고밀도 상위를 독점합니다. DR05, DR04, DR03도 상위권에 포진하며, 이들 드론 모델과 비행 자세가 데이터셋의 "표준"을 정의합니다.

DR08 고밀도 샘플 1
DR08 (밀도 0.858) 🔥
DR05 고밀도 샘플
DR05 (밀도 0.857)
DR04 고밀도 샘플
DR04 (밀도 0.850)
DR03 고밀도 샘플
DR03 (밀도 0.849)
DR08 고밀도 샘플 2
DR08 (밀도 0.849)
DR11 고밀도 샘플
DR11 (밀도 0.848)
💡 인사이트 — DR08이 "가장 드론다운" 이유: DR08(VTOL형)이 L2·L3 모두에서 최고밀도를 기록하는 것은, 이 드론의 형태적 특성(회전 날개 + 고정익의 결합)이 12종 드론 중 가장 "보편적인 드론의 특성"에 가깝기 때문입니다. 반대로 DR12(대형 전략 드론)는 이례적인 크기와 자세로 저밀도 이상치에 자주 등장합니다. 형태가 독특할수록 AI가 어려워합니다.

🔴 저밀도 — AI가 혼란스러워하는 이상치 드론 장면들 (L3 기준)

DR02, DR09가 저밀도 상위를 차지합니다. 특이한 비행 각도, 극단적 조명, 특수 배경 조합이 이상치 원인입니다.

DR02 저밀도 샘플 1
DR02 (밀도 0.151) 🔴
DR09 저밀도 샘플
DR09 (밀도 0.158)
DR02 저밀도 샘플 2
DR02 (밀도 0.159)
DR06 저밀도 샘플
DR06 (밀도 0.165)
DR12 저밀도 샘플
DR12 (밀도 0.170)
DR11 저밀도 샘플
DR11 (밀도 0.167)

🔄 가장 다른 두 장면 — 데이터셋의 극단

피봇(기준점)은 DR08_0910(최고밀도 0.858). 이 이미지와 가장 멀리 떨어진 장면은 DR12 계열의 이미지들입니다. 단일 클래스 내에서 가장 "드론답지 않은" 드론 장면이 어떤 것인지를 보여줍니다.

DR08 피봇 — 최고밀도
DR08 — 기준 이미지 (피봇)
밀도 0.858 (최고)
DR12 — 가장 거리 먼 이미지
DR12 — 가장 먼 이미지
밀도 0.245 (극단)

⬆️ 이 두 장면은 L3 특징 공간에서 가장 먼 거리에 위치합니다. 드론 인식 AI가 가장 어려움을 겪을 수 있는 구간입니다.

🔗 가장 유사한 장면 — DR08 중심의 근접 클러스터

DR08_0910을 기준으로 가장 가까운 이미지들은 모두 DR04, DR05, DR03의 "0910번대" 프레임입니다. 같은 시뮬레이션 시간대(0910번)에서 서로 다른 드론 모델이 유사한 포즈를 취한다는 것을 의미합니다.

DR04_0910 유사 샘플
DR04_0910 (밀도 0.850)
DR03_0910 유사 샘플
DR03_0910 (밀도 0.838)
DR05_0910 유사 샘플
DR05_0910 (밀도 0.843)
DR01_0910 유사 샘플
DR01_0910 (밀도 0.818)
💡 인사이트 — "0910번대 프레임의 지배": 가장 유사한 장면들이 모두 0910번 전후 프레임에 집중돼 있습니다. 이는 시뮬레이션의 특정 비행 단계(각도·거리)에서 드론이 가장 "전형적"으로 보이도록 설계됐음을 시사합니다. 반면 0048~0296, 0890~0896, 1495~1497, 2250, 2381 등 특수 프레임 구간에서 저밀도 이상치가 집중됩니다. 이 구간은 특이한 비행 고도·각도·배경이 등장하는 시뮬레이션 구간으로 추정됩니다.

개선 제안 — 87점에서 더 높은 점수로, DataBulkup의 이유

DataClinic이 PBLS_Drone에 데이터 벌크업(Data Bulk-up)을 권장하는 이유: 현재 데이터는 중복이나 편향이 크지 않고 다이어트가 필요 없습니다. 오히려 클러스터 간 경계와 저밀도 영역의 샘플이 부족해, 이 구간을 채울 합성 데이터 추가가 성능 향상에 기여합니다.

💪

데이터 벌크업 (Data Bulk-up)

DataClinic의 핵심 권장 방향입니다. 현재 28,801장은 훈련에 충분해 보이지만, 저밀도 구간(특수 비행 자세·극단적 조명·교차 환경)의 샘플이 상대적으로 부족합니다.

특히 클러스터 경계 구간(자연↔도시 전환, 고도 변화)에 샘플을 추가하면 AI 모델의 엣지 케이스 인식 성능이 크게 향상될 수 있습니다.

🌐

더 다양한 환경 확대

현재 데이터는 자연·도시 환경 중심입니다. 실전 드론 인식 AI는 야간, 안개, 역광, 강우·강설, 사막, 해양 등 극한 환경에서도 작동해야 합니다.

도메인 랜덤화(Domain Randomization) 기법으로 조명 방향, 안개 밀도, 배경 텍스처를 무작위로 변경한 증강 이미지 생성을 권장합니다.

두 국방 데이터셋 권장 방향의 대비

PBLS_Military
68점 / 3,171장
🥗
DataDiet
중복 이미지 제거
특정 환경 편향 정리
PBLS_Drone
87점 / 28,801장
💪
DataBulkup
저밀도 구간 채우기
극한 환경 추가

질 좋은 데이터에는 더 많은 데이터가 답이고, 편향된 데이터에는 다이어트가 답입니다.

⚠️ 저밀도 프레임 구간 주의 — 시뮬레이션 설계 재검토 권장

0048~0296, 0890~0896 번대 프레임에서 저밀도 이상치가 집중됩니다. 이 구간은 드론이 특수한 비행 자세(급격한 선회·고속 상승·근거리 촬영 등)에 있는 장면으로 추정됩니다. 이 이상치들이 실제 전장 시나리오에서 의미 있는 케이스라면 오히려 보강이 필요하고, 단순한 렌더링 아티팩트라면 품질 검수 후 교체를 권장합니다.

결론 — 87점 드론 데이터셋이 열어주는 가능성

PBLS_Drone은 국방 AI 드론 인식 분야에서 현재 공개된 가장 대규모의 합성데이터셋 중 하나입니다. 28,801장, 52GB, Full HD 해상도 — 숫자만으로도 인상적이지만, DataClinic 87점은 이 데이터가 단순히 많을 뿐 아니라 질적으로도 우수함을 증명합니다.

앞서 PBLS_Military가 68점으로 "데이터 다이어트"가 필요했던 것과 달리, PBLS_Drone은 데이터 다양성과 균형이 이미 양호합니다. 오히려 더 풍부한 데이터로 AI 모델의 성능을 끌어올릴 수 있는 단계에 있습니다.

드론이 현대 전장의 핵심 전력이 된 지금, 드론을 인식하는 AI는 방어 체계의 첫 번째 방어선입니다. PBLS_Drone은 그 AI를 훈련시키기 위한 기반을 제공합니다. 저밀도 구간을 채우는 데이터 벌크업과 극한 환경 데이터 확장이 이루어진다면, 실전 배치 가능한 수준의 드론 인식 모델 개발에 한 걸음 더 가까워질 것입니다.

PBLS_Drone 핵심 요약 카드

87점
DataClinic 종합
28,801장
합성 드론 이미지
52GB
데이터셋 크기
FHD
1920×1080px
12종
드론 모델 유형
3개
환경 클러스터
6%
이상치 비율 (L3)

원본 DataClinic 리포트: dataclinic.ai/en/report/226 · 상업적 이용 불가