밤바다 침투를 AI로 막아라 — NIA 과제 해병대 경계 작전 환경 합성데이터 진단기

핵심 요약

이 글은 DataClinic 리포트 #124의 분석 결과를 바탕으로 작성되었습니다. 군 경계 작전 환경 합성데이터는 한국지능정보사회진흥원(NIA) 과제로 페블러스(Pebblous)가 구축한 해병대 해안 경계 감시 특화 합성데이터셋입니다. 149,447장, 88GB 규모로, EO(가시광선)와 IR(열화상) 이중 센서 이미지를 포함하며 DataClinic 종합 점수 88점(좋음)을 기록했습니다. 이는 PBLS_Drone(87점)과 PBLS_Military(68점)에 앞서 구축된 페블러스 방산 합성데이터의 원점입니다.

88

DataClinic 종합 점수

149,447

총 이미지 수

88GB

데이터셋 크기

EO+IR

이중 센서 모달리티

DataClinic 등급 요약

L1 무결성 나쁨 이미지 크기 비율 기준 초과 (가변 해상도)

L1 결측값 좋음

L1 클래스균형 특이사항 없음 단일 클래스

L1 통계 좋음

L2 DataLens 특이사항 없음

L2 기하 좋음

L2 분포 좋음

L3 미진단 본 리포트는 L2까지만 진단

왜 경계감시 AI인가? — 밤바다의 위협

한국의 해안선은 약 15,000km에 달합니다. 이 긴 해안을 24시간 365일 사람이 직접 감시하는 것은 불가능합니다. 특히 야간, 안개, 폭우, 한겨울의 혹한 속에서 육안으로는 감지하기 어려운 침투를 탐지하는 것은 현대 경계 작전의 핵심 과제입니다.

북한의 잠수함 침투, 소형 고무보트 해상 침투, 잠수 접근 등 다양한 침투 방식이 실제 위협으로 존재합니다. AI 기반 경계 감시 시스템은 이 모든 시나리오를 학습하고, 사람보다 빠르고 정확하게 반응해야 합니다. 그러나 실제 침투 장면은 촬영하거나 수집할 수 없습니다 — 그래서 합성데이터가 필요합니다.

🌊

15,000km 해안선

전 구간 24시간 인력 감시 불가 — AI 자동 경보 시스템 필수

🌑

야간·악천후 침투

실제 침투는 야간·안개·폭우를 이용 — EO 카메라만으로는 한계

🏭

합성데이터의 역할

실제 침투 장면 촬영 불가 → CG로 모든 침투 시나리오 생성

NIA AI 데이터 구축 사업: 한국지능정보사회진흥원(NIA)은 AI Hub(aihub.or.kr)를 통해 국가 AI 활성화에 필요한 학습 데이터 구축을 지원합니다. 군 경계 작전 환경 합성데이터는 이 사업의 일환으로 페블러스가 수행한 과제로, 국방 AI 연구에 필요한 공공 데이터 인프라를 구축하는 것을 목표로 합니다.

데이터셋 소개 — 페블러스의 첫 번째 방산 합성데이터

군 경계 작전 환경 합성데이터는 2025년 초 DataClinic 진단이 완료된 페블러스의 초기 국방 합성데이터입니다. 이후 구축된 PBLS_Military(지상 장비)와 PBLS_Drone(드론 인식)의 선배 격으로, 페블러스가 방산 합성데이터 노하우를 축적하기 시작한 출발점입니다.

군 경계 작전 환경 합성데이터 — 대표 이미지 콜라주 (DataClinic L1 분석)

▲ 고밀도 대표 샘플 — EO 야간 W6 H7 조건 (밀도 0.664, 데이터셋 최고밀도)

📊 데이터셋 사양

🖼️ 149,447장 (진단 사용: 149,446장)
📦 88GB
📐 960×540 ~ 1920×1080 — 가변 해상도
🎨 RGB 채널 — EO·IR 모두 RGB 인코딩
🏷️ 단일 클래스 — "images" (경계 감시 장면)
📅 2025.02.24 진단 완료
🏛️ 출처: NIA (한국지능정보사회진흥원)

🎯 데이터 특성

📷 EO(가시광선) + IR(열화상) 이중 센서
🌙 야간(NT) + 주간(DT) 시간대
❄️ 여름(SU) + 겨울(WI) 계절
🌧️ 7단계 기상 조건 (W1~W7)
📡 7단계 촬영 고도·각도 (H1~H7)
🎯 단독~복수 침투 조합 시나리오

⚠️ 상업적 이용 불가

군 경계 작전 환경 합성데이터는 국방 특화 목적으로 NIA 과제를 통해 구축됐으며 상업적 이용이 허가되지 않습니다. 연구·교육·국방 AI 개발 목적으로만 사용 가능합니다.

파일명 속 작전 설계도 — 7차원 조건의 완전 인코딩

이 데이터셋의 파일명은 단순한 번호가 아닙니다. 어떤 센서로, 어떤 계절·시간·날씨에, 어느 고도에서, 어떤 침투 조합을 촬영했는지를 7개의 코드로 완전히 기록합니다. 이 구조 자체가 방산 합성데이터의 설계 철학을 보여줍니다.

파일명 구조 해독

EO_SU_NT_W6_H7_B5_0027.jpg

EO / IR

센서 종류
EO=가시광선
IR=열화상(적외선)

SU / WI

계절
SU=여름
WI=겨울

NT / DT

시간대
NT=야간(Night)
DT=주간(Day)

W1~W7

기상 조건
7단계
(맑음→악천후)

H1~H7

촬영 고도·각도
H1=근거리 저각
H7=원거리 고각

A1~E5

침투 대상 코드
단독/복합 조합
에지케이스의 핵심

0001~0027

장면 번호
카메라 위치·
앵글 순서

💡 코드가 말하는 것 — W6_H7_0027의 지배: 고밀도 상위권을 독점하는 조건은 EO_SU_NT_W6_H7_*_0027입니다. EO 센서, 여름 야간, W6 기상, H7(원거리 고각), 가장 높은 장면 번호(0027). 이것이 이 데이터셋의 "표준 경계 감시 상황"입니다. 반대로 저밀도 이상치는 IR, H1, DT, WI 조합이 지배합니다 — 열화상, 근거리, 주간, 겨울이 에지케이스입니다.

에지케이스 — 침투 시나리오의 스펙트럼

파일명의 침투 대상 코드(A1~E5 조합)는 이 데이터셋의 진짜 핵심입니다. 단독 침투부터 3~5인 이상 복합 침투까지, 실제 전술적 침투 시나리오를 망라합니다. 이 조합들이 바로 사용자가 언급한 "적의 침투에 대한 에지케이스"입니다.

EO 가시광선 야간

단독 침투 — B5

W6 기상 / H7 원거리 고각 / 장면 0027. 데이터셋 최고밀도(0.664). AI가 가장 쉽게 탐지하는 표준 감시 장면.

EO 가시광선 야간

3인 복합 침투 — A3+A2+A1

동일 환경에서 침투 인원이 3명으로 증가. 밀도 0.660 — 여전히 고밀도권. 복합 침투도 표준 야간 감시에서는 탐지 가능.

EO 가시광선 야간

혼성 침투 — E3+D3

서로 다른 유형(E계열+D계열) 침투 조합. 밀도 0.628 — 고밀도 하위권. 혼성 침투는 AI 탐지 난이도가 높아지기 시작.

IR 열화상 야간

IR 야간 2인 — A4+A3

열화상 카메라로 전환 시 밀도 급락(0.105). 동일 장면이지만 IR 이미지는 AI가 "비전형적"으로 인식 — 센서 모달리티의 벽.

주간 겨울

겨울 주간 침투 — B3+A3

겨울(WI)+주간(DT) 조합. 밀도 0.087 — 극저밀도 에지케이스. 겨울 배경과 낮의 조명이 표준 야간 감시와 완전히 다른 시각 패턴.

주간 최고 에지케이스

주간 근거리 2인 — A1+A5

DT(주간)+H1(근거리)+복합 타겟. 밀도 0.086 — 전체 최저밀도. AI가 가장 혼란스러워하는 장면. 경보 직전 상황.

💡 에지케이스의 3가지 축 — 이 데이터셋이 포착한 것:

센서 전환: EO(가시광선) → IR(열화상) 전환 시 AI 인식 난이도 급상승
환경 극단: 겨울(WI) + 주간(DT) + 근거리(H1) 조합이 가장 비전형적
침투 복잡도: 단독(A1) → 동종 복수(A3A2A1) → 이종 복합(E3D3, B3A3) 순으로 AI 탐지 난이도 증가

Level 1 — 기본 품질 진단

전체 평균 이미지 — 경계 감시 장면의 "전형"

149,446장의 이미지를 픽셀 단위로 평균 낸 결과입니다. EO와 IR, 야간과 주간, 여름과 겨울이 모두 섞여 흐릿하게 나타납니다. 배경에 바다·하늘이 있고 중앙에 작은 침투 개체가 위치하는 경계 감시 장면의 공통 구조를 보여줍니다.

▲ 전체 평균 이미지 — 149,446장 픽셀 평균 (DataClinic L1)

✅ L1 강점

🎨 RGB 채널 일관성: EO·IR 모두 RGB 인코딩으로 통일
❌ 결측치 제로: 149,447장 중 손상·빈 이미지 없음
📊 L1 통계: 좋음 — 구조·질감 다양성 풍부
🗂️ 149,447장 — 세 데이터셋 중 최대 규모

⚠️ L1 주의사항

📐 정합성: 나쁨 — 가변 해상도 문제
🔀 960×540 ~ 1920×1080: 동일 비율이지만 크기 기준 초과
📋 라벨 없음: 비지도 학습용 단일 클래스

💡 가변 해상도의 실전 의미: 960×540과 1920×1080이 혼재한다는 것은 촬영 거리·장비·렌더링 조건에 따라 해상도가 달라졌음을 의미합니다. AI 모델 훈련 시 입력 이미지 정규화(Normalization)가 필수이며, 다양한 해상도 조건을 처리할 수 있는 멀티스케일 아키텍처(FPN, SAHI 등) 적용을 권장합니다. 이 정합성 문제가 88점에서 더 높은 점수를 받지 못한 주된 이유입니다.

Level 2 — DataLens 분석 (Wolfram ImageIdentify Net V2)

Level 2에서 Wolfram의 범용 신경망이 1,280차원 특징 공간에서 149,446장을 분석합니다. 단일 클래스임에도 EO와 IR의 시각적 차이가 분포에 뚜렷하게 나타납니다.

▲ Level 2 PCA 분포도 — 1280차원 특징 공간에서의 EO/IR 혼재 분포 (Wolfram ImageIdentify Net V2)

▲ Level 2 밀도 지형도 — 1개 주요 클러스터, 평균 밀도 0.211 (낮음)

L2 주요 수치

1,280

관찰 차원

0.211

평균 밀도 (낮음)

3.6%

이상치 비율

1개

주요 클러스터

💡 평균 밀도 0.211 — 세 데이터셋 중 가장 낮은 이유: PBLS_Drone(평균 0.3), PBLS_Military보다 낮은 0.211은 EO와 IR 이미지가 임베딩 공간에서 서로 멀리 떨어진 두 영역에 분산돼 있기 때문입니다. 가시광선 이미지와 열화상 이미지는 픽셀 수준에서 완전히 다른 시각적 특성을 가지므로, 범용 AI가 이들을 서로 다른 곳에 배치합니다. 그 결과 전체 분포가 퍼져 평균 밀도가 낮아집니다. 이는 약점이 아닙니다 — 데이터가 다양한 시각 조건을 풍부하게 커버하고 있다는 증거입니다.

이상치 샘플 분석 — EO vs IR, 그 보이지 않는 경계

🟢 고밀도 — "표준 경계 감시" 장면들

고밀도 상위 20위가 전부 EO + 여름 + 야간 + W6 + H7 조합입니다. 장면 번호도 0027 또는 0012~0018 구간에 집중됩니다. AI가 "전형적 경계 감시"로 인식하는 조건이 명확히 드러납니다.

EO W6 H7 B5 (0.664) 🔥

EO W6 H7 A3A2A1 (0.660)

EO W6 H7 B1 (0.659)

EO W6 H7 A3 (0.658)

EO W6 H3 E2 0012 (0.637)

EO W6 H5 B1 0018 (0.621)

🔴 저밀도 — AI가 가장 어려워하는 에지케이스들

저밀도 상위를 IR 이미지, 주간(DT), 겨울(WI), 근거리(H1)가 장악합니다. 고밀도와 정반대 조건입니다.

EO DT H1 A1A5 (0.086) 🔴

IR NT H1 C1A1 (0.087)

EO NT H1 A4E4 0002 (0.087)

EO WI DT B3A3 (0.087)

IR NT W7 H1 A1A5 (0.089)

EO WI DT C3A3B3 (0.090)

🔄 가장 다른 두 장면 — EO vs IR의 극단

EO 야간 — 기준 (피봇)

밀도 0.664 (최고)

IR 야간 — 가장 먼 이미지

밀도 0.100 (극단)

⬆️ 같은 "야간 침투" 장면이지만, EO(가시광선)와 IR(열화상)은 AI의 눈에 완전히 다른 세계입니다.

💡 핵심 발견 — EO와 IR은 AI에게 다른 언어: 가장 가까운 이미지 쌍은 모두 EO 야간 W6 H7 조건의 서로 다른 침투 코드 조합입니다. 가장 먼 이미지 쌍은 EO 야간(고밀도) vs IR 야간/주간(저밀도) 쌍입니다. 즉, 침투 대상의 종류나 수보다 센서 모달리티(EO vs IR)가 임베딩 공간에서의 거리를 더 크게 결정합니다. 실전 드론 방어 AI는 EO와 IR을 별도 모달리티로 처리하는 멀티모달 아키텍처가 필요합니다.

페블러스 3대 방산 합성데이터셋 — 진화의 궤적

군 경계 작전 환경 합성데이터(#124)를 시작으로, 페블러스의 방산 합성데이터는 점점 더 다양하고 정교해졌습니다. 세 데이터셋을 비교하면 페블러스 합성데이터 기술의 발전 방향이 보입니다.

124

군 경계 작전 환경 합성데이터 (2025.02)

NIA 과제 · 149,447장 · 88GB · 88점 · EO+IR 이중센서 · 해병대 경계감시

7차원 조건 완전 인코딩 파일명 · 가변 해상도 · L2까지만 진단

224

PBLS_Military (2026.03)

자체 구축 · 3,171장 · 10개 클래스 · 68점 · 지상 장비 10종 · L1~L3 진단

완벽 클래스 균형 · 중복 이미지 문제 · DataDiet 권장

226

PBLS_Drone (2026.03)

자체 구축 · 28,801장 · 52GB · 87점 · 드론 인식 · L1~L3 진단

FHD 고정 해상도 · 12종 드론 · DataBulkup 권장

세 데이터셋 수치 비교

항목	#124 경계감시	#224 Military	#226 Drone
DataClinic 점수	88점	68점	87점
이미지 수	149,447장	3,171장	28,801장
데이터 크기	88GB	—	52GB
클래스 수	단일	10개	단일
L2 평균 밀도	0.211	—	0.300
개선 권장	BulkUp	Diet	BulkUp

개선 제안 — 88점, 그 다음 단계

💪

데이터 벌크업 — IR 영역 집중 보강

DataClinic의 핵심 권장 방향입니다. 현재 IR 이미지들이 임베딩 공간에서 저밀도 영역에 집중돼 과소 대표되고 있습니다. IR 조건의 다양한 침투 시나리오 이미지를 추가하면 AI 모델의 열화상 인식 성능이 크게 향상될 수 있습니다.

📐

해상도 정규화 — 정합성 개선

960×540과 1920×1080의 혼재가 정합성 "나쁨" 등급의 원인입니다. 신규 이미지 생성 시 단일 해상도(1920×1080)로 통일하거나, 기존 이미지를 업스케일링하여 일관성을 확보하는 것이 권장됩니다.

⚠️ L3 진단 미수행 — 심층 분석 기회 존재

본 리포트는 L2까지만 진단됐습니다. PBLS_Drone·Military와 달리 도메인 특화 렌즈(L3) 분석이 없어 침투 유형별 분포 차이나 EO/IR 클러스터 분리도를 더 정밀하게 파악하지 못했습니다. L3 진단을 추가 수행한다면 DataBulkup 대상 영역을 훨씬 정확히 특정할 수 있을 것입니다.

멀티모달 AI 아키텍처 권장: EO와 IR이 임베딩 공간에서 완전히 다른 위치에 있다는 분석 결과는, 단순 CNN 분류기보다 멀티모달 Fusion 아키텍처(EO와 IR을 별도 인코더로 처리 후 융합)가 이 데이터셋에 더 적합함을 시사합니다. 또한 도메인 적응(Domain Adaptation) 기법을 통해 합성 이미지로 훈련된 모델이 실제 감시 카메라 영상에서도 작동하도록 파인튜닝이 필요합니다.

결론 — 페블러스 방산 합성데이터의 출발점

군 경계 작전 환경 합성데이터는 단순한 하나의 데이터셋이 아닙니다. 이것은 페블러스가 국방 AI 합성데이터라는 새로운 영역에 첫발을 내딛은 작품입니다. NIA 과제를 통해 공공 인프라로 구축된 이 데이터셋은, 이후 PBLS_Military와 PBLS_Drone으로 이어지는 페블러스 방산 합성데이터 시리즈의 기초가 됐습니다.

88점이라는 높은 점수는 EO/IR 이중 센서, 7차원 조건 완전 인코딩, 149,447장의 대규모 구성에서 비롯됩니다. 가변 해상도로 인한 정합성 문제와 IR 저밀도 영역 보강 필요성은 다음 버전에서 개선될 과제입니다.

밤바다를 건너는 그림자를 AI가 포착하려면, 다양한 조건의 훈련 데이터가 필요합니다. 이 데이터셋은 그 첫 번째 시도이며, 페블러스의 방산 합성데이터 여정은 지금도 계속되고 있습니다.

핵심 요약 카드

88점

DataClinic 종합

149,447장

합성 이미지

88GB

데이터셋 크기

EO+IR

이중 센서

원본 DataClinic 리포트: dataclinic.ai/en/report/124 · 상업적 이용 불가 · NIA 과제 데이터