Executive Summary

휴머노이드 로봇은 지금 역사상 가장 빠르게 늘어나는 중이다. 2025년 한 해에 약 1만 3,000대가 출하됐고, 2030년이면 25만 대를 넘어선다는 전망이 나온다. 그런데 역설이 있다. 로봇의 대수는 폭증하는데, 로봇의 경험은 그 속도로 쌓이지 않는다. 한 팀이 수개월에 걸쳐 모은 조작 데이터가 다른 로봇, 다른 조직, 6개월 뒤의 자기 자신에게조차 잘 재사용되지 않는다. 이 글이 들여다보는 진짜 병목은 더 큰 모델도, 더 좋은 액추에이터도 아니다. 표준이 없어 누적되지 않는 데이터다.

로봇 데이터가 텍스트나 이미지와 근본적으로 다른 것을 요구하기 때문이다. 로봇 데이터는 단순한 센서 로그가 아니라 몸체와 동작과 장면과 실행 흔적과 결과가 맺는 관계다. 카메라와 IMU의 타이밍이 40밀리초만 어긋나도 위치 추정이 10미터까지 벌어진다는 측정이 그 취약함을 단적으로 보여준다. 좌표계나 캘리브레이션이 기록되지 않으면 같은 동작도 다른 로봇에게는 전혀 다른 신호가 된다. 게다가 이렇게 사람이 직접 만들어야 하는 실세계 로봇 데이터는 시뮬레이션으로 찍어낸 데이터보다 수십 배 비싸서, 한 번 모은 데이터를 재사용하지 못하면 그 비용이 고스란히 되풀이된다. 이 관계와 물리적 맥락이 보존되고 들여다볼 수 있어야 비로소 데이터는 시간과 기종을 건너 재사용 가능한 경험이 된다.

2026년 6월 공개된 ISO/WD 26264-1 초안은 바로 이 조건을 국제표준으로 명문화하려는 첫 시도다. 이 표준은 갑자기 등장하지 않았다. 텍스트와 이미지 데이터의 품질을 측정 가능하게 만든 ISO 5259 시리즈의 자연스러운 연장선에 있다. 초안은 데이터를 생애주기·출처·품질·버전·추적성을 다루는 수평 인프라와, 조작·보행·상호작용 같은 능력별 모듈로 나눈다. 데이터 품질을 측정하고 진단할 수 있게 만드는 일이, 이제 Physical AI의 전제 조건이 되고 있다.

~10만 배

데이터 축적 격차

언어 모델 ≈10만 년 vs 최대 로봇 데이터셋 ≈1년 상당

40ms → 10m

타이밍이 낳는 위치 오차

카메라–IMU 동기화가 깨질 때의 실패 모드

82배

실세계 데이터 수집 비용

실세계 $180/hr vs 시뮬레이션 $2.20/hr

~15배

출하 성장(2025→2030)

~1.3만 대에서 25만 대 이상으로

1

로봇은 다섯 배 늘었는데, 경험은 왜 제자리인가

휴머노이드 로봇의 숫자는 지금 거의 매년 자릿수가 바뀐다. Omdia 집계로 2024년 출하량은 2,600대 안팎이었지만, 2025년에는 약 1만 3,000대로 다섯 배 넘게 뛰었다. TrendForce는 2026년에 5만 대를 넘길 것으로 보고, Goldman Sachs는 2030년이면 25만 대 이상이 출하되는 기준 시나리오를 제시한다. 이 폭증의 85~90%는 중국에서 나온다. AgiBot, Unitree, Leju 같은 기업이 한 해 수천 대 단위로 로봇을 찍어내는 동안, Tesla와 Figure AI는 공장 현장에 시범 배치를 늘려가고 있다.

곡선으로 그려 보면 그 가파름이 한눈에 들어온다. 2026년과 2030년 수치는 전망값이다.

휴머노이드 로봇 연간 출하량 추이(대). 2026·2030년은 전망. 출처: Omdia(2024~2025 실적), TrendForce(2026 전망), Goldman Sachs Research(2030 전망).

대수의 곡선만 보면 데이터도 같은 속도로 불어날 것 같다. 로봇이 늘면 로봇이 만드는 데이터도 늘 테니까. 그런데 늘어난 로봇이 늘어난 경험으로 이어지지 않는다. 데이터가 쌓이는 것과 그 데이터가 누적되어 재사용되는 것은 전혀 다른 문제이기 때문이다. UC 버클리의 켄 골드버그(Ken Goldberg)는 이 격차를 자릿수로 짚는다. 오늘날 대형 언어 모델이 학습한 인터넷 규모의 텍스트는 인간 경험으로 환산하면 약 10만 년 분량인데, 역대 최대 로봇 텔레오퍼레이션 데이터셋조차 약 1년 분량에 그친다. 로봇 학습이 언어보다 더 복잡한데도, 손에 쥔 데이터는 약 10만 배 적다.

"우리는 로봇을 훈련시킬 만큼의 데이터를 전혀 갖고 있지 못합니다. 10만 년이라는 건 언어 모델을 훈련시킬 텍스트의 양일 뿐이고, 로봇 훈련은 그보다 훨씬 복잡하니 더 많은 데이터가 필요할 겁니다." — 켄 골드버그, UC 버클리 (Science Robotics, 2025)

데이터가 쌓이지 않는 세 갈래

왜 격차가 줄지 않을까. 홍콩중문대 AIRS의 2025년 엠바디드 AI 데이터 엔지니어링 서베이는 그 원인을 세 가지 병목으로 정리한다. 첫째는 높은 수집 비용이다. 로봇 데이터는 사람이 직접 로봇을 조종해 한 동작씩 만들어야 해서, 텍스트처럼 웹에서 긁어모을 수 없다. 둘째는 데이터 사일로다. 조직마다 로봇마다 제각각의 포맷으로 데이터를 쌓아 서로 건너 쓰지 못한다. 셋째는 평가 공백(evaluation void)이다. 어떤 데이터가 좋은 데이터인지 가늠할 공통의 척도가 없다.

세 병목은 따로 노는 항목이 아니라 한 줄기에서 갈라진다. 비싸게 모은 데이터가 표준이 없어 사일로에 갇히고, 그 품질을 잴 척도가 없으니 다른 팀이 신뢰하고 가져다 쓸 수 없다. 그래서 다음 팀은 처음부터 다시 모은다. 로봇이 15배 늘어도 경험이 15배로 누적되지 않는 이유가 여기에 있다. 대수의 증가가 곧 데이터 자산의 증가는 아니다. 표준과 진본성이 없으면, 규모는 그저 사일로의 규모일 뿐이다.

2

데이터가 '관계'를 잃을 때

로봇 데이터는 센서 값의 나열이 아니다. arXiv에 공개된 논문 "Data Standards for Humanoid Robotics"가 강조하는 핵심은 로봇 데이터가 본질적으로 임베디드 구조(embodied structure)라는 점이다. 하나의 조작 에피소드 안에는 로봇의 몸체(body), 수행한 동작(action), 처한 장면(scene), 그 동작이 남긴 실행 흔적(execution trace), 그리고 결과(outcome)가 하나의 관계로 묶여 있다. 팔이 컵을 집는 0.5초짜리 데이터는 그 로봇의 관절 구조, 카메라가 본 컵의 위치, 그 순간의 힘과 토크, 성공인지 실패인지의 판정이 한 좌표계 안에서 정합할 때에만 의미를 가진다.

조작 에피소드 몸체 body 동작 action 결과 outcome 실행 흔적 trace 장면 scene
▲ 하나의 조작 에피소드를 구성하는 5개 임베디드 요소와 그 관계. 포맷을 건너도 이 관계가 보존될 때 비로소 데이터는 재사용 가능한 경험이 된다. 페블러스 원본 도식 (Fig. 1 재해석) | Source: arXiv:2606.19769

문제는 이 관계가 포맷을 건너면 깨진다는 데 있다. 거대한 데이터셋이 여럿 공개됐지만, 저마다 다른 포맷으로 이 관계를 표현한다. Google의 Open X-Embodiment는 RLDS를 쓰고, Hugging Face의 LeRobot은 또 다른 구조를 쓰며, AgiBot World는 HDF5 기반이다. 같은 "팔이 컵을 집는다"는 사건도, 좌표계의 원점이 어디인지·시간을 어떻게 찍었는지·단위가 무엇인지가 데이터셋마다 다르게 적혀 있다. 그래서 데이터가 아무리 커도 서로 건너 보존되지 못하고, 재사용이 막힌다.

대표적인 로봇 학습 데이터셋을 규모와 포맷으로 나란히 놓아 보자. 트라젝토리 수만 보면 모두 거대하지만, 포맷 열을 함께 읽으면 이들이 서로 직접 호환되지 않는다는 사실이 드러난다.

데이터셋 발표 트라젝토리 규모/구성 포맷
RT-1 (Google) 2022 13만 13개 로봇, 700+ 태스크 TFDS
Open X-Embodiment 2023 100만+ 22개 로봇유형, 34개 랩, 60개 데이터셋 통합 RLDS
DROID 2024 7.6만 350시간, Franka 단일, 18개 랩 RLDS
AgiBot World 2025 100만+ 2,976시간, 87개 스킬, 106개 장면 HDF5
ARIO 2024 300만+ (추정) 258개 시나리오, 5감각 멀티모달, 프리프린트 ARIO

ARIO의 트라젝토리 수는 동료 심사 전 프리프린트(arXiv:2408.10899) 기준이라 "추정"으로 표기했다.

Open X-Embodiment는 이 비호환을 가장 정직하게 보여준 사례다. 흩어진 60개 데이터셋을 RLDS라는 하나의 포맷으로 통일하려고 34개 연구실이 협력했다. 그렇게 100만 개가 넘는 트라젝토리를 한자리에 모았지만, 22개 엠바디먼트 사이의 직접 호환은 끝내 풀지 못했다. 본 리서치가 공개 수치를 바탕으로 추산하면, 34개 랩이 각자의 데이터를 공통 포맷으로 변환하는 작업만으로도 27만~54만 달러 규모의 엔지니어링 비용이 들었다. 표준이 없을 때 사일로를 사후에 봉합하는 값이 그만큼 비싸다.

데이터셋이 거대하다는 사실과 그 데이터가 재사용된다는 사실은 별개다. 관계가 포맷을 건너 보존되지 않으면, 100만 개의 트라젝토리도 100만 개의 고립된 기록일 뿐이다. 표준이 다루려는 것은 데이터의 양이 아니라, 양을 경험으로 바꾸는 관계의 보존이다.

3

물리적 정합성이 투명해야 하는 이유

관계의 보존을 가장 날카롭게 시험하는 차원이 물리적 정합성(physical coherence)이다. 로봇 데이터에는 텍스트나 이미지에는 없는 요구가 하나 더 있다. 시간(timing), 좌표계(coordinate frames), 캘리브레이션(calibration), 기구학(kinematics), 단위(units), 동기화(synchronization)가 서로 어긋나지 않아야 한다는 것이다. 그리고 이 여섯 가지가 데이터 안에서 들여다볼 수 있어야(inspectable) 한다. 무엇을 기준으로 시간을 찍었고, 좌표의 원점은 어디이며, 센서를 언제 어떻게 보정했는지가 기록으로 남아 있어야 다른 시스템이 그 데이터를 안전하게 다시 쓸 수 있다.

카메라 IMU t = 0 t = +40ms 40ms → 위치 오차 최대 10m + 회전 3° 동기화 가정이 기록되지 않으면 같은 데이터도 다른 시스템에서 전혀 다른 의미가 된다
▲ 카메라–IMU 타이밍 40ms 오프셋이 위치 추정 최대 10m 오차로 번지는 연쇄. 페블러스 원본 도식 (Fig. 2 재해석) | Source: arXiv:2606.19769

정합성이 깨지면 어떤 일이 벌어질까. 추상적인 우려가 아니라 측정된 실패다. "Data Standards for Humanoid Robotics" 논문은 작은 타이밍 오차가 얼마나 큰 물리적 오류로 번지는지를 수치로 보고한다. 카메라와 IMU의 타이밍이 40밀리초 어긋나면 위치 추정이 최대 10미터, 회전이 3도까지 벌어진다. 기계 사이의 인식 타이밍이 849밀리초 밀리면, 초속 6.30미터로 다가오던 물체의 속도가 2.34미터로 잘못 추정된다. 4미터에 가까운 오차다.

논문이 제시한 정량적 실패 모드를 한자리에 모으면 이렇다. 하나같이 동기화 가정이 기록되지 않았을 때 데이터 재사용이 왜 위험해지는지를 말한다.

오류 유형 크기 결과
카메라–IMU 타이밍 오프셋 40ms 위치 오차 10m + 회전 오차 3°
인터머신 인식 타이밍 849ms 속도 추정 6.30 → 2.34 m/s (3.96 m/s 오차)
카메라–LiDAR 동기화 34ms 허용 IoU 0.5 임계값 기준 (40 m/s에서)
속도–분리 모니터링 100ms 불확도 2 m/s 접근속도에서 0.2m 이동 거리
오디오–비디오 동기화 +45ms ~ −125ms 인간 감지 임계값

출처: arXiv:2606.19769 직접 인용. 표 안 수치는 논문이 보고한 값이다.

이 숫자들이 말하는 바는 분명하다. 좌표계와 캘리브레이션과 동기화가 기록되지 않으면, 같은 동작 데이터도 다른 로봇에게는 전혀 다른 의미가 된다. 데이터의 비정합이 곧 모델 내부 표현의 단절로 이어진다. 그래서 물리적 정합성은 로봇 데이터 품질의 척추에 해당한다. 데이터를 재사용 가능하게 만드는 일은, 결국 이 여섯 가지가 투명하게 남아 있도록 만드는 일이다.

전이가 0%까지 떨어지는 자리

정합성의 부재는 크로스 엠바디먼트(cross-embodiment) 전이에서 가장 극적으로 드러난다. 한 로봇으로 학습한 diffusion policy를 구조가 다른 새 로봇에 그대로 배포하면, 성공률이 0%까지 떨어진다는 실험 결과가 있다. 같은 정책이 원래 로봇에서는 81%의 성공률을 보였는데도 그렇다. 반대로 Open X-Embodiment처럼 여러 로봇의 데이터를 호환 가능한 형태로 묶어 학습하면, 분포 밖 태스크에서 성공률이 50~200% 향상된다. 차이를 만든 것은 데이터의 양이 아니라, 기종을 건너 통하는 호환 가능한 표현이었다.

4

두 층으로 짓고, ISO 5259에서 잇는다

ISO/WD 26264-1은 이 문제를 두 층위로 나눠 접근한다. 정식 명칭은 "Humanoid robot datasets — Part 1: General requirements"이고, ISO/TC 299(로보틱스 기술위원회)의 작업반 WG 16에서 개발 중이다. 초안은 로봇 데이터를 수평 인프라와 능력별 모듈로 구분한다. 수평 인프라는 모든 로봇 데이터에 공통으로 깔리는 토대로, 생애주기·메타데이터·출처(provenance)·품질·버전·추적성을 다룬다. 그 위에 조작·보행·인간-로봇 상호작용(HRI)·인지 같은 능력별 모듈이 얹힌다.

두 층위가 어떻게 맞물리는지 그림으로 보면 핵심이 분명해진다. 어떤 능력을 다루든, 그 밑에는 동일한 데이터 품질 인프라가 깔린다.

능력별 모듈 (Capability Modules)

조작
Manipulation
보행
Locomotion
상호작용
HRI
인지
Cognition
↓ 공통 토대 ↓

수평 인프라 (Horizontal Infrastructure)

생애주기
메타데이터
출처(provenance)
품질
버전
추적성

ISO/WD 26264-1이 제안하는 두 층위 구조. 수평 인프라는 모든 능력 모듈이 공유하는 데이터 품질 토대다.

텍스트 품질 표준이 로봇으로 건너오다

이 수평 인프라라는 발상은 처음 나온 것이 아니다. 텍스트와 이미지를 비롯한 데이터의 품질을 측정하고 관리하는 표준이 이미 있다. ISO/IEC 5259 시리즈가 그것이다. 5259는 데이터의 품질 특성을 정의하고, 그것을 어떻게 측정하며, 어떻게 거버넌스 체계 안에서 관리하는지를 다룬다. ISO/WD 26264-1은 이 개념을 로봇 데이터로 확장한다. 품질 특성·측정·거버넌스라는 5259의 골격을 그대로 잇되, 로봇 고유의 두 차원을 새로 더한다. 앞 절에서 본 물리적 정합성, 그리고 임베디드 관계의 보존이다.

ISO/IEC 5259 텍스트·이미지 데이터 품질 • 품질 특성 정의 • 측정 방법 • 거버넌스 체계 확장 ISO/WD 26264-1 로봇 데이터셋 • ISO 5259 골격 계승 ✦ 물리적 정합성 (NEW) ✦ 임베디드 관계 보존 (NEW) ISO/TC 299 WG 16 개발 중
▲ ISO 5259 데이터 품질 표준이 로봇 데이터로 확장되는 계보. 물리적 정합성과 임베디드 관계 보존이라는 두 차원이 새로 더해진다. 페블러스 원본 도식 (Fig. 3) | Source: arXiv:2606.19769

위치를 이렇게 잡으면 표준의 성격이 분명해진다. 26264는 로봇만을 위한 별세계의 규칙이 아니라, 텍스트에서 시작된 데이터 품질 표준의 자연스러운 다음 장이다. 데이터가 무엇이든 — 문장이든, 이미지든, 로봇의 동작이든 — 그것이 재사용 가능한 자산이 되려면 출처와 품질과 버전이 측정 가능하게 기록되어야 한다는 원칙은 같다. 로봇 데이터는 거기에 "물리 세계와의 정합"이라는 가장 까다로운 시험을 하나 더 부과할 뿐이다.

5

초안일 뿐이지만, 갈림길은 이미 열렸다

한 가지는 분명히 해 둘 필요가 있다. 지금 공개된 것은 WD, 곧 작업 초안(Working Draft)이다. ISO 표준이 거치는 여러 단계 중 가장 이른 자리다. WD에서 출발해 위원회 초안(CD), 국제표준 초안(DIS)을 지나 정식 국제표준(IS)에 이르기까지는 보통 수년이 걸린다. 그러니 ISO/WD 26264-1은 오늘 당장 따라야 할 규칙이 아니다. 강제력도 없다. 그러나 표준이 어디로 향하는지를 미리 읽을 수 있는 지도이기는 하다.

표준이 거쳐갈 단계를 단순화하면 다음 타임라인이 된다. 각 단계 사이에 놓인 수년의 공백이, 업계가 선택을 내려야 하는 시간이다.

WD

작업 초안

2026 · 현재 위치

CD

위원회 초안

위원회 회람·합의

DIS

국제표준 초안

회원국 투표

IS

국제표준 발효

수년 후 전망

그 공백 동안 업계는 갈림길에 선다. 한쪽 길은 데이터 해자(moat)다. 거대 플레이어는 자체 포맷으로 방대한 데이터를 쌓아 단기 우위를 누릴 수 있다. 중국의 AgiBot 생태계, 미국의 Tesla와 Figure와 NVIDIA가 각자의 데이터를 축적하는 흐름이 여기에 가깝다. 다른 쪽 길은 상호운용 생태계다. Open X-Embodiment 컨소시엄이나 Hugging Face의 LeRobot처럼, 공통 포맷으로 데이터를 모아 함께 쓰는 방향이다.

어느 쪽이 길게 유리할지는 비용 구조가 시사한다. 실세계 멀티모달 데이터를 한 시간 모으는 데 약 180달러가 드는 반면, 같은 데이터를 시뮬레이션으로 만들면 약 2.2달러면 된다. 82배 차이다. 실세계 데이터가 이만큼 비싸다면, 한 번 잘 모은 데이터를 시간과 기종을 건너 재사용하는 능력이 곧 ROI를 좌우한다. 표준 적합 형태로 데이터를 쌓아 둔 조직은 복리처럼 경험을 누적하고, 자체 포맷에 갇힌 데이터는 매번 일회용으로 소모된다.

표준은 아직 초안이지만, 방향은 이미 정해졌다. 데이터를 측정 가능한 품질로 기록하고, 관계와 물리적 맥락을 보존하는 쪽이 미래 적합성을 선점한다. WD에서 IS로 가는 수년의 공백은 뒤처질 시간이 아니라, 먼저 정렬할 시간이다.

Editor's Note

ISO/WD 26264-1이 수평 인프라로 묶은 것 — 생애주기·출처·품질·버전·추적성 — 은 페블러스가 텍스트와 이미지 데이터를 진단해 온 DataClinic의 축과 같은 골격이다. 데이터 품질을 측정 가능한 지표로 만들고, 관계와 맥락의 보존을 모델 성능의 조건으로 보는 관점에서, 이 보고서는 텍스트에서 시작된 AI-Ready Data의 문제의식이 Physical AI로 건너가는 장면을 읽고 있다.

R

참고문헌

학술

표준·정책·통계

  • 7.ISO/TC 299/WG 16. (2026). "ISO/WD 26264-1 Humanoid robot datasets — Part 1: General requirements." (Working Draft)
  • 8.ISO/IEC. "ISO/IEC 5259 series — Data quality for analytics and machine learning." (계보 표준)
  • 9.Goldman Sachs Research. (2025). "Humanoid Robot: The AI Accelerant." (2030년 25만 대 기준 시나리오)
  • 10.Omdia / Bloomberg. (2026, January 8). "Chinese Firms Dominated Global Humanoid Robot Shipments in 2025." (2025년 ~1.3만 대)
  • 11.ARIA (Advanced Research + Invention Agency). (2025). "Position Paper: Revolutionising the Robotics Ecosystem Through Enhanced Interoperability."
  • 12.MarketsandMarkets. (2025). "Humanoid Robot Market — Global Forecast 2025–2030." (CAGR 39.2%)

업계·보도

※ 미래 식별자(arXiv:2606.x) 논문의 수치는 논문이 보고한 값으로 귀속한다. 출하량(Omdia ~1.3만 대 vs Counterpoint ~1.6만 대), 포맷 변환 비용($27만~54만, 본 리서치 추산) 등 일부 수치는 출처·추정 단서를 함께 밝혀둔다.