피지컬 AI의 승부처는 칩이 아니라 '행동 데이터'다

(주)페블러스 데이터 커뮤니케이션팀

Executive Summary

2026년 6월 19일 공개된 'K-피지컬 AI 풀스택 전략'에서 가장 중요한 신호는, 정부가 피지컬 AI 경쟁의 병목을 칩도 모델도 아닌 '행동 데이터'로 못 박았다는 점이다. 1기에서 도출한 40개 과제를 3대 핵심 프로젝트로 압축하면서, 그 한가운데에 전국 5개 권역의 행동 데이터 트레이닝센터를 놓았다. 칩 확보나 파운데이션 모델 개발이 아니라, 로봇이 한국 환경에서 직접 움직인 궤적을 국내에서 생산하는 일이 1순위로 지목된 것이다.

이것은 페블러스가 줄곧 말해 온 명제, 즉 "모델은 빌릴 수 있어도 데이터는 빌릴 수 없다"의 국가 버전이다. GPU와 모델 가중치는 수입할 수 있지만, 한국의 공장 라인·도로·시설에서 로봇이 수행한 행동은 그 환경에서만 나온다. 한 환경에서 모은 시연이 다른 로봇 몸체·다른 환경으로 잘 옮겨가지 않는다는 것은 로봇 학습 연구가 반복해서 확인한 사실이다.

그래서 진짜 전선은 '얼마나 모으느냐'가 아니라 '학습 가능한 품질로 보증하느냐'에 그어진다. 한국은 이미 한 번 경험했다. 1조 4천억 원을 투입한 '데이터 댐'은 품질 검증이 형식에 그쳐 "값비싼 무용지물"이라는 비판을 받았다. 행동 데이터는 결과가 더 가혹하다. 잘못 학습된 행동은 물리 세계에서 사고로 이어지기 때문이다. 이 글은 정부의 선언이 왜 데이터 문제인지, 그리고 그다음 질문이 왜 품질인지를 짚는다.

세계 선두와의 격차, 그리고 한국이 쥔 패는 네 개의 숫자로 압축된다.

100억 마일

테슬라 FSD 누적 주행. 어떤 국가도 단독 복제하기 어려운 행동 데이터 규모

100만 궤적

오픈·연구 진영 최대 로봇 데이터셋 규모 (AgiBotWorld 2,976시간)

1,220대

한국 제조 로봇 밀도(노동자 1만 명당). 세계 1위, 글로벌 평균의 7.5배

45%

정밀 삽입 과제의 시뮬레이션 학습 성공률. 합성만으로 못 메우는 현실 간극

1

정부가 그은 새 전선 — 칩·모델이 아니라 '행동 데이터'

2026년 6월 19일, 과학기술정보통신부는 'K-피지컬 AI 풀스택 전략'과 함께 '피지컬 AI 얼라이언스 2기'를 출범시켰다(ZDNet 코리아, 2026.06.19). 1기 활동에서 도출한 40개 과제를 3대 핵심 프로젝트로 압축했는데, 주목할 대목은 그 한가운데에 놓인 것이 칩 공급망도, 한국형 파운데이션 모델도 아니라는 점이다. 정부가 가장 먼저 짓겠다고 한 것은 행동 데이터 트레이닝센터였다.

트레이닝센터는 전국 5개 권역에 거점을 두고, 두 갈래로 데이터를 생산한다. 한쪽은 현실 공간에서 사람이 로봇을 원격으로 조종해 시연을 모으는 텔레오퍼레이션(원격조작)이고, 다른 한쪽은 가상 공간에 현실을 복제한 디지털 트윈에서 합성 행동 데이터를 양산하는 방식이다. 실데이터의 충실도와 합성데이터의 규모를 함께 가져가겠다는 설계다. 거버넌스에는 8개 부처와 약 10개 협회가 참여하고, 15개 액션그룹이 분야별 실행을 맡는다. 피지컬 AI 관련 예산은 4,022억 원 규모로 편성됐고, 데이터 트레이닝센터의 구체화와 2027년 예산 반영이 다음 단계로 예고됐다.

선언의 무게는 '무엇을 먼저 짓느냐'에 있다. 피지컬 AI를 구성하는 요소는 크게 칩(연산), 모델(지능), 데이터(경험) 셋으로 나눌 수 있다. 앞의 둘은 글로벌 시장에서 사 올 수 있는 표준 상품에 가깝지만, 데이터만은 그렇지 않다. 정부가 트레이닝센터부터 짓겠다고 한 것은, 한국이 자력으로 확보해야 할 자산이 바로 데이터라는 판단을 공식화한 셈이다.

▲ 피지컬 AI 3요소 구조 (페블러스 원본 도식) — K-피지컬 AI 풀스택 전략 (2026.06.19) 기반 해석

핵심: 정부는 피지컬 AI의 병목을 '데이터'로 명시했다. 칩과 모델은 수입의 영역에 두고, 행동 데이터의 국내 생산을 국가 과제의 1순위로 끌어올렸다. 이 전략의 성패는 결국 "그 데이터를 어떻게 쌓고, 어떻게 보증하느냐"에 달린다.

2

왜 행동 데이터는 빌릴 수 없는가

'행동 데이터(behavior data)'는 로봇이 특정 과제를 수행할 때의 관측-행동 궤적이다. 카메라·힘 센서 같은 입력이 들어오면 관절과 그리퍼가 어떻게 움직였는지를 시계열로 기록한 것으로, 정적인 텍스트나 이미지와 달리 시간 정합성, 물리적 인과, 그리고 성공·실패라는 결과를 본질로 한다. 이 데이터로 학습하는 모델을 흔히 VLA(Vision-Language-Action) 정책이라 부른다.

문제는 이 데이터가 본질적으로 잘 옮겨가지 않는다는 데 있다. 로봇 모방학습을 다룬 연구들은 성능을 끌어올리는 것이 시연의 '횟수'보다 환경과 대상의 '다양성'이라는 점을 반복해서 보여 왔다(Data Scaling Laws in Imitation Learning, 2024). 같은 공장 같은 작업대에서 시연을 아무리 더 모아도 일정 임계점을 지나면 효과가 체감하고, 천장을 높이는 것은 새로운 환경·새로운 물체·새로운 작업이다.

2.1두 개의 간극: embodiment gap과 domain gap

비이전성은 두 갈래로 나타난다. 하나는 embodiment gap이다. 어떤 로봇 팔에서 모은 행동은 관절 구조·구동 특성·그리퍼가 다른 로봇으로 그대로 옮겨가지 않는다. 다른 하나는 domain gap이다. 조명·바닥재·물체 배치·작업 순서가 다른 환경에서는 학습된 정책이 쉽게 무너진다. 미국이나 중국에서 모은 100만 궤적을 들여와도, 한국 공장 라인의 부품·치공구·작업 패턴에서의 성능을 보장하지 못하는 이유가 여기 있다.

이 간극을 줄이려는 대표적 시도가 Open X-Embodiment / RT-X 프로젝트다. 34개 연구소가 서로 다른 22종 로봇의 데이터를 한데 묶어 100만 궤적 규모의 통합 데이터셋을 만들었고, 여러 몸체에서 동시에 학습할 때 일부 전이가 가능함을 보였다(Open X-Embodiment). 그러나 이런 통합조차 '환경의 다양성'을 대체하지는 못한다. 결국 한국 환경의 행동 궤적은 한국에서 직접 쌓는 수밖에 없다는 결론으로 돌아온다.

▲ 행동 데이터 비이전성 개념도 (페블러스 원본 도식) — "데이터는 빌릴 수 없다"의 기술적 근거

모델 가중치와 GPU는 표준 상품이지만, 행동 데이터는 그것이 생성된 몸체와 환경에 강하게 묶여 있다. "데이터는 빌릴 수 없다"는 말은 비유가 아니라, embodiment gap과 domain gap이라는 기술적 사실에 대한 요약이다.

3

세계는 어떻게 행동 데이터를 쌓고 있나

데이터를 직접 쌓아야 한다면, 다음 질문은 "세계 선두는 얼마나 쌓았는가"다. 결론부터 말하면 순수 규모의 격차는 압도적이다. 테슬라는 자율주행 차량 fleet에서 행동 데이터를 누적 100억 마일 넘게 모았다(2026년 5월 기준, 하루 수천만 마일 추가). 이는 도로라는 단일 환경에 한정된 데이터지만, 어떤 국가도 단독으로 복제하기 어려운 규모다. 로봇 조작 영역으로 좁혀도 격차는 작지 않다. 아래 표는 공개·연구용 행동 데이터셋의 규모를 비교한 것이다.

데이터셋 / 주체	규모	특징
Tesla FSD	누적 100억 마일	자율주행 fleet, 단일 환경(도로) 대규모 수집
Open X-Embodiment	100만+ 궤적	34개 연구소·22종 로봇 통합 (크로스-embodiment)
AgiBotWorld (中)	100만+ 궤적 / 2,976시간	전용 시설·로봇 다수 동시 수집 '데이터 팩토리'
Physical Intelligence π0	약 10,000시간	범용 조작 파운데이션 모델용 시연
DROID	76,000 궤적 / 350시간	13개 기관 in-the-wild 수집(12개월)

규모를 만드는 방식도 진화하고 있다. 중국은 4,000㎡ 전용 시설에 로봇 수백 대를 세워 동시에 시연을 찍어내는 '데이터 팩토리' 모델을 운영한다. 텔레오퍼레이션 인건비가 상대적으로 낮다는 점도 양산을 뒷받침한다. 미국에서도 텔레오퍼레이션 시간당 단가는 빠르게 떨어지는 추세인데, 그만큼 '많이 모으는 경쟁'이 가속되고 있다는 뜻이기도 하다.

텔레오퍼레이션 단가 추이 (시간당, 미국 기준)	단가
2024년 초	약 $340
2025년	약 $136
2026년 3월	약 $118

2년여 만에 단가가 3분의 1 수준으로 떨어졌다는 것은, 행동 데이터를 '많이 모으는' 일 자체가 점점 흔한 능력이 되어 간다는 신호다. 누구나 양을 쌓을 수 있게 되면 경쟁의 무게중심은 자연히 '무엇을, 얼마나 쓸 만하게 모았는가'로 옮겨간다. 그렇다면 한국은 이 흐름의 어디에 서 있을까.

▲ 경쟁 구조 변화 (페블러스 원본 도식) — 텔레오퍼레이션 단가 하락이 가져오는 전략적 함의

3.1한국의 위치: 출하 규모는 열세, 그러나 수집 토대는 1위

순수 규모로 보면 한국은 후발 주자다. 그러나 데이터를 '생산할 토대'라는 다른 축에서 보면 이야기가 달라진다. 한국 제조업의 로봇 밀도는 노동자 1만 명당 1,220대로 세계 1위이며, 글로벌 평균(162대)의 7.5배에 달한다(IFR World Robotics 2025). 현장에 로봇이 이미 가장 촘촘히 깔려 있다는 것은, 텔레오퍼레이션과 실증 거점을 세울 물리적 출발선이 세계 최고 수준이라는 뜻이다.

국가	제조 로봇 밀도 (대 / 노동자 1만 명)
한국	1,220
싱가포르	730
중국	470
독일	415
일본	397
글로벌 평균	162

다만 토대가 좋다고 데이터가 저절로 쌓이지는 않는다. 로봇 밀도는 '수집 잠재력'이지 '학습 가능한 데이터'가 아니다. 현장의 로봇을 데이터 생산 자산으로 전환하는 일, 그리고 거기서 나온 데이터를 쓸 수 있게 만드는 일은 다른 문제다. 바로 다음 섹션의 주제다.

4

'대량 생산'의 함정 — 품질을 어떻게 보증할 것인가

규모 경쟁을 따라잡는 가장 빠른 지렛대는 합성 데이터다. NVIDIA는 Isaac Sim 시뮬레이터로 11시간 만에 78만 궤적을 생성했는데, 이는 사람이 직접 시연하면 약 9개월(6,500시간)이 걸리는 분량이다. 실데이터와 합성데이터를 함께 학습시키자 휴머노이드 파운데이션 모델 GR00T의 성능이 약 40% 향상됐다(NVIDIA Isaac Sim / GR00T). 정부 구상이 텔레오퍼레이션과 디지털 트윈을 병행하는 것은 이 효율을 노린 합리적 설계다.

그러나 합성에는 넘기 어려운 벽이 있다. 시뮬레이션과 현실 사이의 물리 간극, 이른바 sim-to-real gap이다. 특히 부품을 끼워 맞추는 정밀 접촉 작업에서 이 간극이 두드러진다. 도메인 무작위화 같은 기법으로 일부 작업은 높은 성공률을 내지만, 삽입처럼 접촉이 핵심인 과제는 시뮬레이션만으로 학습했을 때 성공률이 45% 수준까지 떨어진다. 합성은 다양성과 규모를 싸게 보강하는 지렛대일 뿐, 실데이터를 완전히 대체하지 못한다.

시뮬레이션 학습 과제 / 기법	성공률
도메인 무작위화 (Domain Randomization)	약 93%
AutoMate (조립 자동화)	약 84.5%
TRANSIC (sim-to-real 전이) 평균	약 81%
정밀 삽입 (접촉 집중 과제)	약 45%

표를 위에서 아래로 읽으면 한 가지 경향이 드러난다. 환경을 무작위로 바꿔 학습시키는 일반 조작은 90%를 넘지만, 부품을 끼워 맞추는 접촉 집중 과제로 갈수록 성공률이 가파르게 내려앉는다. 작업이 물리적 접촉에 가까워질수록 시뮬레이션이 현실을 대신하기 어렵다는 뜻이고, 합성 데이터를 실데이터의 완전한 대체재가 아니라 보완재로만 둘 수밖에 없는 이유도 여기에 있다.

4.1'데이터 댐'이 남긴 교훈

한국은 국가 주도 대규모 데이터 구축을 이미 한 번 해봤다. 2020~2022년 '데이터 댐' 사업에 약 1조 4천억 원을 투입해 691종, 26억 건 규모의 AI 학습용 데이터를 쌓았다. 그러나 성과는 엇갈렸다. "단기 일자리 사업으로 전락했다", "끼워 맞추기식 검증에 그쳤다", "값비싼 무용지물"이라는 비판이 이어졌고, 실제 활용률도 기대에 못 미쳤다. LLM 시대로 무게중심이 옮겨가면서 관련 예산은 2022년 5,382억 원에서 2023년 2,188억 원으로 약 60% 급감했다.

교훈은 분명하다. 양적 수집은 품질을 보장하지 않는다. 데이터 댐의 실패는 데이터를 '얼마나' 모았느냐가 아니라 '쓸 수 있게' 검증했느냐에서 갈렸다. 그리고 행동 데이터는 텍스트보다 결과가 더 가혹하다. 잘못 라벨링된 텍스트는 틀린 답을 낳지만, 잘못 학습된 행동은 물리 세계에서 충돌·낙하·오작동이라는 사고로 이어진다.

4.2행동 데이터의 품질은 무엇으로 정의되는가

그렇다면 행동 데이터의 '품질'은 구체적으로 무엇인가. 텍스트 데이터 품질을 측정하던 기준을 물리·시계열 영역으로 확장하면 다섯 개의 축으로 정리된다.

커버리지·다양성: 환경·물체·태스크의 분포가 충분히 넓은가. 한 환경에 쏠리면 과적합된다.
성공·실패 라벨: 시연이 성공인지 실패인지가 정확히 라벨링됐는가. 실패 데이터의 부재는 정책을 취약하게 만든다.
시간 정합성: 센서 입력과 행동 출력이 정확히 동기화돼 있는가. 미세한 어긋남도 인과를 왜곡한다.
텔레오퍼레이터 숙련 편차: 누가 조종했느냐에 따라 시연 품질이 들쭉날쭉하지 않은가.
합성 분포 충실도: 합성 데이터가 현실 분포를 충실히 반영하는가(sim-to-real 정렬).

로봇 100만 궤적을 모아도 다양성이 낮거나 실패 라벨이 없으면 모델은 한 환경에 갇힌다. 수집 단가가 떨어지는 시대일수록, 차별화는 '더 많이'가 아니라 '더 나은 품질'에서 나온다.

5

데이터는 빌릴 수 없다 — 그래서 품질이 전략이다

지금까지의 논리를 세 박자로 정리하면 이렇다. 첫째, 행동 데이터는 몸체와 환경에 묶여 있어 빌릴 수 없다. 둘째, 세계 선두는 그 비이전성을 압도적 규모로 돌파하고 있고, 한국이 순수 규모로 맞서기는 어렵다. 셋째, 그렇다면 한국의 활로는 규모가 아니라 품질이다. 같은 양을 모아도 다양성·라벨·정합성이 높은 데이터가 더 강한 정책을 만든다면, 경쟁의 축을 '얼마나'에서 '어떻게'로 옮기는 것이 합리적 선택이다.

▲ 3박자 전략 논리 (페블러스 원본 도식) — K-피지컬 AI 행동 데이터 전략의 핵심 구조

이 전환은 국가 전략 차원에서도, 데이터 산업 차원에서도 같은 결론을 가리킨다. 국가가 데이터를 '생산'하는 시대가 열리면, 그 데이터를 '쓸 수 있게 만드는' 레이어의 수요가 동시에 생긴다. 트레이닝센터가 행동 데이터를 만드는 공장이라면, 그 출력물을 진단하고 정제하고 검증하는 일은 공장과 별개의 공정이다. 데이터 댐의 교훈이 말하듯, 이 공정을 사후에 형식적으로 붙이면 같은 실패를 더 위험한 무대에서 반복하게 된다.

데이터는 빌릴 수 없고, 모으는 것만으로도 부족하다. 보증하는 것이 전략이다. 행동 데이터의 품질 표준과 진단 도구는 트레이닝센터가 가동되기 전에 준비돼야 할 선행 인프라다.

6

페블러스가 주목하는 이유

이번 발표는 페블러스가 다뤄 온 주제와 정면으로 맞닿는다. 페블러스는 텍스트·이미지 AI-Ready Data 영역에서 데이터를 진단·정제·검증하는 품질 방법론(DataClinic, 합성데이터, 시뮬레이션)을 정립해 왔다. 정부가 '행동 데이터 대량 생산'을 국가 과제로 선언한 순간, 그 데이터를 학습 가능한 품질로 만드는 레이어의 필요성도 함께 커진다.

6.1데이터 품질이 곧 성능이자 안전이다

행동 데이터의 노이즈, 즉 텔레오퍼레이터 숙련 편차나 잘못된 시연, 합성 데이터의 분포 왜곡은 그대로 VLA 정책의 잘못된 행동으로 학습된다. 데이터 스케일링 법칙이 보여주듯 성능의 천장을 정하는 것은 양이 아니라 다양성·커버리지·정합성이며, 이는 데이터 중심 AI(data-centric AI)의 핵심 주장과 정확히 일치한다. 품질 보증은 성능과 안전의 전제 조건이지, 나중에 붙이는 옵션이 아니다.

6.2고객·파트너의 실무 함의

트레이닝센터에 데이터를 공급하거나 활용할 기업들에게, "수집한 행동 데이터가 학습 가능한 품질인가"를 판별하는 진단·라벨·필터링 파이프라인은 곧 비용과 성능을 가르는 변수가 된다. 수집 단가가 떨어질수록 누구나 많이 모을 수 있고, 그럴수록 차별화는 품질에서 나온다. 데이터 공급망에서 '진단·정제·검증' 공정이 차지하는 위치가 커지는 이유다.

Editor's Note. 페블러스는 데이터 품질을 다루는 회사로서, 행동 데이터 시대에도 같은 질문, 즉 "이 데이터는 학습 가능한가"가 핵심이 된다고 본다. 이 글은 특정 제품의 홍보가 아니라, 정부 전략이 던진 '품질' 질문을 페블러스의 렌즈로 읽은 분석이다.

끝까지 읽어 주셔서 감사하다. 정부가 행동 데이터를 국가 전략의 한가운데에 놓은 지금, 다음 1년은 "얼마나 모았나"가 아니라 "어떤 품질로 모았나"를 묻는 시기가 될 것이다. 페블러스는 그 질문을 함께 들여다보겠다. 행동 데이터 품질에 대한 의견이나 현장의 고민이 있다면 언제든 나눠 주시기 바란다.

(주)페블러스 데이터 커뮤니케이션팀
2026년 6월 29일

R

참고문헌

이 보고서가 인용한 정책 발표, 학술 연구, 통계 자료의 출처다.

학술 논문

1.Lin, Fanqi et al. (2024). "Data Scaling Laws in Imitation Learning for Robotic Manipulation." arXiv 2410.18647. arxiv.org/abs/2410.18647
2.Open X-Embodiment Collaboration. (2023). "Open X-Embodiment: Robotic Learning Datasets and RT-X Models." IEEE ICRA 2024. robotics-transformer-x.github.io
3.Bu, Qingwen et al. (2025). "AgiBot World Colosseo: A Large-scale Manipulation Platform for Robot Learning." IROS 2025. arxiv.org/abs/2503.06669
4.Khazatsky, Alexander et al. (2024). "DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset." RSS 2024. arxiv.org/abs/2403.12945

업계·기술

5.Physical Intelligence. (2024). "π0: A Vision-Language-Action Flow Model for General Robot Control." physicalintelligence.company/blog/pi0
6.NVIDIA Corporation. (2024). "Isaac Sim and Isaac GR00T: Synthetic Motion Data Generation for Humanoid Robots." NVIDIA Developer. developer.nvidia.com/isaac/sim
7.Electrek. (2026.05). "Tesla FSD Surpasses 10 Billion Cumulative Miles." electrek.co

정책·보도·통계

8.ZDNet 코리아. (2026.06.19). "과기정통부, K-피지컬 AI 풀스택 전략·얼라이언스 2기 출범." zdnet.co.kr
9.VentureSquare. (2026.06.19). "피지컬 AI 얼라이언스 2기 — 3대 분과·15개 액션그룹 구성." VentureSquare.
10.한국경제. (2026.06.25). "데이터 트레이닝센터 구체화 및 2027년 예산 추진." 한국경제.
11.International Federation of Robotics. (2025). World Robotics 2025 — Robot Density. IFR. ifr.org
12.ZDNet 코리아 외. (2020~2022). "디지털 뉴딜 AI 학습용 데이터 구축 — 1.4조 투입, 691종·26억 건." ZDNet 코리아.
13.newstheai.com 외. (2022~2023). "데이터 댐 품질 논란 — '단기 일자리' 비판과 형식적 검증 문제."
14.MarketsandMarkets. (2025). Humanoid Robot Market — Global Forecast to 2030. (시장 규모·CAGR은 기관별 편차가 크므로 본문에서는 직접 인용 보류.) marketsandmarkets.com