Executive Summary

AgiBotWorld 2026은 100만 개 이상의 로봇 조작 트라젝토리를 담은 오픈소스 데이터셋입니다. 중국 로봇 스타트업 AGIBOT이 2026년 4월에 공개했으며, 경쟁 데이터셋들과 결정적으로 다른 한 가지 선택이 있습니다. 실패한 시연을 버리지 않았습니다. 로봇이 물건을 놓치거나 미끄러지는 순간, 그 궤적에 error_causerestorable 필드를 붙여 학습 데이터로 남겼습니다. 실패 데이터에 값을 매기는 이 선택은, 차세대 로봇 모델이 딛고 설 전제로 빠르게 자리 잡고 있습니다.

성능은 수치로 확인됩니다. 정책 모델 Genie Operator-1(GO-1)을 기준으로 AgiBotWorld로 학습한 모델은 Open X-Embodiment 대비 30%, RDT 대비 복잡한 태스크에서 32% 높은 성능을 보였습니다. 9.36TB, 217개 태스크, 5개 배포 시나리오를 아우르는 이 데이터셋의 차별점은 스케일이 아니라 주석 철학에 있습니다.

이 결과가 데이터 품질 의사결정자에게 묻는 질문은 단순합니다. 지금 버리고 있는 '실패 시연'이 사실은 가장 가르치기 어려운 능력 — 실수하고 회복하는 법 — 을 담은 데이터일 수 있습니다. 무엇을 남기고 무엇을 버릴지가 곧 데이터 품질이라는 큐레이션 철학의 실증입니다.

주요 수치

아래 네 숫자가 AgiBotWorld 2026의 규모와 성과를 압축합니다. 첫 두 수치는 이 데이터셋의 맥락을 정의하고, 뒤 두 수치는 실패 주석 전략의 효과를 측정합니다.

출처: AgiBot World Colosseo (arXiv:2503.06669)

100만+

트라젝토리

217개 태스크, 9.36 TB

95%

SayCan 폐기율

276k → 12k만 유지

+30%

성능 향상

vs Open X-Embodiment

+32%

복잡한 태스크

vs RDT

1

성공만 남기고 95%를 버린 관행

Google DeepMind의 SayCan은 로봇 데이터셋 정책의 교과서 사례입니다. 276,000개의 에피소드를 수집했지만 최종적으로 학습에 쓴 것은 12,000개뿐이었습니다. 나머지 95% 이상은 '실패했다'는 이유로 걸러졌습니다.

SayCan만의 이야기가 아닙니다. 로봇 imitation learning 데이터셋 업계의 표준 관행입니다. 로봇이 물건을 잡는 데 성공한 시연만 남기고, 중간에 미끄러지거나 재시도한 궤적은 '노이즈'로 처리해 제거합니다. 이 접근에는 직관적 설득력이 있습니다. 완벽한 시연만으로 학습하면 모델도 완벽해질 것이라는 논리입니다.

그러나 이 관행은 로봇이 현실에서 가장 자주 마주칠 상황, 곧 실수하고 회복하는 순간을 학습 데이터에서 지워 버립니다. 로봇이 실제 환경에 배포되면, 완벽한 조건은 드뭅니다. 조명이 다르고, 물체가 예상과 다른 위치에 있고, 그리퍼가 예측하지 못한 마찰에 맞닥뜨립니다. '어떻게 성공하는가'만 학습한 모델은 '실수했을 때 어떻게 회복하는가'를 알지 못합니다.

SayCan 방식 수집: 276,000개 에피소드 폐기: 264,000개 (95%+) 12k 유지 AgiBotWorld 방식 수집: 1M+ 트라젝토리 주석: error_cause · restorable 전체 보존 + 계층형 라벨
▲ SayCan(좌)은 95% 이상을 폐기하고 성공만 남긴 반면, AgiBotWorld(우)는 실패 궤적에 라벨을 붙여 전체를 학습 데이터로 활용한다

실패 직전까지의 궤적은 대부분 고품질입니다. 그리퍼가 물체에 접근하고, 위치를 조정하고, 힘을 가하는 모든 단계가 담겨 있습니다. 마지막 순간의 실수 하나로 그 모든 정보를 버리는 것은, 시험에서 99점을 받은 학생의 답안지를 완벽하지 않다는 이유로 소각하는 것과 다르지 않습니다.

2

AgiBotWorld가 실패를 다루는 법

AgiBotWorld 2026이 실패 시연을 처리하는 방식은 구체적입니다. 수집된 모든 트라젝토리에 계층형 주석 프레임워크(Hierarchical Annotation Framework)를 적용합니다. 주석은 세 계층으로 이루어집니다.

태스크 프레임(Task Frames)에서는 장기 서브태스크와 성공 여부 지표를 기록합니다. 물체 수준(Object-level)에서는 2D 바운딩 박스로 대상 물체의 좌표와 상호작용을 추적합니다. 단계 수준(Step-level)에서는 "집기(Pick)", "놓기(Place)" 같은 원자적 스킬과 그 프레임 경계, 성공 마커를 붙입니다.

태스크 프레임 (Task) 서브태스크 지시 + 성공 여부 물체 수준 (Object) 2D 바운딩 박스 + 상호작용 단계 수준 (Skill) Pick/Place + 성공 마커 frame_detail.error_cause · frame_detail.restorable 실패 원인 기록 + 회복 가능 여부 표시
▲ AgiBotWorld 계층형 주석 프레임워크 — 태스크·물체·스킬 레이어에 더해 실패 전용 필드(error_cause, restorable)가 전체를 아우른다

핵심은 여기에 두 필드가 추가됐다는 점입니다. frame_detail.error_cause는 실패가 일어난 이유(그리퍼 슬립, 위치 오차 등)를 기록하고, frame_detail.restorable은 그 실패에서 회복 가능한지를 표시합니다. 실패가 '제거해야 할 노이즈'가 아니라 '이해해야 할 신호'로 취급되는 구조입니다.

데이터 수집 방식도 차별점이 있습니다. 스크립트 없이 텔레오퍼레이터가 실시간 상황에 반응해 자유형(free-form)으로 수행합니다. 이 방식이 다양한 에러 유형의 자연 발생을 허용하고, 모델이 self-correction priors — 실수 후 회복하는 패턴 — 을 직접 학습할 수 있는 데이터를 만듭니다.

성능으로 그 효과가 확인됩니다. 정책 모델 Genie Operator-1(GO-1)을 기준으로 한 평가에서, AgiBotWorld로 학습한 모델은 Open X-Embodiment 대비 30%, RDT 대비 복잡한 태스크에서 32% 높은 성능을 보였습니다. 이 수치는 실패 데이터를 살리는 전략이 단순한 철학이 아니라 측정 가능한 성능 개선임을 보여줍니다.

3

클린 데이터의 정의가 바뀐다

'클린 데이터'의 전통적 정의는 성공한 시연만 골라낸 결과물이었습니다. AgiBotWorld 2026의 접근은 이 정의에 도전합니다. 태스크에 관련된 다양한 상태 — 성공, 실패, 회복 — 가 모두 포함된 데이터가 더 클린하다는 철학입니다.

기존 정의 클린 = 성공 시연 성공 실패 회복 선별 후 유지 새로운 정의 클린 = 태스크 전체 커버리지 성공 실패 회복 주석 후 전체 보존
▲ '클린 데이터'의 정의가 성공 시연 선별(좌)에서 태스크 전체 커버리지(우)로 이동하고 있다

이 전환은 AgiBotWorld 혼자만의 것이 아닙니다. Counterfactual Behavior Cloning(arXiv:2505.10760)과 Temporal Behavior Tree 기반 궤적 수정(arXiv:2604.04225) 같은 연구들도 같은 방향을 가리킵니다. 불완전한 시연을 버릴 데이터가 아니라 고쳐 쓸 신호로 보는 것입니다. Voxel51의 2026 Physical AI 보고서는 59%의 팀이 나쁜 레이블로 어려움을 겪고, 47%는 모델 성능을 해치는 데이터를 식별하지 못한다고 밝힙니다. 실패 궤적에 의미 있는 라벨을 붙이는 작업은 선택이 아니라 인프라의 문제가 되고 있습니다.

Editor's Note. 페블러스가 데이터 큐레이션을 '무엇을 버릴지 결정하는 일'이 아니라 '무엇에 값을 매길지 결정하는 일'로 정의하는 이유가 여기 있습니다. AgiBotWorld 2026은 이 정의가 로봇 기술의 최전선에서도 실증되고 있음을 보여줍니다. 차세대 로봇 파운데이션 모델의 데이터 파이프라인에서, 실패 궤적의 보존과 주석은 점점 더 전제 조건이 되어 가고 있습니다.

(주)페블러스 데이터 커뮤니케이션팀
2026년 6월 22일

R

참고문헌

R.1학술 논문

R.2데이터셋

R.3업계·보도