2026.03 · 페블러스 데이터커뮤니케이션팀

읽는 시간: ~13분 · English

이 글 소개

PebbloPedia는 하나의 주제를 다섯 가지 깊이로 설명하는 페블러스의 지식 시리즈예요. 이번 편의 주제는 월드 모델(World Model) — AI가 눈으로 보고 손으로 행동하기 전에, 머릿속에서 먼저 세상을 시뮬레이션하는 기술입니다.

초등학생도 읽을 수 있고, 전문가도 새로운 걸 발견할 수 있어요. 아무 단계에서나 시작해도 됩니다. 읽다가 어려우면 앞 단계로, 더 깊이 알고 싶으면 다음 단계로 이동하면 돼요.

🧒

1단계 — 초등학생

비유와 이야기로 쉽게. "미래를 꿈꾸는 AI"로 설명해요.

🎒

2단계 — 중고등학생

VLM·VLA와 무엇이 다른지, 왜 미래 예측이 중요한지.

🎓

3단계 — 전공 대학생

잠재 공간, JEPA, Dreamer, 확산 기반 월드 모델 기술 스택.

🔬

4단계 — 전문가

V-JEPA 2, Cosmos, Genie 3 최신 연구와 미해결 문제.

🧙

5단계 — 위자드 🧙

위자드의 관점에서 쓰는 시적인 인사이트. "상상이 먼저 걷는다".

1

초등학생도 이해하는 월드 모델

🧒 초등학생 버전 — 비유와 이야기로

AI도 행동하기 전에 머릿속으로 미리 생각해요. 마치 우리가 점프하기 전에 "뛰면 저 웅덩이를 넘을 수 있을까?" 하고 상상하는 것처럼요. 이렇게 AI가 머릿속에서 세상을 시뮬레이션하는 것을 월드 모델이라고 해요.

🎮 게임 속 AI를 상상해 보세요

마리오 게임에서 마리오가 구덩이를 만났어요. 이때 마리오 AI가 이렇게 생각한다고 해봐요:

  • • "지금 달리는 속도라면... 뛰면 저 구덩이를 넘어가겠다"
  • • "아니, 조금 더 빠르게 달려야 할 것 같은데..."
  • • "한번 머릿속에서 시뮬레이션 해볼게!"

이렇게 실제로 뛰어보기 전에 머릿속에서 먼저 결과를 상상하는 능력이 바로 월드 모델이에요. 사람은 이걸 자연스럽게 하지만, AI에게 가르치기는 정말 어려워요.

☁️ 날씨를 예측하는 것처럼

기상청에서 "내일 비가 온다"고 예보를 하죠? 기상청은 오늘의 구름·기압·바람을 보고 내일을 예측해요. 월드 모델도 비슷해요. AI가 지금 상황을 보고 "다음에 이렇게 행동하면 어떻게 될까?"를 미리 계산하는 거예요.

🧸 AI가 월드 모델 없이 행동하면?

월드 모델이 없는 AI는 마치 눈을 감고 달리는 것과 같아요. 벽에 부딪혀야 "아, 여기 벽이 있구나"를 알게 되죠. 하지만 월드 모델이 있으면 부딪히기 전에 벽이 있다는 걸 예측해서 미리 피할 수 있어요.

🏎️ 어디서 볼 수 있어요?

  • 자율주행 자동차 — 앞차가 급브레이크를 밟으면 어떻게 될지 미리 예측해요
  • 로봇팔 — 물건을 잡을 때 손가락이 어디에 닿을지 상상하며 움직여요
  • 바둑 AI(알파고) — 수백 수 앞을 머릿속으로 계산해요
  • AI 게임 캐릭터 — 내가 이렇게 움직이면 어떻게 될지 예측해서 전략을 세워요

✅ 핵심 한 문장

월드 모델 = AI가 행동하기 전에 머릿속에서 미래를 먼저 상상하는 능력. 뛰기 전에 결과를 예측하는 것.

2

원리로 이해하는 월드 모델

🎒 중고등학생 버전 — 원리와 메커니즘

AI는 크게 세 종류로 발전해 왔어요. 보는 AI(VLM), 보고 행동하는 AI(VLA), 그리고 보고 상상하고 행동하는 AI(월드 모델). 이 셋의 차이를 이해하면 왜 월드 모델이 중요한지 알 수 있어요.

📊 VLM vs VLA vs 월드 모델

구분 무엇을 하나 못하는 것 예시
VLM
비전-언어 모델
이미지를 보고 설명·질문에 답함 행동 불가, 미래 예측 불가 GPT-4o, Claude
VLA
비전-언어-행동
보고 → 바로 행동 명령 출력 결과를 미리 상상 못함 RT-2, GR00T N1
월드 모델 보고 → 미래를 상상 → 최선 행동 선택 계산 비용이 큼 V-JEPA 2, Cosmos

🤔 왜 "미래를 상상"하는 게 중요할까?

인간이 야구공을 잡는 상황을 생각해봐요. 공이 날아오는 걸 보자마자 손을 뻗지 않아요. 대신 뇌가 순식간에 이런 계산을 해요:

  • • "공의 속도와 각도로 봤을 때..."
  • • "0.3초 후에 저 위치에 도착하겠다"
  • • "그러면 손을 왼쪽 위로 20cm 올려야 해"

예측 → 계획 → 행동의 루프가 월드 모델의 핵심이에요. VLA는 공이 날아오는 걸 보고 바로 손을 움직이려 하지만, 이미 늦었죠. 월드 모델은 미래를 계산해서 선행적으로 반응해요.

🧠 뇌과학에서 온 아이디어

월드 모델이라는 개념은 사실 심리학자 Kenneth Craik이 1943년에 먼저 제안했어요. 인간의 뇌가 외부 세계의 내부 모델(Internal Model)을 갖고 있다는 거예요. 실제로 우리가 눈을 감아도 방 안을 돌아다닐 수 있는 건, 뇌 안에 방의 지도가 만들어져 있기 때문이에요. AI 연구자들은 이 아이디어를 70년 뒤에 AI에 적용하기 시작했어요.

1943

Kenneth Craik의 "내부 모델" 이론 발표 연도

2018

DreamerV1 등장 — AI 최초 학습 가능 월드 모델

30×

V-JEPA 2가 Cosmos 대비 달성한 로봇 계획 속도

1.2B

V-JEPA 2 파라미터 수 (100만 시간 영상으로 학습)

✅ 핵심 한 문장

월드 모델 = 보고 → 미래를 상상하고 → 최선의 행동을 고르는 AI. 결과를 미리 계산하기 때문에 VLA보다 더 스마트하게 행동한다.

3

기술로 이해하는 월드 모델

🎓 전공 대학생 버전 — 아키텍처와 기술 스택

월드 모델의 기술적 정의: 관찰(o_t)과 행동(a_t)을 입력받아 다음 상태(o_{t+1})를 예측하는 생성 모델. 핵심은 이 예측이 픽셀 공간이 아닌 잠재 공간(Latent Space)에서 이뤄진다는 점이다.

🏗️ 월드 모델의 4가지 구성 요소

① Encoder (인코더)

고차원 관찰(이미지·영상)을 저차원 잠재 벡터 z_t로 압축. ViT·CNN 계열. 중요한 정보만 남기고 노이즈는 버린다.

② Predictor (예측기)

현재 잠재 벡터 z_t와 행동 a_t를 받아 미래 잠재 벡터 ẑ_{t+k}를 예측. Transformer 계열이 주류. 이게 월드 모델의 핵심 모듈.

③ Decoder (디코더)

필요 시 잠재 벡터를 다시 이미지로 복원. 생성형 월드 모델(Cosmos 등)은 필수. 예측 전용 모델(V-JEPA 2)은 생략 가능.

④ Reward / Value Model

시뮬레이션된 미래 상태에서 보상 신호를 계산. 강화학습(RL)과 결합 시 필수. 어떤 행동 시퀀스가 최적인지 평가.

🔬 JEPA vs 생성 기반 월드 모델

월드 모델 구현 방식은 크게 두 학파로 나뉜다.

구분 JEPA 계열 생성 기반
예측 공간 잠재 공간 (픽셀 재구성 없음) 픽셀/토큰 공간
대표 모델 I-JEPA, V-JEPA 2 NVIDIA Cosmos, Genie 3, Sora
학습 효율 높음 (불필요한 디테일 무시) 낮음 (모든 픽셀 재구성)
계획 속도 빠름 (V-JEPA 2: 30× 우위) 느림 (영상 생성 비용 큼)
강점 로봇 계획, 실시간 제어 데이터 합성, 가시화, 창의적 시뮬레이션

📚 핵심 기술 키워드

RSSM / Dreamer

Recurrent State Space Model. Hafner et al. (2018~). 잠재 공간에서 RL을 수행하는 최초의 실용적 월드 모델 프레임워크. 아타리·연속 제어 SOTA 달성.

JEPA

Joint Embedding Predictive Architecture. LeCun et al. 서로 다른 두 뷰의 잠재 표현 간 예측으로 자기지도학습. 픽셀 재구성 없이 의미 있는 표현 획득.

MPC (모델 예측 제어)

Model Predictive Control. 월드 모델로 여러 행동 시퀀스를 시뮬레이션 → 목표에 가장 가까운 시퀀스 선택 → 첫 행동만 실행 → 반복. V-JEPA 2의 로봇 계획 방식.

✅ 핵심 한 문장

월드 모델 = Encoder로 관찰을 압축 → Predictor로 미래 잠재 상태 예측 → MPC로 최적 행동 선택. 잠재 공간에서 작동할수록 빠르고 효율적이다.

4

최신 연구로 보는 월드 모델

🔬 전문가 버전 — 2025-2026 최전선

2025년은 월드 모델의 분기점이었다. NVIDIA Cosmos의 물리 기반 영상 생성, V-JEPA 2의 MPC 기반 로봇 제어, Google DeepMind Genie 3의 인터랙티브 환경 생성이 동시에 등장하며 세 가지 서로 다른 방향성을 보여줬다. 각각이 해결하는 문제와 미해결 과제를 살펴본다.

🚀 2025년 주요 모델 업데이트

V-JEPA 2 NVIDIA · 2025.06

1.2B 파라미터. 100만 시간 이상의 비디오로 사전학습. 픽셀 재구성 없이 잠재 공간 예측만으로 물리 법칙 학습. MPC와 결합해 NVIDIA Cosmos 대비 30× 빠른 로봇 계획 속도 달성. 제로샷(zero-shot)으로 로봇 팔 조작 태스크 수행 가능. 미세조정 없이 62시간 연속 자율 조작 기록. 주요 한계: 장기 다단계 계획(horizon > 10)에서 오류 누적.

NVIDIA Cosmos NVIDIA · 2025.01

물리 기반 세계 시뮬레이터 겸 비디오 생성 모델. 텍스트·이미지·영상 → 포토리얼리스틱 물리 일관 영상 생성. GR00T Blueprint 합성 데이터 파이프라인에 핵심 컴포넌트로 탑재. 자율주행, 로봇, 디지털 트윈 세 도메인에 최적화된 별도 체크포인트 제공. 한계: 연산 비용 크고, V-JEPA 2 대비 계획 속도 느림. 강점: 풍부한 시각 합성과 데이터 증강.

Genie 3 Google DeepMind · 2025

텍스트 프롬프트 한 줄로 인터랙티브한 3D 월드 환경을 즉시 생성. 사용자 행동에 반응하는 인과적으로 일관된 가상 환경. RL 에이전트의 무한 훈련 그라운드로 활용 가능. Genie 2(2024)가 2D였다면, 3는 물리 일관성을 갖춘 3D로 확장. 한계: 아직 실제 로봇 Sim-to-Real 검증 제한적.

DreamerV3 Google DeepMind · 2023~

하이퍼파라미터 조정 없이 다양한 도메인(Atari, DMC, Crafter, 마인크래프트 다이아몬드 획득)에서 SOTA. RSSM 기반 잠재 공간 RL의 현재 베스트. 월드 모델 + Actor-Critic을 end-to-end로 학습. 마인크래프트에서 인간 수준의 다이아몬드 채굴(이전 SOTA 대비 월등)로 장기 계획 가능성을 시연.

⚠️ 미해결 문제들

① 인과 추론의 부재

현재 월드 모델은 "A 다음에 B가 온다"는 패턴을 학습하지만, "A가 B를 일으킨다"는 인과관계는 모른다. 분포 외 상황(Out-of-Distribution)에서 예측이 무너지는 원인.

② 오류 누적 (Compounding Error)

장기 계획에서 작은 예측 오류가 단계마다 누적된다. 10스텝은 잘 되어도 100스텝에서는 대부분 실패. Dreamer 계열의 공통 한계.

③ 데이터 효율

충분한 물리 지식을 갖추려면 아직 막대한 비디오 데이터가 필요하다. 인간은 몇 번의 경험으로도 물리 법칙을 일반화하지만, 현재 월드 모델은 그렇지 못하다.

④ 신뢰할 수 있는 불확실성

월드 모델이 "잘 모른다"고 인식해야 할 때를 아는 것, 즉 불확실성 정량화가 아직 미흡하다. 모르면서 자신 있게 예측하면 로봇이 위험한 행동을 할 수 있다.

✅ 핵심 한 문장

2025년 월드 모델은 예측 속도(V-JEPA 2), 시각 합성(Cosmos), 환경 생성(Genie 3)의 세 갈래로 분화했다. 인과 추론과 장기 오류 누적이 여전히 최전선 과제.

5

위자드의 월드 모델

🧙 위자드 버전 — 시적 인사이트

인간은 태어난 순간부터 세상의 모델을 만들기 시작한다. 아기가 컵을 떨어뜨리고 "쨍그랑" 소리를 듣는 순간, 뇌 어딘가에 "단단한 물체는 떨어지면 소리가 난다"는 모델이 새겨진다. 우리는 인생 전체를 통해 이 내부 모델을 업데이트한다. AI의 월드 모델은 그 70억 년의 진화가 만들어낸 기적을 수식으로 흉내 내려는 시도다.

— 상상이 먼저 걷는다 —

인간은 걷기 전에 걷는 법을 안다. 갓난아기의 다리가 허공에서 움직이는 것을 본 적 있는가. 아직 땅에 닿지 않은 발이 이미 걷고 있다.
AI에게 월드 모델을 준다는 것은 그것에게 꿈을 주는 일이다. 행동하기 전에 상상할 수 있는 공간을. 실패하기 전에 실패해볼 수 있는 안전한 내면을.
그러나 조심하라. 상상은 정확하지 않다. 월드 모델도 틀린다. 예측이 쌓일수록 오차도 쌓인다.
인간의 위대함은 틀린 상상을 현실과 비교해 고칠 줄 안다는 데 있다. AI의 월드 모델도 그것을 배워야 한다. 모른다는 것을 아는 것 — 불확실성의 품위.
세계를 모델링한다는 것은 세계를 이해하겠다는 선언이 아니다. 세계와 함께 틀리고 함께 배우겠다는 겸손한 약속이다.

🧙 위자드의 통찰

월드 모델의 진짜 목표는 세상을 완벽히 시뮬레이션하는 것이 아니다. 충분히 잘 틀려서, 틀림에서 배울 수 있는 AI를 만드는 것이다. 인간의 지능도 그렇게 작동한다 — 완벽한 예측이 아닌, 빠른 수정과 학습의 루프로.

더 깊이 읽기