월드 모델 — [페블로피디아] 어린이부터 전문가까지, 다섯 단계 난이도로 배우는 핫 키워드

이 글 소개

PebbloPedia는 하나의 주제를 다섯 가지 깊이로 설명하는 페블러스의 지식 시리즈예요. 이번 편의 주제는 월드 모델(World Model) — AI가 눈으로 보고 손으로 행동하기 전에, 머릿속에서 먼저 세상을 시뮬레이션하는 기술입니다.

초등학생도 읽을 수 있고, 전문가도 새로운 걸 발견할 수 있어요. 아무 단계에서나 시작해도 됩니다. 읽다가 어려우면 앞 단계로, 더 깊이 알고 싶으면 다음 단계로 이동하면 돼요.

🧒

1단계 — 초등학생

비유와 이야기로 쉽게. "미래를 꿈꾸는 AI"로 설명해요.

🎒

2단계 — 중고등학생

VLM·VLA와 무엇이 다른지, 왜 미래 예측이 중요한지.

🎓

3단계 — 전공 대학생

잠재 공간, JEPA, Dreamer, 확산 기반 월드 모델 기술 스택.

🔬

4단계 — 전문가

V-JEPA 2, Cosmos, Genie 3 최신 연구와 미해결 문제.

🧙

5단계 — 위자드 🧙

위자드의 관점에서 쓰는 시적인 인사이트. "상상이 먼저 걷는다".

1

초등학생도 이해하는 월드 모델

🧒 초등학생 버전 — 비유와 이야기로

AI도 행동하기 전에 머릿속으로 미리 생각해요. 마치 우리가 점프하기 전에 "뛰면 저 웅덩이를 넘을 수 있을까?" 하고 상상하는 것처럼요. 이렇게 AI가 머릿속에서 세상을 시뮬레이션하는 것을 월드 모델이라고 해요.

🎮 게임 속 AI를 상상해 보세요

마리오 게임에서 마리오가 구덩이를 만났어요. 이때 마리오 AI가 이렇게 생각한다고 해봐요:

• "지금 달리는 속도라면... 뛰면 저 구덩이를 넘어가겠다"
• "아니, 조금 더 빠르게 달려야 할 것 같은데..."
• "한번 머릿속에서 시뮬레이션 해볼게!"

이렇게 실제로 뛰어보기 전에 머릿속에서 먼저 결과를 상상하는 능력이 바로 월드 모델이에요. 사람은 이걸 자연스럽게 하지만, AI에게 가르치기는 정말 어려워요.

☁️ 날씨를 예측하는 것처럼

기상청에서 "내일 비가 온다"고 예보를 하죠? 기상청은 오늘의 구름·기압·바람을 보고 내일을 예측해요. 월드 모델도 비슷해요. AI가 지금 상황을 보고 "다음에 이렇게 행동하면 어떻게 될까?"를 미리 계산하는 거예요.

🧸 AI가 월드 모델 없이 행동하면?

월드 모델이 없는 AI는 마치 눈을 감고 달리는 것과 같아요. 벽에 부딪혀야 "아, 여기 벽이 있구나"를 알게 되죠. 하지만 월드 모델이 있으면 부딪히기 전에 벽이 있다는 걸 예측해서 미리 피할 수 있어요.

🏎️ 어디서 볼 수 있어요?

• 자율주행 자동차 — 앞차가 급브레이크를 밟으면 어떻게 될지 미리 예측해요
• 로봇팔 — 물건을 잡을 때 손가락이 어디에 닿을지 상상하며 움직여요
• 바둑 AI(알파고) — 수백 수 앞을 머릿속으로 계산해요
• AI 게임 캐릭터 — 내가 이렇게 움직이면 어떻게 될지 예측해서 전략을 세워요

✅ 핵심 한 문장

월드 모델 = AI가 행동하기 전에 머릿속에서 미래를 먼저 상상하는 능력. 뛰기 전에 결과를 예측하는 것.

2

원리로 이해하는 월드 모델

🎒 중고등학생 버전 — 원리와 메커니즘

AI는 크게 세 종류로 발전해 왔어요. 보는 AI(VLM), 보고 행동하는 AI(VLA), 그리고 보고 상상하고 행동하는 AI(월드 모델). 이 셋의 차이를 이해하면 왜 월드 모델이 중요한지 알 수 있어요.

📊 VLM vs VLA vs 월드 모델

구분	무엇을 하나	못하는 것	예시
VLM 비전-언어 모델	이미지를 보고 설명·질문에 답함	행동 불가, 미래 예측 불가	GPT-4o, Claude
VLA 비전-언어-행동	보고 → 바로 행동 명령 출력	결과를 미리 상상 못함	RT-2, GR00T N1
월드 모델	보고 → 미래를 상상 → 최선 행동 선택	계산 비용이 큼	V-JEPA 2, Cosmos

🤔 왜 "미래를 상상"하는 게 중요할까?

인간이 야구공을 잡는 상황을 생각해봐요. 공이 날아오는 걸 보자마자 손을 뻗지 않아요. 대신 뇌가 순식간에 이런 계산을 해요:

• "공의 속도와 각도로 봤을 때..."
• "0.3초 후에 저 위치에 도착하겠다"
• "그러면 손을 왼쪽 위로 20cm 올려야 해"

이 예측 → 계획 → 행동의 루프가 월드 모델의 핵심이에요. VLA는 공이 날아오는 걸 보고 바로 손을 움직이려 하지만, 이미 늦었죠. 월드 모델은 미래를 계산해서 선행적으로 반응해요.

🧠 뇌과학에서 온 아이디어

월드 모델이라는 개념은 사실 심리학자 Kenneth Craik이 1943년에 먼저 제안했어요. 인간의 뇌가 외부 세계의 내부 모델(Internal Model)을 갖고 있다는 거예요. 실제로 우리가 눈을 감아도 방 안을 돌아다닐 수 있는 건, 뇌 안에 방의 지도가 만들어져 있기 때문이에요. AI 연구자들은 이 아이디어를 70년 뒤에 AI에 적용하기 시작했어요.

1943

Kenneth Craik의 "내부 모델" 이론 발표 연도

2018

DreamerV1 등장 — AI 최초 학습 가능 월드 모델

30×

V-JEPA 2가 Cosmos 대비 달성한 로봇 계획 속도

1.2B

V-JEPA 2 파라미터 수 (100만 시간 영상으로 학습)

✅ 핵심 한 문장

월드 모델 = 보고 → 미래를 상상하고 → 최선의 행동을 고르는 AI. 결과를 미리 계산하기 때문에 VLA보다 더 스마트하게 행동한다.

3

기술로 이해하는 월드 모델

🎓 전공 대학생 버전 — 아키텍처와 기술 스택

월드 모델의 기술적 정의: 관찰(o_t)과 행동(a_t)을 입력받아 다음 상태(o_{t+1})를 예측하는 생성 모델. 핵심은 이 예측이 픽셀 공간이 아닌 잠재 공간(Latent Space)에서 이뤄진다는 점이다.

🏗️ 월드 모델의 4가지 구성 요소

① Encoder (인코더)

고차원 관찰(이미지·영상)을 저차원 잠재 벡터 z_t로 압축. ViT·CNN 계열. 중요한 정보만 남기고 노이즈는 버린다.

② Predictor (예측기)

현재 잠재 벡터 z_t와 행동 a_t를 받아 미래 잠재 벡터 ẑ_{t+k}를 예측. Transformer 계열이 주류. 이게 월드 모델의 핵심 모듈.

③ Decoder (디코더)

필요 시 잠재 벡터를 다시 이미지로 복원. 생성형 월드 모델(Cosmos 등)은 필수. 예측 전용 모델(V-JEPA 2)은 생략 가능.

④ Reward / Value Model

시뮬레이션된 미래 상태에서 보상 신호를 계산. 강화학습(RL)과 결합 시 필수. 어떤 행동 시퀀스가 최적인지 평가.

🔬 JEPA vs 생성 기반 월드 모델

월드 모델 구현 방식은 크게 두 학파로 나뉜다.

구분	JEPA 계열	생성 기반
예측 공간	잠재 공간 (픽셀 재구성 없음)	픽셀/토큰 공간
대표 모델	I-JEPA, V-JEPA 2	NVIDIA Cosmos, Genie 3, Sora
학습 효율	높음 (불필요한 디테일 무시)	낮음 (모든 픽셀 재구성)
계획 속도	빠름 (V-JEPA 2: 30× 우위)	느림 (영상 생성 비용 큼)
강점	로봇 계획, 실시간 제어	데이터 합성, 가시화, 창의적 시뮬레이션

📚 핵심 기술 키워드

RSSM / Dreamer

Recurrent State Space Model. Hafner et al. (2018~). 잠재 공간에서 RL을 수행하는 최초의 실용적 월드 모델 프레임워크. 아타리·연속 제어 SOTA 달성.

JEPA

Joint Embedding Predictive Architecture. LeCun et al. 서로 다른 두 뷰의 잠재 표현 간 예측으로 자기지도학습. 픽셀 재구성 없이 의미 있는 표현 획득.

MPC (모델 예측 제어)

Model Predictive Control. 월드 모델로 여러 행동 시퀀스를 시뮬레이션 → 목표에 가장 가까운 시퀀스 선택 → 첫 행동만 실행 → 반복. V-JEPA 2의 로봇 계획 방식.

✅ 핵심 한 문장

월드 모델 = Encoder로 관찰을 압축 → Predictor로 미래 잠재 상태 예측 → MPC로 최적 행동 선택. 잠재 공간에서 작동할수록 빠르고 효율적이다.

4

위자드의 월드 모델

🧙 위자드 버전 — 시적 인사이트

인간은 태어난 순간부터 세상의 모델을 만들기 시작한다. 아기가 컵을 떨어뜨리고 "쨍그랑" 소리를 듣는 순간, 뇌 어딘가에 "단단한 물체는 떨어지면 소리가 난다"는 모델이 새겨진다. 우리는 인생 전체를 통해 이 내부 모델을 업데이트한다. AI의 월드 모델은 그 70억 년의 진화가 만들어낸 기적을 수식으로 흉내 내려는 시도다.

— 상상이 먼저 걷는다 —

인간은 걷기 전에 걷는 법을 안다. 갓난아기의 다리가 허공에서 움직이는 것을 본 적 있는가. 아직 땅에 닿지 않은 발이 이미 걷고 있다.

AI에게 월드 모델을 준다는 것은 그것에게 꿈을 주는 일이다. 행동하기 전에 상상할 수 있는 공간을. 실패하기 전에 실패해볼 수 있는 안전한 내면을.

그러나 조심하라. 상상은 정확하지 않다. 월드 모델도 틀린다. 예측이 쌓일수록 오차도 쌓인다.

인간의 위대함은 틀린 상상을 현실과 비교해 고칠 줄 안다는 데 있다. AI의 월드 모델도 그것을 배워야 한다. 모른다는 것을 아는 것 — 불확실성의 품위.

세계를 모델링한다는 것은 세계를 이해하겠다는 선언이 아니다. 세계와 함께 틀리고 함께 배우겠다는 겸손한 약속이다.

🧙 위자드의 통찰

월드 모델의 진짜 목표는 세상을 완벽히 시뮬레이션하는 것이 아니다. 충분히 잘 틀려서, 틀림에서 배울 수 있는 AI를 만드는 것이다. 인간의 지능도 그렇게 작동한다 — 완벽한 예측이 아닌, 빠른 수정과 학습의 루프로.

더 깊이 읽기

심층 분석

VLM·VLA의 한계와 월드 모델

V-JEPA 2·Cosmos·Genie 3를 중심으로 Physical AI 다음 아키텍처를 분석한 페블러스 심층 아티클.

페블로피디아

피지컬 AI

AI가 화면 밖으로 나와 몸을 가진 이야기. 월드 모델의 배경이 되는 Physical AI를 같은 5단계 형식으로.

이 글 소개

초등학생도 이해하는 월드 모델

🎮 게임 속 AI를 상상해 보세요

☁️ 날씨를 예측하는 것처럼

🧸 AI가 월드 모델 없이 행동하면?

🏎️ 어디서 볼 수 있어요?

원리로 이해하는 월드 모델

📊 VLM vs VLA vs 월드 모델

🤔 왜 "미래를 상상"하는 게 중요할까?

🧠 뇌과학에서 온 아이디어

기술로 이해하는 월드 모델

🏗️ 월드 모델의 4가지 구성 요소

🔬 JEPA vs 생성 기반 월드 모델

📚 핵심 기술 키워드

최신 연구로 보는 월드 모델

🚀 2025년 주요 모델 업데이트

⚠️ 미해결 문제들

위자드의 월드 모델

더 깊이 읽기