1.world model이란?
- 월드 모델(World Model)은 인공지능이 인간처럼 '세상이 돌아가는 방식'을 내면에 시뮬레이션하여 미래를 예측하고 계획을 세울 수 있게 하는 핵심 개념이다.
- 이는 단순히 입력된 데이터의 패턴을 외우는 것을 넘어, 인과관계와 물리학적 법칙을 이해하는 "범용 인공지능(AGI)"으로 가는 가장 중요한 열쇠로 꼽힌다.
- 개념적 정의
- 인간은 운전을 할 때 눈앞의 도로 상황만 보고 핸들을 꺾지 않는다.
'내가 지금 속도를 높이면 3초 뒤 앞차와 충돌할 것이다'라는AI에게 이러한 멘탈 모델을 심어주는 것이 바로world model이다. - 핵심 기능: 현재 상태()와 행동()이 주어졌을 때, 다음 상태()가 어떻게 변할지 예측한다.
- 수식적 표현
- P( s_{t+1} | s_{t} , a_{t} )
- 차이점:
- Model-Free AI (기존): "이 상황에선 이 버튼을 눌러" (단순 반사 행동, 직관)
- Model-Based AI (월드 모델): "이 버튼을 누르면 화면이 이렇게 변할 테니, 누르는 게 좋겠어" (인과관계 이해, 계획)
- 인간은 운전을 할 때 눈앞의 도로 상황만 보고 핸들을 꺾지 않는다.
2.고전적 핵심 아키텍처: Ha & Schmidhuber (2018)
2018년, David Ha와 Jürgen Schmidhuber가 발표한 논문 "World Models"는 해당 분야의 대표적인 연구다.
그들은 인간이 꿈을 꾸며 기억을 정리하듯, AI가 꿈(Dream) 속에서 학습하는 구조를 제안했다.
이 모델은 크게 3가지 파트로 구성됩니다.
① 비전 모델 (V, Vision Model) - "눈"
- 역할: 고차원의 복잡한 이미지(픽셀)를 저차원의 압축된 정보(Latent vector, )로 요약한다.
- 기술: VAE (Variational Autoencoder)
- 의미: 인간이 풍경을 볼 때 모든 모래 알갱이를 기억하지 않고 "해변가"라고 추상화해서 기억하는 것과 같다.
② 메모리 모델 (M, Memory Model) - "뇌/예측"
- 역할: 현재의 요약된 상황()과 행동()을 바탕으로 미래의 상황을 예측한다.
- 기술: MDN-RNN (Mixture Density Network - RNN)
- 특징: 확률적인 예측을 수행한다. (공을 던지면 바람에 따라 여기로 갈 수도 있고 저기로 갈 수도 있다는 불확실성을 모델링)
- 꿈(Dreaming): 실제 환경 없이 이 메모리 모델()만 가동하여 가상의 시나리오를 무한히 생성하고 학습할 수 있다.
③ 컨트롤러 (C, Controller Model) - "행동"
- 역할: 가 압축한 현재 정보와 이 예측한 미래 정보를 종합하여 최적의 행동()을 결정한다.
- 기술: 단순한 단층 신경망 (Linear Model)
- 의미: 예측 능력이 뛰어나면(M이 똑똑하면), 행동을 결정하는 뇌(C)는 단순해도 복잡한 작업을 수행할 수 있음을 증명했다.
3. 최신 트렌드와 논쟁: 얀 르쿤 vs 생성형 AI
최근 월드 모델은 두 가지 거대한 흐름으로 나뉘어 발전하고 있다.
A. 얀 르쿤의 JEPA (Joint Embedding Predictive Architecture)
메타(Meta)의 수석 과학자 얀 르쿤은 현재의 LLM(GPT 등)과 생성형 AI가 진정한 월드 모델이 아니라고 비판한다.
- 비판: 픽셀 단위로 다음 화면을 생성(Generative)하는 것은 낭비이며 불가능에 가깝다. (나무 뒤의 나뭇잎 하나하나를 다 예측할 필요는 없다)
- 제안 (I-JEPA, V-JEPA):
- 비디오의 픽셀을 예측하는 것이 아니라, 추상적인 특징(Representation) 공간에서의 변화를 예측해야 한다.
- "공이 떨어지면 바닥에 닿는다"는 개념만 알면 되지, 바닥의 먼지 위치까지 그릴 필요는 없다는 접근이다.
- 이 방식은 계산 효율이 높고, 물리 법칙과 같은 고차원적인 개념 학습에 유리하다.
B. OpenAI Sora와 생성형 시뮬레이터
반면, OpenAI는 Sora와 같은 비디오 생성 AI를 "World Simulators"라고 칭하며 다른 접근을 취한다.
- 접근: 막대한 데이터와 컴퓨팅 파워로 비디오의 다음 프레임을 계속 예측하게 훈련시키면, 모델이 스스로 물리 법칙, 사물의 영속성, 3차원 공간감을 창발적(Emergent)으로 학습한다는 입장이다.
- 현황: 실제로 Sora는 그림자, 반사, 중력 가속도 등을 명시적으로 배우지 않았음에도 데이터 학습만으로 이를 시뮬레이션했다.
4. 왜 월드 모델이 중요한가?
월드 모델이 완성되면 AI는 다음과 같은 이점을 갖게 됩니다.
- 샘플 효율성 (Sample Efficiency):
- 현재 AI는 자율주행을 배우려면 수만 시간의 실제 주행이 필요하다.
- 월드 모델이 있다면, 시뮬레이션(상상) 속에서 수백만 번 사고를 내보며 안전하고 빠르게 학습할 수 있다.
- 즉, 현실로봇나 실제 서비스에서 "수억번" 행동하기는 어렵다. 하지만 월드모델은 적은 상호작용으로도 ‘세상 규칙’을 압축 학습해 재사용한다.
- 계획 및 추론 (Planning & Reasoning):
- 직관적인 대답(System 1)이 아니라, 여러 단계의 미래를 내다보고 "이렇게 하면 실패하니까 저렇게 하자"는 깊은 사고(System 2)가 가능해진다.
- “이 행동을 하면 5초 뒤에 뭐가 벌어질까?”를 모델 안에서 여러 시나리오로 미리 평가할 수 있다. Dreamer 계열은 이 “latent imagination”을 핵심으로 한다.
- 환각(Hallucination) 감소:
- 물리적/논리적 현실에 기반을 둔 모델이므로, 말이 안 되는 정보 생성을 억제할 수 있는 "상식"을 갖게 된다.
'코딩 및 기타' 카테고리의 다른 글
| LayerNorm , AdaLN이란 (0) | 2026.01.05 |
|---|---|
| attention이란 (0) | 2026.01.02 |
| 학교 복도 ynet 결과 (0) | 2025.11.20 |
| ynet 작업 1 (0) | 2025.11.18 |
| yolo로 '사람 추적' 및 '바운딩 박스' 좌표 저장하기 (0) | 2025.11.17 |