visual-motor capabilties
- visual정보를 활용하여 motor(움직임/조작)을 만들어내는 능력
- visual : stero iamge , depth , optical flow ...
- motor : 로봇의 바퀴 각도 , 속도 등
- 즉, "보면서 움직이는"능력
- ex) 로봇이 카메라로 복도를 보고 장애물을 피해서 이동, 드론이 영상 보며 착륙 지점으로 접근 등
controllable video generation model
- 비디오를 생성/예측하는 모델인데, 사용자가 주는 컨트롤 신호(조건) 에 따라 결과가 달라지는 모델임
- 일반적인 video generation이 “그럴듯한 영상 생성”이라면, controllable은
“원하는 대로(조건에 맞게) 영상이 나오게” 만드는 쪽에 더 초점을 둠.- 컫트롤 신호의 예시
- 에이전트의 action 시퀀스(앞으로 가기, 좌회전 등)
- goal(저 문 앞까지 가라)
- 경로/속도 제약(constraints)
- 이 논문 맥락에서는:
“과거 관측 + 앞으로 할 navigation actions”을 넣으면
→ 그 행동을 했을 때 미래에 보게 될 egocentric 영상을 생성/예측하는 것.
- 컫트롤 신호의 예시
conditional diffusion transformer ( CDiT )
- 이는 크게 3가지를 합친 말이다
- (a) diffusion ( 확산모델)
-
- 처음엔 노이즈(잡음) 에서 시작하거나 / 혹은 타깃을 노이즈로 망가뜨린 뒤
- 여러 단계에 걸쳐 조금씩 노이즈를 제거(denoising) 해서
- 최종 이미지(혹은 비디오 프레임)를 만들어.요즘 이미지 생성에 많이 쓰이는 방식.
- 장점: 고품질/다양한 샘플 생성에 강함.
-
- (b) transformer
- 시퀀스(토큰/프레임/패치)의 긴 문맥 의존성을 잘 잡아.
비디오처럼 “시간적으로 길고 복잡한” 데이터에서 특히 유용.
- 시퀀스(토큰/프레임/패치)의 긴 문맥 의존성을 잘 잡아.
- (c) conditional
- 생성할 때 “아무거나”가 아니라 조건(condition) 을 입력으로 같이 줘서,
그 조건에 맞게 생성하게 만드는 것.
- 생성할 때 “아무거나”가 아니라 조건(condition) 을 입력으로 같이 줘서,
- 즉, Transformer를 기반으로 한 diffusion 모델인데,
관측(과거 프레임), action, goal 같은 조건을 입력으로 받아서
그 조건에 맞는 미래 프레임/비디오를 denoising 방식으로 생성하는 구조.
0. abstract
- 시각-운동 능력(visual-motor capabilities)을 가진 에이전트에게 내비게이션은 핵심 스킬이다.
- 우리는 Navigation World Model (NWM) 을 제안한다.
- NWM은 과거 관측(영상)과 내비게이션 행동을 입력으로 받아, 앞으로의 시각적 관측을 예측하는 controllable video generation model 이다.
- 복잡한 환경 동역학을 포착하기 위해, NWM은 Conditional Diffusion Transformer (CDiT) 를 사용하며, 인간/로봇 에이전트의 다양한 egocentric 비디오로 학습되고 파라미터 수를 10억(1B)까지 스케일업했다.
- 익숙한 환경에서는, NWM이 후보 경로들을 “시뮬레이션(영상 생성)”해보고 목표를 달성하는지 평가함으로써 내비게이션 경로를 계획할 수 있다.
- 고정된 행동만 내는 supervised navigation policy와 달리, NWM은 계획 단계에서 제약조건을 동적으로 반영할 수 있다.
- 실험은 (1) 처음부터 경로를 계획하거나, (2) 외부 policy가 샘플링한 경로들을 랭킹해서 고르는 방식 모두에서 효과적임을 보인다.
- 또한 NWM은 학습된 시각적 prior를 활용해, 낯선 환경에서도 단 한 장의 입력 이미지로부터 “상상(imagine)” 경로를 생성할 수 있어 차세대 내비게이션 시스템에 유연하고 강력한 도구가 된다.

저자는 로봇의 비디오 영상과 그에 대응하는 내비게이션 행동(navigation actions)으로부터 Navigation World Model (NWM) 을 학습한다(a).
학습이 끝나면 NWM은 후보 궤적(trajectories)에 대해, 그 궤적이 만들어낼 비디오를 합성(synthesizing) 하고 마지막 프레임이 목표(goal)와 얼마나 비슷한지 점수화(scoring) 해서 궤적을 평가할 수 있다(b).
우리는 NWM을 사용해 처음부터(plan from scratch) 경로를 계획하거나, 전문가(experts) 내비게이션 궤적을 랭킹(rank) 하여 선택함으로써, 다운스트림(downstream) 시각 내비게이션 성능을 향상시킨다. unknown environments에서는 NWM이 단 한 장의 이미지로부터 상상된(imagined) 궤적을 시뮬레이션할 수 있다(c).
위의 모든 예시에서 모델 입력은 첫 번째 이미지와 행동(action)들이며, 그 다음 모델이 auto-regressively 미래 관측(future observations)을 합성한다.
- (a) navigation world model (좌상단)
- 여기가 이 그림의 핵심 시나리오다.
“후보 경로 2개를 상상(rollout)해서, 목표에 더 가까운 경로를 고른다” 를 시각적으로 보여줌.
- 입력 → 모델 → 출력 구조를 가장 단순하게 보여주는 블록 다이어그램
- 입력 이미지(왼쪽): 에이전트가 현재 보고 있는 1인칭(egocentric) 카메라 뷰.
- 조건(condition)로 들어가는 값: 위에 적힌
navigation action and time (Δx, Δy, Δφ, k)- Δx, Δy: 평면에서의 이동(앞/옆 방향 이동량)
- Δφ: yaw(방향) 회전량(얼마나 틀었는지)
- k: 시간 간격/타임시프트(몇 스텝/몇 초 뒤를 예측하는지에 해당)
- 모델(가운데): Conditional Diffusion Transformer
→ “주어진 action대로 움직였을 때 다음에 보일 장면”을 생성/예측. - 모델 출력(오른쪽): action을 반영한 미래 관측 프레임(예: 조금 앞으로 가서 시점이 바뀐 장면)
- 즉, (a)는 “현재 프레임 + 행동(그리고 시간)”을 넣으면 다음 프레임(미래 시야) 를 뱉는 게 NWM이라는 걸 보여줌.
- 여기가 이 그림의 핵심 시나리오다.
- (b) known environments에서 planning을 위해 궤적 평가 (가운데 큰 패널)
1) 왼쪽: 동일한 시작점에서 서로 다른 후보 행동(두 개의 노란 경로)- 맨 왼쪽의 input 프레임이 시작 관측이고,
- 노란 선이 “이런 식으로 움직이는 action 시퀀스(후보 궤적)”를 의미함.
- 바로 아래 줄에도 또 하나의 input이 있는데, 같은 시작 이미지에서 다른 후보 action(노란 선 모양이 다름)을 준 예시라고 보면 됨.
→ 즉, 후보 궤적 A(윗줄) vs 후보 궤적 B(아랫줄) 비교.
- 각 후보에 대해 모델이 “그대로 움직였을 때 보일 영상”을 연속 프레임으로 합성함.
- 윗줄: gen. (t=4) → gen. (t=8) → gen. (t=12) → gen. (t=16)
- 아랫줄도 동일하게 t=4,8,12,16 프레임이 나열됨.
- auto-regressive라는 말처럼, 첫 프레임과 action들을 기반으로 미래 관측을 순차적으로 이어서 만들어낸다는 것.
- 프레임들을 보면 실내 복도/공간에서 전진하거나 회전하면서 시야가 바뀌는 게 표현됨(광각/어안 렌즈 느낌의 왜곡도 보임).
- 오른쪽에 goal image (input) 이 따로 있음(예: 파란색 통/기기 같은 목표 물체가 보이는 장면).
- 각 후보 궤적의 최종 생성 프레임이 goal과 얼마나 비슷한지 비교해서 Score를 매겨줌.
- 그림에서:
- 윗줄 후보는 초록색 Score(좋음)
- 아랫줄 후보는 빨간색 Score(나쁨)
로 표시되어 “윗 경로가 목표에 더 잘 도달”했음을 직관적으로 보여줌.
- 후보 action 시퀀스 여러 개 만든다
- NWM으로 각 시퀀스의 미래 영상을 “시뮬레이션”한다
- 마지막 프레임이 goal과 비슷한 경로를 선택한다
→ 이게 NWM 기반 planning/ranking의 기본 메커니즘이라는 뜻이다.
- (c) unknown environments에서 imagined trajectories 시뮬레이션 (우상단)
- 여기는 “지도도 없고 학습 때 보던 환경도 아닐 수 있는” unknown environments에서의 능력을 보여주는 부분이다.
- 위쪽 예시는 숲/공원 같은 야외 경로에서,
아래쪽 예시는 큰 건물 앞(성/성곽 같은 외관)에서,
한 장의 시작 이미지를 바탕으로, 특정 action 시퀀스를 넣었을 때 “앞으로 가면 이런 장면이 이어질 것” 같은 상상된( imagined ) 프레임들을 4장씩 보여줌. - 첫 프레임에 그려진 노란 선은 “이런 방향으로 이동하는 궤적”을 암시함.
- 위쪽 예시는 숲/공원 같은 야외 경로에서,
- 즉, (c)는 “낯선 환경에서도 3D 모델 없이, 비디오 prior로 미래 시야를 그럴듯하게 생성해볼 수 있다”는 것을 의미.
- 여기는 “지도도 없고 학습 때 보던 환경도 아닐 수 있는” unknown environments에서의 능력을 보여주는 부분이다.
1.Introduction
- 시각(vision)을 가진 어떤 유기체에게든 내비게이션(navigation) 은 기본적인 능력이며, 에이전트가 먹이와 은신처를 찾고 포식자를 피할 수 있게 해 생존에 중요한 역할을 한다.
- 환경을 성공적으로 탐색하기 위해 똑똑한 에이전트는 주로 시각에 의존하며, 주변 환경의 표현(representation)을 구성해 거리(distance)를 가늠하고, 환경의 랜드마크(landmarks)를 포착하는데, 이는 모두 내비게이션 경로를 계획하는 데 유용하다.
- 인간 에이전트가 계획을 세울 때는 종종 제약(constraints)과 반사실(counterfactuals)을 고려하며 미래의 궤적(trajectories)을 상상한다.
- 반면, 최신 로보틱스 내비게이션 정책들[53, 55]은 “하드코딩(hard-coded)”되어 있어 학습이 끝난 뒤에는 새로운 제약(예: “좌회전 금지”)을 쉽게 도입할 수 없다.
- 또한 현재의 "지도학습 기반 시각 내비게이션 모델"은 어려운 문제를 풀기 위해 계산 자원(computational resources) 을 동적으로 더 배분하는 것이 어렵다는 한계가 있다.
- 우리는 이러한 문제를 완화할 수 있는 새로운 모델을 설계하고자 한다.
- 본 연구에서는 Navigation World Model (NWM) 을 제안한다.
- NWM은 "과거 프레임 표현(representation)"과 "행동(action)"을 바탕으로, 미래 비디오 프레임의 표현을 예측하도록 학습된다(그림 1(a)).
- NWM은 다양한 로봇 에이전트로부터 수집한 비디오 영상과 내비게이션 행동 데이터로 학습된다.
- 학습 이후 NWM은 가능한 내비게이션 계획들을 시뮬레이션하고 목표 지점에 도달하는지 검증함으로써 새로운 내비게이션 궤적을 계획하는 데 사용된다(그림 1(b)).
- 내비게이션 능력을 평가하기 위해, 우리는 NWM을 알려진(known) 환경에서 테스트하며,
(1) NWM이 단독으로 새로운 궤적을 계획하는 능력과
(2) 외부 내비게이션 정책을 통해 샘플링된 궤적들을 랭킹하여 선택하는 능력을 평가한다. - 계획(planning) 설정에서는, NWM을 Model Predictive Control(MPC) 프레임워크로 사용하여 NWM이 목표에 도달하도록 만드는 행동 시퀀스를 최적화한다.
- 랭킹(ranking) 설정에서는 NoMaD[55] 같은 기존 내비게이션 정책에 접근할 수 있다고 가정하고, 그 정책으로 궤적을 샘플링한 뒤 NWM으로 시뮬레이션하여 가장 좋은 궤적을 선택한다.
- 우리의 NWM은 단독(standalone) 성능에서 state-of-the-art를 달성하고, 기존 방법과 결합했을 때도 경쟁력 있는 결과를 보인다.
- NWM은 DIAMOND[1], GameNGen[66] 같은 최근의 diffusion 기반 world model(offline model-based reinforcement learning용)과 개념적으로 유사하다.
- 그러나 NWM은 이들 모델과 달리, 훨씬 넓은 범위의 환경과 embodiment(몸체/플랫폼) 전반에 걸쳐 학습되며, 로봇 및 인간 에이전트의 다양한 내비게이션 데이터의 다양성을 활용한다.
- 이를 통해 우리는 모델 크기와 데이터가 늘어날수록 여러 환경에 적응할 수 있게 효과적으로 스케일되는 대규모 diffusion transformer 모델을 학습할 수 있다.
- 또한 우리의 접근은 NeRF[40], Zero-1-2-3[38], GDC[67] 같은 Novel View Synthesis(NVS) 방법들과도 유사점이 있어 그로부터 영감을 받았다.
- 하지만 NVS와 달리, 우리의 목표는 다양한 환경에서 내비게이션을 위한 단일 모델을 학습하고, 3D prior에 의존하지 않은 채 자연 비디오로부터 시간적 동역학(temporal dynamics)을 모델링하는 것이다.
- NWM을 학습하기 위해 우리는 새로운 Conditional Diffusion Transformer(CDiT) 를 제안한다.
- CDiT는 과거 이미지 상태들과 행동을 컨텍스트로 주었을 때 다음 이미지 상태를 예측하도록 학습된다.
- DiT[44]와 달리, CDiT의 계산 복잡도는 컨텍스트 프레임 수에 대해 선형(linear)이며, 다양한 환경과 embodiment에 걸쳐 최대 10억(1B) 파라미터까지 학습하는 모델에 유리하게 스케일된다.
- 또한 표준 DiT 대비 FLOPs가 4배 적게 들면서도 더 나은 미래 예측 결과를 달성한다.
- 알려지지 않은(unknown) 환경에서 우리의 결과는 NWM이 Ego4D의 라벨 없는(unlabeled), action- 및 reward-free 비디오 데이터로 학습할 때 이점을 얻는다는 것을 보여준다.
- 정성적으로(qualitatively), 단일 이미지에서의 비디오 예측 및 생성 성능이 향상되는 것을 관찰했다(그림 1(c)).
- 정량적으로(quantitatively), 추가적인 라벨 없는 데이터를 사용하면, 홀드아웃(held-out) Stanford Go[24] 데이터셋에서 평가했을 때 NWM이 더 정확한 예측을 생성한다.
- 우리의 기여(contributions)는 다음과 같다.
- 우리는 Navigation World Model(NWM) 을 소개하고, 표준 DiT에 비해 계산 요구량을 크게 줄이면서 최대 10억 파라미터까지 효율적으로 스케일되는 새로운 Conditional Diffusion Transformer(CDiT) 를 제안한다.
- 우리는 다양한 로봇 에이전트의 비디오 영상과 내비게이션 행동 데이터로 CDiT를 학습하여, 내비게이션 계획을 단독으로 또는 외부 내비게이션 정책과 함께 시뮬레이션하며 수행할 수 있게 하고, state-of-the-art 시각 내비게이션 성능을 달성한다.
- 마지막으로 Ego4D처럼 action- 및 reward-free 비디오 데이터로 NWM을 학습함으로써, 보지 못한(unseen) 환경에서 비디오 예측 및 생성 성능이 개선됨을 보인다.
2. Related Work
- 로봇공학에서 Goal-conditioned visual navigation은 지각(perception)과 계획(planning) 능력을 모두 요구하는 중요한 과제이다[8, 13, 15, 41, 43, 51, 55].
- 컨텍스트 이미지(들)과 내비게이션 목표를 지정하는 이미지가 주어졌을 때, goal-conditioned visual navigation 모델들[51, 55]은 환경이 알려져(known) 있으면 목표를 향한 실행 가능한 경로(path)를 생성하고, 그렇지 않으면 환경을 탐색(explore)하는 것을 목표로 한다.
- NoMaD[55] 같은 최근의 visual navigation 방법은 behavior cloning과 temporal distance objective를 통해 diffusion policy를 학습하여, conditional 설정에서는 목표를 따라가고, unconditional 설정에서는 새로운 환경을 탐색한다.
- Active Neural SLAM[8] 같은 이전 접근은 3D 환경에서 궤적을 계획하기 위해 neural SLAM과 분석적(analytical) 플래너를 함께 사용했으며, [9] 같은 다른 접근들은 강화학습(reinforcement learning)으로 policy를 학습한다.
- 여기서 우리는 world model이 탐색(exploratory) 데이터로 계획을 수행하거나 기존 내비게이션 정책을 개선할 수 있음을 보인다.
- policy를 학습하는 것과 달리, world model[19]의 목표는 "환경을 시뮬레이션"하는 것이다.
- 예를 들어 현재 상태(state)와 행동(action)이 주어졌을 때, 다음 상태(next state)와 그에 대응하는 reward를 예측한다.
- 이전 연구들은 policy와 world model을 함께 학습하면 Atari[1, 20, 21], 시뮬레이션 로보틱스 환경[50], 심지어 실제 로봇에 적용할 때도[71] 샘플 효율(sample efficiency)을 높일 수 있음을 보여주었다.
- 더 최근에는 [22]가 action과 task embedding을 도입해, 여러 작업(task) 간에 공유되는 단일 world model을 사용하는 방법을 제안했고,
[37, 73]은 행동을 언어(language)로 기술하는 방법을,
[6]은 latent action을 학습하는 방법을 제안했다.
- 예를 들어 현재 상태(state)와 행동(action)이 주어졌을 때, 다음 상태(next state)와 그에 대응하는 reward를 예측한다.
- world model은 게임 시뮬레이션 맥락에서도 연구되었다.
- DIAMOND[1]와 GameNGen[66]은 diffusion model을 사용해 Atari나 Doom 같은 컴퓨터 게임의 game engine을 학습하는 것을 제안한다.
- 우리의 연구는 이러한 작업들에서 영감을 받았으며, 여러 환경과 서로 다른 embodiment에 걸쳐 내비게이션에 사용할 수 있도록 공유 가능한 단일 범용(general) diffusion video transformer를 학습하는 것을 목표로 한다.
- 우리의 연구는 이러한 작업들에서 영감을 받았으며, 여러 환경과 서로 다른 embodiment에 걸쳐 내비게이션에 사용할 수 있도록 공유 가능한 단일 범용(general) diffusion video transformer를 학습하는 것을 목표로 한다.
- DIAMOND[1]와 GameNGen[66]은 diffusion model을 사용해 Atari나 Doom 같은 컴퓨터 게임의 game engine을 학습하는 것을 제안한다.
- 컴퓨터 비전 분야에서 비디오 생성은 오랫동안 해결하기 어려운 과제였다[3, 4, 17, 29, 32, 62, 74]. 가장 최근에는 Sora[5], MovieGen[45] 같은 방법으로 text-to-video synthesis에서 큰 진전이 있었다.
- 과거 연구들은 구조화된 action-object class category[61]나 Action Graph[2]를 조건으로 비디오 합성을 제어(control)하는 방법을 제안했다.
- 비디오 생성 모델은 강화학습에서 reward로 쓰이거나[10], pretraining 방법으로 쓰이거나[59], 조작(manipulation) 행동을 시뮬레이션하고 계획하는 데 쓰이거나[11, 35], 실내 환경에서 경로를 생성하는 데 활용되기도 했다[26, 31].
- 흥미롭게도 diffusion model[28, 54]은 생성(generation)[69]과 예측(prediction)[36] 같은 비디오 과제뿐 아니라, view synthesis[7, 46, 63]에서도 유용하다.
- 하지만 우리는 명시적인 3D 표현(representation)이나 3D prior 없이, planning을 위해 궤적(trajectory)을 시뮬레이션하는 데 conditional diffusion transformer를 사용한다.
3. Navigation World Models
3.1. Formulation
- 이제 NWM의 formulation을 설명한다.
- 직관적으로 NWM은 현재 세계의 상태(예: 이미지 관측) 와, 어디로 이동하고 어떻게 회전할지를 나타내는 navigation action을 입력으로 받는다.
그리고 에이전트의 시점(point of view)에서 세계의 다음 상태를 출력한다. - 우리는 에이전트의 navigation actions와 함께 주어진 egocentric video dataset을 받는다




- "navigation action a_i" 는 (Habitat [49]처럼) 완전히 관측될 수도 있다.
- 예를 들어 벽을 향해 앞으로 이동하면 물리(physics)에 의해 환경이 반응하여 실제로는 제자리일 수 있다.
반면 다른 환경에서는 navigation action을 에이전트 위치 변화량으로부터 근사(approximate) 할 수도 있다.
- 예를 들어 벽을 향해 앞으로 이동하면 물리(physics)에 의해 환경이 반응하여 실제로는 제자리일 수 있다.
- 저자의 목표는 " world model F"를 학습하는 것이다.
- 이는 "이전의 latent observation(s)"과 "action"로부터, 미래 latent state를 예측하는 확률적 매핑이다.




- 이 formulation은 단순하기 때문에 환경들 사이에서 자연스럽게 공유될 수 있고, 로봇 팔 제어 같은 더 복잡한 action space로 확장도 쉽다.
- [20]과 달리, 우리는 [22]처럼 task/action embedding을 쓰지 않고도 여러 환경과 embodiment 전반에서 단일 world model을 학습하는 것을 목표로 한다.
- 하지만 식 (1)은 action은 모델링하지만 temporal dynamics(시간 진행) 를 직접적으로 제어할 수는 없다.
- 그래서 저자는 "time shift 입력 k"을 추가하여 a_τ = ( u , yaw , k )로 확장한다.
- 이렇게 확장을 한다면, a_ τ는 "시간변화량 k'를 포함하여, 모델이 미래(또는 과거)로 몇 step 이동해서 예측할지를 정한다.
- 따라서 "현재 상태 s_τ"가 주어졌을 때 우리는 무작위로 timeshift 를 선택하고,
해당하는 time-shifted video frame을 다음 상태 s_{τ+1} 로 사용한다.- 이때부터 τ부터 m=τ+k−1까지의 action을 합산한 값으로 근사할 수 있다.



- 한 가지 어려움은 action과 time이 서로 얽히는(entanglement) 문제다.
- 예를 들어 특정 위치에 도달하는 것이 항상 특정 시간에만 일어나면, 모델이 action을 무시하고 시간만 보고 맞추려 하거나 그 반대가 될 수 있다.
- 하지만 실제 데이터에는 같은 지역에 서로 다른 시간에 도달하는 등의 자연스러운 counterfactual이 들어 있을 수 있다.
- 우리는 이런 counterfactual을 장려하기 위해 학습 중 각 상태에 대해 여러 goal을 샘플링한다.
- 이 접근은 Section 4에서 더 다룬다.
- 예를 들어 특정 위치에 도달하는 것이 항상 특정 시간에만 일어나면, 모델이 action을 무시하고 시간만 보고 맞추려 하거나 그 반대가 될 수 있다.

CDiT(Conditional Diffusion Transformer) 블록이 “미래 프레임(denoise 대상)”을 예측할 때, 과거 프레임(컨텍스트) 를 어떻게 효율적으로 쓰는지, 그리고 action/time 조건을 어떻게 주입하는지(=conditioning) 를 한 번에 보여주는 구조도이다.
- 1) CDiT블록의 역할
- 노이즈가 섞인 "미래 상태 Future State s_{τ+1}"토큰을 "과거 context 상태들 s_τ "과 "action/time조건 a_τ =( u , yaw , k )" , diffusion timestep t를 보고 denoise하는 블록이다.
- “미래 상태” = 지금 생성(복원)하려는 타깃 프레임(latent)
- “컨텍스트 상태” = 과거 개 프레임(latent)
- “조건” = action, time shift, diffusion step
- 노이즈가 섞인 "미래 상태 Future State s_{τ+1}"토큰을 "과거 context 상태들 s_τ "과 "action/time조건 a_τ =( u , yaw , k )" , diffusion timestep t를 보고 denoise하는 블록이다.
- 2) 입력은 3가지이다.
- (A) Future State (타깃 프레임 토큰)
- 그림 왼쪽 아래 Future State s_{τ+1} 로 표시된 것.
- 실제 diffusion에서는 깨끗한 s_{τ+1} 이 아니라, 노이즈 버전 s_{τ+1} 가 들어가며, 블록은 이를 점점 "깨끗한 latent"로 복원하도록 학습됨.
- 그림 왼쪽 아래 Future State s_{τ+1} 로 표시된 것.
- (B) Context States (과거 프레임 토큰들)
- 오른쪽 회색 박스
- 과거 프레임들의 latent토큰들이며, 이들은 Self-Attention의 대상이 아니라 주로 Cross-Attention의 K,V(키/값) 로 쓰임(점선 화살표 K,V)
- =============================부연설명=============================
- Attention은 기본적으로 “현재 토큰이 참고할 정보들을 골라서 섞는 연산”이다.
이때 쓰는 3가지는 Q,K,V이다.- Q (Query): “지금 내가 찾고 싶은 것(질문)”
- K (Key): “각 정보가 어떤 질문에 잘 맞는지 나타내는 주소/태그”
- V (Value): “실제로 가져올 내용(정보 본문)”
- Cross-Attention에서 뭐가 Q고 뭐가 K,V인가?
- Q: 현재 denoise 중인 타깃 프레임 토큰들
- K,V: 과거 프레임들(컨텍스트)의 토큰들
- 즉 “현재 프레임의 각 토큰이, 과거 프레임 토큰들 중 어디를 참고할지”를 계산하는 것
- 한 토큰 관점에서 직관...
- Q가 “나는 지금 화면의 이 위치(패치)가 어떤 상태인지 알고 싶어”
- K가 “과거 프레임들 각 위치는 어떤 특징을 갖고 있어”
- Q·K 유사도로 가중치(어디를 참고할지)를 만들고
그 가중치로 V들을 가중합해서 “참고해서 만든 새 표현”을 얻는다.
- Attention은 기본적으로 “현재 토큰이 참고할 정보들을 골라서 섞는 연산”이다.
- ================================end====================================
- 오른쪽 회색 박스
- (C) Conditioning a_τ = + diffusion timestep t
- 오른쪽 아래 Conditioning aτ=(ϕ,u,k),t .
- 이 조건이 “이번 denoise는 어떤 action/time 설정을 따른 미래를 만들어야 한다”를 알려줌.
- 오른쪽 아래 Conditioning aτ=(ϕ,u,k),t .
- (A) Future State (타깃 프레임 토큰)
- 3) 조건 주입부: Embedding → AdaLN → (γ, β, α) 생성
- 그림 오른쪽 아래에 Embedding → AdaLN 이 있고, 거기서 각 서브레이어에 들어가는 파라미터가 뽑힘.
- AdaLN은 LayerNorm으로 정규화하고, 그 결과에 조건(condition)에서 만든 scale/shift로 modulation을 거는 구조다.
- γ1, β1 , γ3, β3 , γ4, β4
- Scale, Shift(스케일/시프트)로 LayerNorm 출력에 적용되는 modulation 값
- ====================부연설명================================
- Scale(스케일) = 곱하기(크기 조절), Shift(시프트) = 더하기(이동)
- 특징 벡터 hh에 대해, h′=γ⊙h+β
- γ: scale (각 채널별로 곱하는 값)
- β: shift (각 채널별로 더하는 값)
- ⊙: 원소별(elementwise) 곱
- 왜 하냐?
- “좌회전 조건이면 회전과 관련된 특징을 더 키우고( γ↑ )”
- “전진 조건이면 전진 관련 특징을 이동( β )”
같은 식으로 조건부로 표현을 조절(modulate) 할 수 있다.
- 조건(예: action/time)에 따라 같은 네트워크라도 출력 성향을 바꾸고 싶을 때 아주 많이 쓰는 방법이다.
- LayerNorm(Layer Normalization)
- 한 토큰의 특징 벡터를 평균 0, 분산 1 비슷하게 정규화해서 학습을 안정화시키는 연산
- modulation(모듈레이션)
- modulation은 “조건에 따라 내부 활성값을 조절하는 것”을 통칭해
- =======================end=========================
- Scale, Shift(스케일/시프트)로 LayerNorm 출력에 적용되는 modulation 값
- α1 , α2 , α3
- 각 서브레이어 출력에 곱해지는 Scale(게이팅) 값(잔차(residual)로 더하기 전에 크기 조절)
- 즉,
- 는 “정규화된 특징을 조건에 맞게 약간 비틀기(modulate)”
- α는 “이 레이어를 얼마나 세게 반영할지(게이트)” 같은 역할
- action/time 조건은 attention/FFN 구조를 바꾸는 게 아니라, 각 레이어의 출력을 ‘조건에 맞게 조절’하는 방식으로 들어감(AdaLN conditioning)
- 그림 오른쪽 아래에 Embedding → AdaLN 이 있고, 거기서 각 서브레이어에 들어가는 파라미터가 뽑힘.
- 4) 블록 내부는 표준 Transformer 3단 구성인데, 핵심 차이는 “Self-Attn을 어디에할까?"이다.
- CDiT 블록은 기본적으로 Transformer처럼 3개 서브레이어가 순서대로 되어 있다.
- 1. Self-Attention (타깃 프레임끼리만)
- 2. Cross-Attention (타깃이 과거 컨텍스트를 봄)
- 3. Pointwise Feedforward (MLP)
- 각 서브레이어는 공통적
- LayerNorm → (Scale,Shift) → 연산(Attention/MLP) → Scale(α) → Residual Add(+)
패턴
- LayerNorm → (Scale,Shift) → 연산(Attention/MLP) → Scale(α) → Residual Add(+)
- CDiT 블록은 기본적으로 Transformer처럼 3개 서브레이어가 순서대로 되어 있다.
- 5) (1) Multi-Head Self-Attention: “타깃 프레임 토큰들끼리만”
- 그림에서 주황색 Multi-Head Self-Attention 블록.
- 1. 타깃 프레임 토큰 → Layer Norm
- 2. 그 출력에 Scale, Shift(γ₁, β₁) 적용
- 3. 그 결과로 Self-Attention 수행
- 4. 결과를 Scale(α₁) 로 조절
- 5. 원래 입력에 Residual로 더함(+)
- 여기 Self-Attention은 과거 프레임 토큰 전체가 아니라, “현재 denoise 중인 타깃 프레임 토큰들”에만 걸림.
그래서 타깃 프레임 내부의 공간적/패치 간 관계를 잡되, 컨텍스트 전체를 서로 self-attn 하게 만들지 않음.
- 그림에서 주황색 Multi-Head Self-Attention 블록.
- 6) (2) Multi-Head Cross-Attention: “타깃(Q)이 과거(K,V)를 참조”
- 그림에서 분홍색 Multi-Head Cross-Attention 블록.
- Query(Q): 타깃 프레임 토큰
- Key/Value(K,V): 컨텍스트(과거 프레임) 토큰들 ← 점선 K,V 화살표로 표시됨
- 타깃 토큰 → LayerNorm
- Scale,Shift(γ₃,β₃)
- Cross-Attention(Q=target, K,V=context)
- Scale(α₂)
- Residual add(+)
- 그림에서 분홍색 Multi-Head Cross-Attention 블록.
- 7) (3) Pointwise Feedforward (MLP): “토큰별 비선형 변환”흐름( 그림에서 초록색 Pointwise Feedforward 블록 ):
- 타깃 토큰 → LayerNorm
- Scale,Shift(γ₄,β₄)
- MLP(FFN)
- Scale(α₃)
- Residual add(+)
- attention이 관계(상호작용)를 잡아주면
- FFN은 각 토큰의 표현을 비선형적으로 “가공/정제”해줌
- 8) “CDiT Block (xN)” 의미
- 이 블록을 N번 쌓아서(깊게 해서) denoising 성능을 올린다는 뜻이야.
- Diffusion에서는 timestep마다(혹은 샘플링 단계마다) 이런 블록이 여러 번 적용되면서 점점 더 깨끗한 s_{τ+1}을 만들게 됨.
- =====> 이 블록을 “내비게이션 월드모델” 관점에서 다시 보면
- 타깃 프레임을 denoise할 때, 모델은
- 과거 프레임들을 보고 “내가 지금 어디쯤이고 어떤 방향인지”를 잡고
- action/time 조건을 AdaLN으로 주입받아 “그 action을 했을 때의 미래”로 복원하도록 유도됨.
- 그래서 결과적으로 “action-conditioned 미래 관측 생성”이 가능해지고,
- 그 생성된 미래를 이용해 planning에서 후보 경로를 평가(Goal 유사도 등)할 수 있게 되는 것.
- 타깃 프레임을 denoise할 때, 모델은
3.2 Diffusion Transformer as World Model
- 이전 섹션에서 언급했듯이, 저자는 확률적인(stochastic) 환경을 시뮬레이션할 수 있도록 를 확률적 매핑(stochastic mapping) 으로 설계한다.
- 이는 다음에 설명할 Conditional Diffusion Transformer (CDiT) 모델을 사용하여 달성한다.
3.2.1 Conditional Diffusion Transformer Architecture.
- 저자가 사용하는 아키텍처는 시간적으로 autoregressive한 transformer 모델이며,
효율적인 CDiT block(Figure 2 참고)을 사용한다.
이 블록은 latent 시퀀스(입력 action conditioning 포함)에 대해 번 반복 적용된다. - CDiT는, 첫 번째 attention block에서 attention이 denoise 중인 target frame의 토큰들에만 가도록 제한함으로써, 시간 효율적인 autoregressive 모델링을 가능하게 한다.
- 과거 프레임의 토큰들로 conditioning하기 위해, 우리는 cross-attention layer를 포함한다.
- 즉, 현재 target(denoise 대상) 프레임의 각 query token은,
과거 프레임 토큰들에 attention을 수행하며(이 과거 토큰들은 keys와 values로 사용됨),
cross-attention 결과는 skip connection layer를 사용해 표현(representation)을 컨텍스트화(contextualize)한다.
- 과거 프레임의 토큰들로 conditioning하기 위해, 우리는 cross-attention layer를 포함한다.
- 내비게이션 action a를 action a∈R^3 로 conditiong하기 위해서 아래의 과정을 거친다....

- 1. 먼저 각 스칼라 성분을 사인-코사인(sine-cosine) 특징을 추출한 뒤, 2-layer MLP를 적용하여 R^{d/3}으로 매핑

- 2. 이를 이어붙여(concatenate) 하나의 벡터 ψ_a ∈ R^d를 만든다.

- 3. timeshift k∈R를 ψ_k∈R^d로,
diffusion timestep t∈R를 ψ_t∈R^d로 매핑하는 것도 유사한 과정을 따른다.


- 4. 마지막으로 conditioning에 사용되는 하나의 벡터를 만들기 위해 모든 embedding을 합한다(더한다).

- 5. 그 다음 ξ를 AdaLN 블록에 넣어, Layer Normalization 출력과 attention layer 출력들을 modulation하는 scale/shift 계수를 생성한다.
- unlabeled data로 학습할 때는, 를 계산할 때 명시적인 navigation action을 그냥 생략한다.(식 3 참고)
- 대안으로는 단순히 DiT[44]를 쓰는 방법이 있다.
- 하지만 전체 입력에 DiT를 적용하는 것은 계산적으로 비싸다.
- 프레임당 입력 토큰 수를 , 프레임 수를 , 토큰 차원을 라고 하자.
Scaled Multi-Head Attention Layer[68]의 복잡도는 attention 항에 지배되며 O( M^2 n^2 d )인데, 이는 컨텍스트 길이(프레임 수)에 대해 quadratic이다.
반면 우리의 CDiT 블록은 cross-attention layer 복잡도 O( m n^2 d )가 지배적이며, 이는 컨텍스트에 대해 linear이다.
따라서 더 긴 컨텍스트를 사용할 수 있다.
저자는 이 두 설계 선택을 Section 4에서 분석한다.
CDiT는 컨텍스트 토큰들에 대해 비싼 self-attention을 적용하지 않는다는 점에서, 원래 Transformer block과 유사하다.
3.2.2 Diffusion Training
- forward process에서는, 무작위로 선택한 timestep t∈{1,…,T}에 따라, 목표 상태 s_{τ+1}에 noise를 더한다.
noisy state는 다음과 같이 정의할 수 있다.- 여기서 ϵ∼N(0,1)는 Gaussian noise이다.
a_t는 분산을 제어하는 noise schedule이다. t가 증가할수록 noise state는 순수한 noise로 수렴한다.
- 여기서 ϵ∼N(0,1)는 Gaussian noise이다.


- reverse process는 noisy버전 s^(t)_{T+1}로부터 원래의 상태 표현 s_{T+1}을 복원하려고 시도한다.
- 이 복원은 컨텍스트 s_T , 현재 action a_T , 그리고 diffusion timestep t 에 조건(condition)된다.
- 저자는 F_ θ( S_{T+1} | S_T , a_T , t )를 파라미터 θ를 가진 denoising neural network 모델로 정의한다.
- 저자는 DiT[44]와 동일한 noise schedule 및 hyperparameters를 따른다.

3.2.3 Training Objective
- 모델은 깨끗한(clean) 타깃과 예측된(predicted) 타깃 사이의 mean-squared error를 최소화하도록 학습되며, denoising process를 학습하는 것을 목표로 한다.

- 이 objective에서는, timestep 를 무작위로 샘플링하여 모델이 다양한 오염(corruption) 수준에서 프레임을 denoise하는 법을 학습하도록 한다.
- 이 loss를 최소화함으로써, 모델은 컨텍스트 s_τ 와 action a_τ에 조건(condition)된 상태에서 noisy 버전 s^(t)_{T+1}로 부터 s_{T+1}을 재구성하는 법을 학습하게 되고, 그 결과 현실적인 미래 프레임을 생성할 수 있게 된다.
- DiT[44]를 따라, 저자는 noise의 공분산 행렬(covariance matrix) 또한 예측하고, 이를 variational lower bound loss [42]로 감독(supervise)한다.
3.3 Navigation Planning with World Models
- 여기서는 학습된 NWM을 사용하여 내비게이션 궤적(navigation trajectories)을 어떻게 계획(planning)하는지 설명한다.
- 직관적으로, 우리의 world model이 어떤 환경에 익숙하다면, 그것을 이용해 내비게이션 궤적을 시뮬레이션하고 목표(goal)에 도달하는 궤적을 선택할 수 있다.
- 반대로, 알려지지 않은(out-of-distribution) 환경에서는 장기(long-term) 계획이 상상(imagination)에 의존할 수도 있다.
- 형식적으로 latent encoding s_0과 내비게이션 목표 s*주어진다.
이때 s*에 도달한 가능도(likelihood)를 최대화하는 sequence of actions를 찾는다.

- 초기 조건 s_0 , 행동 a = ( a_0 , ... , a_{T-1} ) , NVM을 autogressive하게 rollout하여 얻은 상태 s=(s_1 , ... , s_T)가 주어진다고 하자.
이때 최종상태 s_T가 목표상태 s*에 도달하는 것에 대한 정규화되지 않은(unormalized) 점수(score) 라고 하자.

- 여기에서 상태들은 아래와 같이 NWM으로 rollout하여 얻는다.

- 에너지 함수를 아래와 같이 정의한다.

- 여기서 에너지를 최소화하는 것은, 정규화되지 않은 지각적 유사도(perceptual similarity) 점수를 최대화하고,
상태와 행동에 대한 가능한 제약조건(constraints)을 따르는 것에 대응된다. ( 아래 식 )

- 유사도(similarity)는 pretrained VAE decoder[4]를 사용해 와 s_T를 픽셀 공간으로 디코딩한 다음,
지각적 유사도(perceptual similarity)[14, 75]를 측정하여 계산한다. - “왼쪽으로 갔다가 오른쪽으로는 절대 가지 마(never go left then right)” 같은 제약은 a_ 가 유효 행동 집합 A_valid안에 있도록 제한함으로써 표현할 수 있고,
“절벽 가장자리는 절대 탐색하지 마(never explore the edge of the cliff)” 같은 제약은 해당 상태 s_ 가 S_safe 안에 있도록 함으로써 표현할 수 있다. - II 는 indicator function으로, 어떤 행동 제약 또는 상태 제약이 위반되면 큰 페널티를 부여한다.
- 그러면 문제는 이 에너지 함수를 최소화하는 행동을 찾는 것으로 줄어든다(아래 식 )

- 이 objective는 Model Predictive Control(MPC) 문제로 다시 정식화할 수 있으며, 우리는 이를 Cross-Entropy Method(CEM)[48]로 최적화한다.
- CEM은 미분이 필요 없는(derivative-free) 간단한 population 기반 최적화 방법으로, 최근 world model을 사용한 planning에 활용된 바 있다[77].
- 우리는 Cross-Entropy Method의 개요와 전체 최적화 기술적 세부사항을 Appendix 7에 포함한다.
4. Experiments and Results
- 우리는 실험 설정, 우리의 설계 선택(design choices)을 설명하고, NWM을 기존 접근들과 비교한다.
- 추가 결과는 Supplementary Material에 포함되어 있다.
4.1 Experimental Setting
4.1.1 Datasets.
- 모든 로보틱스 데이터셋(SCAND[30], TartanDrive[60], RECON[52], HuRoN[27])에 대해서는 로봇의 위치(location)와 회전(rotation) 정보에 접근할 수 있으며, 이를 통해 현재 위치 대비 상대적 행동(relative actions)을 추정할 수 있다(식 2 참고).
- 서로 다른 에이전트들 사이에서 step 크기를 표준화하기 위해, 우리는 프레임 사이에서 에이전트가 이동한 거리를 그 에이전트의 평균 step 크기(미터 단위)로 나눈다.
- 이렇게 하면 서로 다른 에이전트들에 대해 action space가 유사해지도록 할 수 있다.
또한 NoMaD[55]를 따라 후진(backward) 움직임은 제거(filter out)한다. - 추가로 우리는 라벨 없는(unlabeled) Ego4D[18] 비디오를 사용하며, 여기서는 우리가 고려하는 action은 time shift뿐이다.
- SCAND는 다양한 환경에서의 사회적으로 복잡한(socially-compliant) 내비게이션 비디오 영상을 제공하고, TartanDrive는 오프로드 주행(off-road driving)에 초점을 맞추며, RECON은 오픈월드 내비게이션을 다루고, HuRoN은 사회적 상호작용(social interactions)을 담고 있다.
- 우리는 라벨 없는 Ego4D 비디오로도 학습하며, GO Stanford[24]를 unknown evaluation environment로 사용한다.
- 전체 세부사항은 Appendix 8.1을 참고하라.
4.1.2 Evaluation Metrics
- 우리는 예측된 내비게이션 궤적을 정확도(accuracy) 측정을 위해 Absolute Trajectory Error(ATE) 로, 그리고 자세 일관성(pose consistency)측정을 위해 Relative Pose Error(RPE) 로 평가한다[57].
- 월드모델 예측이 정답(ground truth) 이미지와 의미적으로(semantically) 얼마나 유사한지 확인하기 위해, deep feature를 비교하는 LPIPS[76]와 DreamSim[14]을 적용해 perceptual similarity를 측정하고, 픽셀 수준 품질을 위해 PSNR을 사용한다.
- 이미지/비디오 합성 품질을 평가하기 위해서는 생성된 데이터 분포를 평가하는 FID[23]와 FVD[64]를 사용한다. 더 자세한 내용은 Appendix 8.1에....
4.1.3 baselines
우리는 다음의 모든 baseline을 고려한다.
- DIAMOND[1]는 UNet[47] 아키텍처 기반의 diffusion world model이다.
우리는 공개된 코드를 따라 offline-reinforcement learning 설정에서 DIAMOND를 사용한다.
이 diffusion model은 autoregressive하게 56×56 해상도를 예측하도록 학습되며, upsampler를 함께 사용해 224×224 해상도의 예측 결과를 얻는다.
연속적인(continuous) action을 conditioning하기 위해 linear embedding layer를 사용한다. - GNM[53]는 로봇 내비게이션 데이터셋들의 부분집합에서 학습된 일반(goal-conditioned) 내비게이션 policy이며, fully connected trajectory prediction network를 사용한다.
GNM은 SCAND, TartanDrive, GO Stanford, RECON 등을 포함한 여러 데이터셋에서 학습된다. - NoMaD[55]는 로봇 탐색(robot exploration)과 시각 내비게이션을 위한 궤적을 예측하기 위해 diffusion policy를 사용하여 GNM을 확장한 방법이다.
NoMaD는 GNM과 HuRoN이 사용한 것과 동일한 데이터셋에서 학습된다.
4.1.4 Implementation Details
- 기본 실험 설정에서 우리는 컨텍스트 프레임 4개를 사용한 CDiT-XL (10억 파라미터) 을 사용하며, 총 배치 크기(batch size)는 1024이고, 서로 다른 내비게이션 goal 4개를 사용하여 최종 총 배치 크기를 4096으로 만든다.
- 우리는 DiT[44]에서 사용하는 것과 유사한 Stable Diffusion VAE tokenizer[4]를 사용한다. 옵티마이저는 AdamW[39]이며 learning rate는 를 사용한다.
- 학습 후에는 각 모델에서 5번 샘플링하여 평균(mean)과 표준편차(std) 결과를 보고한다. XL 크기의 모델은 8대의 H100 머신(각 머신당 GPU 8개)에서 학습했다. 별도 언급이 없는 한, 우리는 DiT-k/2 모델과 동일한 설정을 사용한다.

Navigation World Models
Teaser --> Your browser does not support the video tag. Abstract Navigation is a fundamental skill of agents with visual-motor capabilities. We introduce a Navigation World Model (NWM), a controllable video generation model that predicts future visual obse
www.amirbar.net

4.2 Ablations
- 모델들은 알려진 환경인 RECON에서, 검증 세트 궤적들에 대해 단일 스텝(single-step) 4초 미래 예측으로 평가된다.
- 우리는 정답(ground truth) 프레임과 비교하여 LPIPS, DreamSim, PSNR을 측정함으로써 성능을 평가한다.
- 정성적(qualitative) 예시는 Figure 3에 제시한다.
4.2.1 Model Size and CDiT
- 우리는 CDiT(Section 3.2 참고)를, 모든 컨텍스트 토큰을 입력으로 넣는 표준 DiT와 비교한다.
- 우리는 알려진 환경에서 내비게이션할 때 모델의 용량(capacity)이 가장 중요하다고 가정하며, Figure 5의 결과는 CDiT가 실제로 최대 1B 파라미터까지 모델 크기를 키울수록 성능이 더 좋아지면서도, 2배 미만의 FLOPs만 소비함을 보여준다.
- 놀랍게도, 파라미터 수가 같더라도(예: CDiT-L vs DiT-XL), CDiT는 4배 더 빠르고 성능도 더 좋다.

4.2.2 Number of Goals
- 우리는 고정된 컨텍스트를 주고 goal state의 개수를 1에서 4로 바꾸면서 모델을 학습한다.
- 각 goal은 현재 상태를 기준으로 ±16초 윈도우 안에서 무작위로 선택된다.
- Table 1의 결과는 goal을 4개 사용하면 모든 지표에서 예측 성능이 크게 향상됨을 보여준다.
4.2.3 Context Size
- 우리는 conditioning 프레임 수를 1에서 4로 바꾸며 모델을 학습한다(Table 1 참고).
- 예상대로 컨텍스트가 많을수록 도움이 되며, 컨텍스트가 짧으면 모델이 자주 “track을 잃고(lose track)” 예측이 나빠진다.
4.2.4 Time and Action Conditioning
- 우리는 time conditioning과 action conditioning을 모두 사용해 모델을 학습하고, 각 입력이 예측 성능에 얼마나 기여하는지 테스트한다(결과는 Table 1에 포함).
- 우리는 time만 넣고 돌리면 성능이 나쁘고, 반대로 time conditioning을 아예 하지 않으면 성능이 약간 떨어지는 정도라는 것을 발견했다.
이는 두 입력 모두 모델에 유익하다는 것을 확인해준다.

4.3 Video Prediction and Synthesis
- 우리는 모델이 정답(ground truth) action을 얼마나 잘 따르며 미래 상태를 예측하는지 평가한다.
- 모델은 첫 번째 이미지와 컨텍스트 프레임들에 조건(condition)되며, 정답 action을 사용해 다음 상태를 autoregressive하게 예측하고, 각 예측 결과를 다시 입력으로 피드백(feeding back)한다.
- 우리는 예측 결과를 RECON 데이터셋에서 1, 2, 4, 8, 16초 시점의 정답 이미지와 비교하여 FID와 LPIPS를 보고한다.
- Figure 4는 DIAMOND와 비교해 시간에 따른 성능을 보여주는데,
4 FPS와 1 FPS 설정에서 NWM의 예측이 DIAMOND보다 유의미하게 더 정확함을 보여준다. - 초반에는 NWM 1 FPS 변형이 더 좋은 성능을 보이지만, 8초가 지나면 누적 오차와 컨텍스트 손실 때문에 예측이 악화되고, 그 시점부터는 4 FPS 설정이 더 우수해진다.
- 정성적 예시는 Figure 3에 .....
4.3.1 Generation Quality
- 비디오 품질을 평가하기 위해, 우리는 정답 action에 조건을 건 채 4 FPS로 16초 동안 비디오를 autoregressive하게 예측해 영상을 생성한다.
- 그 다음 생성된 비디오의 품질을 FVD로 평가하고 DIAMOND[1]와 비교한다.
- Figure 6의 결과는 NWM이 더 높은 품질의 비디오를 출력함을 나타낸다.
4.4 Planning Using a Navigation World Model
- 다음으로, NWM을 사용해 내비게이션을 얼마나 잘 할 수 있는지 측정하는 실험들을 설명한다.
- 실험의 전체 기술적 세부사항은 Appendix 8.2에 포함되어 있다.
4.4.1 Standalone Planning
- 우리는 NWM이 goal-conditioned navigation에서 독립적으로(standalone) 효과적으로 사용될 수 있음을 보인다.
- 우리는 과거 관측(past observations)과 goal image에 조건을 걸고, Cross-Entropy Method(CEM) 를 사용해 마지막에 예측되는 이미지가 goal image와의 LPIPS 유사도가 최소가 되도록 하는 trajectory를 찾는다(식 5 참고). 어떤 action sequence를 랭킹할 때는, 마지막 상태와 goal 사이의 LPIPS를 3번 측정해 평균 점수를 얻는다. 우리는 길이 8의 trajectory를 생성하며, time shift는 k=0.25k=0.25 를 사용한다. 모델 성능은 Table 2에서 평가한다. NWM을 planning에 사용하면 기존 state-of-the-art policy들과 경쟁력 있는 결과를 얻는다는 것을 확인했다.
4.4.2 Planning with Constraints
world model은 제약조건(constraints) 하에서의 planning을 가능하게 한다. 예를 들어 직진(straight) 움직임이나 단 한 번의 회전(single turn)을 요구하는 제약이 있을 수 있다. 우리는 NWM이 constraint-aware planning을 지원함을 보인다.
- forward-first에서는 에이전트가 5 step 동안 전진한 뒤 3 step 동안 회전한다.
- left-right first에서는 3 step 동안 회전한 뒤 전진한다.
- straight then forward에서는 3 step 동안 직진한 뒤 전진한다.
제약은 특정 action을 0으로 만들어 적용한다. 예를 들어 left-right first에서는 처음 3 step 동안 전진 동작(forward motion)을 0으로 만든다. 그리고 Standalone Planning이 나머지를 최적화한다. 우리는 제약 없는 planning에 비해 최종 위치(final position)와 yaw의 차이(norm)를 보고한다. 결과(Table 3)는 NWM이 제약 하에서도 효과적으로 계획하며, 성능 하락은 작음을 보여준다(예시는 Figure 9 참고).
4.4.3 Using a Navigation World Model for Ranking
NWM은 goal-conditioned navigation에서 기존 내비게이션 policy를 강화할 수 있다. 우리는 NoMaD를 과거 관측과 goal image에 조건을 걸고, 길이 8의 trajectory를 n∈{16,32}n \in \{16, 32\} 개 샘플링한 다음, NWM을 사용해 각 trajectory를 행동을 따라 autoregressive하게 시뮬레이션하여 평가한다. 마지막으로 각 trajectory의 최종 예측이 goal image와 얼마나 유사한지 LPIPS로 측정하여 trajectory를 랭킹한다(그림 7 참고). 우리는 in-domain 모든 데이터셋에서 ATE와 RPE를 보고(Table 2), NWM 기반 trajectory ranking이 내비게이션 성능을 향상시키며 샘플 수가 많을수록 더 좋은 결과를 낸다는 것을 확인했다.
4.5 Generalization to Unknown Environments
여기서는 라벨 없는(unlabeled) 데이터를 추가하는 실험을 하고, NWM이 상상(imagination) 을 사용해 새로운 환경에서 예측을 할 수 있는지 묻는다. 이 실험에서 우리는 모든 in-domain 데이터셋들과, time-shift action만 접근 가능한 Ego4D의 라벨 없는 비디오 일부를 함께 사용하여 모델을 학습한다. 우리는 CDiT-XL 모델을 학습하고, GO Stanford 데이터셋 및 다른 임의의 이미지들에서 테스트한다. 결과는 Table 4에 보고하며, 라벨 없는 데이터로 학습하는 것이 모든 지표에서(생성 품질 향상 포함) 비디오 예측을 유의미하게 개선한다는 것을 확인한다. Figure 8에는 정성적 예시를 포함한다. in-domain(Figure 3)과 비교했을 때, 모델은 더 빨리 깨지며(breaks faster) 예상대로 상상된 환경에서의 이동(traversals)을 생성하면서 환각(hallucinate)하기 시작한다.
5. Limitations
우리는 여러 한계를 확인한다. 첫째, 분포 밖(out-of-distribution) 데이터에 적용하면 모델이 서서히 컨텍스트를 잃는 경향이 있고, 학습 데이터와 비슷한 다음 상태들을 생성하는데, 이는 이미지 생성에서 관찰되며 mode collapse[56, 58]로 알려진 현상이다. 우리는 Figure 10에 그 예시를 포함한다. 둘째, 이 모델은 계획(planning)은 할 수 있지만, 보행자 움직임(pedestrian motion) 같은 시간적 동역학(temporal dynamics)을 시뮬레이션하는 데는 어려움을 겪는다(일부 경우에는 가능하긴 하지만). 이 두 한계는 더 긴 컨텍스트와 더 많은 학습 데이터로 해결될 가능성이 높다. 추가로, 현재 모델은 3 DoF 내비게이션 action을 사용하지만, 6 DoF 내비게이션으로의 확장이나 (로봇 팔 관절 제어처럼) 그보다 더 복잡한 확장도 가능하며, 이는 향후 과제로 남긴다.