논문

[Trajectory] MUSE-VAE

정지홍 2025. 9. 15. 15:08

MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction

 

MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction

 

[2201.07189] MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction

 

MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction

Accurate long-term trajectory prediction in complex scenes, where multiple agents (e.g., pedestrians or vehicles) interact with each other and the environment while attempting to accomplish diverse and often unknown goals, is a challenging stochastic forec

arxiv.org

 


 

coarse ==> 거친

fine ==> 세밀

 

coarse to fine ==> 학습을 "거칠게"에서 "세밀하게" 점진적으로 접근하는 전략을 의미.

 

granularity ==>  feature를 얼마나 세분화해서 다루는 지를 의미... ( 분할 정도 or 세밀함의 수준 ). 딥러닝에서 낮은 granularity는 전체적이고 큰 스케일의 특징을 의미한다. 반대로 높은 granularity는 세부적이고 작은 부분의 정보를 의미한다.

 

joint uncertainty ==> 여러 변수나 예측치가 동시에 가질수 있는 불확실성을 의미.

 

stage-wise ==> "여러 단계 , 즉, stage별로 순차적으로 무언가를 진행한다"는 의미

                        학습,최적화 등에서 전체과정을 한번에 처리하지 않고, 여러개의 뚜렷한 단계로 나누어서 각각을 별도로 처리하거나 학습하는 방식.

 

MUSE-VAE는 크게 두 단계로 구현되는거 같다... Macro-stage ↔ Micro-stage  

 

temporal scale( 시간적 스케일 )

-- macro ==> 먼 미래의 long-term goal → 이어지는 short-term goals(중간 waypoint)처럼, coarse한 계획을 먼저 예측

-- micro ==> 그 목표들을 조건으로, 매 time-step의 세밀한 trajectory를 생성

 

spatial scale ( 공간적 스케일)

-- macro ==> semantic environment map + trajectory heatmap을 픽셀 공간에서 합쳐 전역/넓은 맥락을 본다.

-- micro ==> 에이전트 주변의 국지적(local) 공간을 따라 실제 경로를 정교하게 꺾고 부딪힘을 피함

 

표현 스케일 (representation scale)

-- Macro ==>  heatmap 기반의 coarse 목표 표현

-- Micro ==> 좌표 시퀀스/hidden state 등 fine한 spatio-temporal representation

 

 


0. Abstract

  • complex scens에서 여러 에이전트(예: 보행자, 차량)가 서로와 환경과 상호작용하며,
    다양하고 때로는 알려지지 않은 목표를 달성하려 할 때,
    정확한 장기 trajectory prediction은 매우 도전적인 stochastic forecasting 문제다.
  • 본 연구에서는 Conditional VAE들을 cascade로 연결한 새로운 probabilistic modeling framework인 MUSE-VAE를 제안하며,
    coarse-to-fine 방식의 multi-factor forecasting architecture로 장기적이고 불확실한 trajectory prediction 문제를 다룬다.
  • Macro stage에서는 "기반 환경""에이전트 움직임"이라는 두 핵심 요인의 joint pixel-space representation을 학습하여 장·단기 motion goals를 예측한다.
  • 이들에 조건을 주어, Micro stage에서는 개별 에이전트의 trajectory를 예측하기 위한,
    정교한
    spatio-temporal representation을 학습한다.
  • 두 단계에 걸친 VAE backbones 덕분에, 두 수준의 granularity에서 발생하는 joint uncertainty를 자연스럽게 반영할 수 있다.
  • 그 결과, MUSE-VAE는 현재 state-of-the-art 대비 더 다양하면서도 동시에 더 정확한 예측을 제공한다.
  • 우리는 이러한 주장을 nuScenesSDD 벤치마크, 그리고 복잡한 agent–environment 상호작용 시나리오에서 모델의 forecasting 능력을 시험하도록 설계된 새로운 synthetic 데이터셋 PFSD에 대한 포괄적 실험을 통해 입증한다.

 

 


figure 1

  • Figure 1. (a) :예측된 trajectory heatmapssemantic map 위에 오버레이했다.
    Ground Truth (GT) **long-term goal (LG)**과 **short-term goals (SG1, SG2)**는 ‘x’로 표시되어 있다.
  • Figure 1. (b) : 예측된 LGSG를 기반으로 한 complete trajectory forecasting 결과. 각 trajectory sequence는 서로 다른 LG–SG 예측 쌍에서 얻어진 것이다.

  • tragectory heatmaps
    • 미래에 에이전트가 있을 "가능성"이 높은 위치를 픽셀 격자 위 확률(또는 점수)로 표현한 2D 지도. 
    • 한 시점당 1장의 heatmap을 만들고, 여러 시점을 채널로 쌓아서(stack) 시퀀스를 표현.
  • semantic map
    • 장면의 환경 의미(semantics)를 담은 지도
    • 배경의 흰색 도로 맵이 semantic map이다.
  • GT past
    • 과거 실제 이동 경로
  • GT futrue
    • 앞으로 실제로 간 경로 ( 정답 )
  • predicted future
    • 경로 위에 'x'로 표시된, { LG , SG2 , SG1 }
    • Ground Truth 기준의 long-term goal( LG )와 short-term goals( SG1 --> SG2 ) 
    • 즉, agent가 최종 목적지( LG )를 향해, 중간 목표( SG )를 밟아가는 coarse 계획이 어떻게 놓이는지 보여준다.
  • Full trajectories
    • 붉은 반투명한 구름/띠 : trajectory heatmaps - ( 미래에 있을 법한 위치의 확률 밀도를 시간 순서로 겹쳐서 표현. 진할수록 확률이 높음)
    • 빨간색 점선들 : predictured future - (모델이 샘플링한 여러(멀티모달) 전체 경로. 차선/도로를 따라가며 장애물을 피함.)
    • GT future : 정답 경로 
      • macro-stage에서 LG/SG를 조건으로 micro-stage가 정교한 전체 경로를 생성함.
      • 그 불확실성을 heatmap과 여러 경로 샘플로 시각화한 것.
  • (a)는 목표(장·단기)라는 거친 계획을,
    (b)는 그 목표를 바탕으로 한 세밀한 전체 경로 + 불확실성(확률분포)를 보여줘서, 이 모델의 multi-scale(코스→파인) 예측을 그림으로 설명.

1. Introduction

  • 다양한 연구 분야( computer vision [14], computer graphics [15], robotics [10], cognitive science [44])에서 human behavior forecasting는 핵심 문제로 다뤄진다.
  • 인간의 움직임을 예측하는 데 있어 근본적인 어려움은 고유한 stochasticity에 있다.
  • 사람은 매 순간 수많은 정보원을 활용해 매우 다양한 결정을 내리며, 이러한 결정들이 모두 이후의 움직임에 영향을 미치기 때문이다.
  • 이러한 움직임의 불확실성은 인간 자체의 이동을 넘어, 차량과 같이 사람이 조작하는 객체의 움직임으로도 확장된다 [6].

  • 이 불확실성을 포괄하기 위해, 본 논문은 데이터로부터 학습되어 향후 agent(사람, 차량 등)의 trajectory에 대한 현실적인 multi-modal distribution을 예측할 수 있는 계산 모델 개발에 초점을 맞춘다.
  • 우리는 이 불확실성을 좌우하는 두 가지 핵심 요인 { " agent가 놓여 있는 environment" , "그들이 수행하려는 task"}의 맥락에서 모델을 설계한다.

  • 그러나 장기 trajectory를 직접 예측하는 일은 도전적이다.
  • 사람은 보통 coarse-to-fine 방식으로 움직임을 계획한다.
    • 즉, 최종 목적지를 염두에 두고 일련의 중간 goals/waypoints를 거쳐 그 하위 목표들을 달성하도록 움직임을 실행한다 [8,34].
  • State-of-the-Art (SOTA) 방법들 [25,43,46]은 이 직관을 활용해 goal-conditioned prediction model을 제안해 왔다.
    • 하지만 전통적 접근 [1:social LSTM , 14: Social gan ,42: social attention ] 대비 효과가 있음에도, 이러한 모델들은 특히 움직임에 영향을 미치는 복잡한 environments를 다루는 능력에 한계를 보인다 [43,46].
  • 그 결과, 종종 에이전트-환경 collision constraints를 위반하는 물리적으로 그럴듯하지 않은 trajectory 예측이 발생한다.
  • 더 나아가, 문제의 불확실하고 multi-modal한 특성 때문에 예측되는 goalstrajectories의 다양성을 충분히 포착하지 못하는 경우가 잦다 [25].

 

  • 이를 해결하기 위해, 우리는 장기 trajectory 예측을 위한 MUSE-VAE를 제안한다.
  • 이는 multi-scale, environment-aware 모델로서
    (1) 상위 goals와 그 goal-conditioned trajectory를 함께 예측하는 stage-wise, coarse-to-fine 접근을 취하고,
    (2) 2D 정보를 1D features로 압축할 때 발생하는 공간적 재배치로 인해, spatial signal이 손실되는 문제 없이 장애물과의 collision을 회피하며,
    (3) 단계 전반에 걸쳐 multi-modal predictive distribution을 학습하여 고유한 불확실성을 포착한다.

  • MUSE-VAEMacro-stageMicro-stage에 걸친 three-step learning strategy를 구현한다.
  • Macro-stage는 거친(coarse) 예측을 위한 두 단계로 구성된다.
    • 먼저 heatmap trajectory representation을 바탕으로 장기 goal, 즉 주어진 시퀀스의 마지막 지점을 예측한다.
    • 이어서 해당 장기 goal이 주어지면, Fig. 1a와 같이 연속적인 단기 goals를 예측한다.
      • Macro-stage에서 goal 위치들을 얻은 뒤, 마지막으로 Fig. 1b와 같이 Micro-stage에서 전체 trajectories를 산출한다.
  • 우리의 주요 기여는 다음과 같다.
  • (a) CVAE-based probabilistic models에 대한 새로운 multi-scale learning strategy를 도입하여, 환경을 인지하고 collision-free한 trajectory 예측을 가능케 했다.
  • (b) 기존 연구와 달리, 추가적인 다양성 확보 절차 없이도 테스트 시 새로운 장면에 잘 generalize되며 환경에 부합하는 다양한 그럴듯한 예측을 생성하는 trajectory distributions를 학습할 수 있음을 보였다.
  • (c) 제안한 coarse-to-fine 접근은 goal 예측을 통해 전체 trajectory의 방향성을 먼저 예견하고 이를 세밀하고 완전한 예측으로 확장함으로써, 다양하면서도 정확한 trajectory 예측을 가능하게 한다.

 

 

  • 이러한 기여는 실제(real) 및 synthetic 데이터셋에 대한 실험을 통해 입증하였다.
  • 다양한 grounded evaluation metrics로 평가한 결과, MUSE-VAE는 SOTA 방법들보다 환경과의 collision을 더 적게 발생시키면서도 GT (ground-truth) trajectories에 유사한 예측을 산출함을 보였다.

 

 


 

2.Related Work

  • 에이전트(개별 인간, 군중, 차량 등)의 movement behavior를 모델링하는 문제는 multi-agent와 computer vision 커뮤니티의 경계를 넘나드는 오랜 연구 주제다.
  • 여기서는 (1) 개별 trajectory의 forecasting, (2) 움직임과 환경의 상호작용, (3) motion prediction에서의 불확실성(uncertainty) 모델링 필요성, 이 세 가지 측면에 초점을 맞춘다.

 

2-1. Sequence Learning

  • 인간의 trajectory는 시간이 지남에 따라 순차적으로 변하는 sequence적 특성을 가진다.
  • 이러한 순차 정보를 포착하기 위해 많은 선행 연구 [1, 14, 21, 32, 33, 42]가 Recurrent Neural Networks (RNNs)[27], 예컨대 LSTM과 GRU를 활용했다.
  • 그러나 RNN은 재귀가 깊어질수록 과거 hidden state를 잊는 문제가 있다.
  • [12,45]는 Transformer Networks[41]를 도입해 인간 trajectory forecasting의 시간적 측면을 다뤘다.
  • Transformer는 self-attention과 positional encoding을 통해 시퀀스를 통째로 처리함으로써 long-range dependency 문제를 해결한다.
  • Y-net[25]은 오직 convolution layers만으로 sequential trajectory 학습 문제를 해결한다.
  • 이들은 trajectory를 여러 heatmaps로 표현하고, 이를 semantic environment map image와 channel dimension을 따라 쌓아 하나의 입력으로 convolution networks에 투입한다.
  • 이렇게 하면 전통적 sequence 학습 네트워크 없이도 환경 맥락과 함께 시간적 움직임을 학습할 수 있다.

2-2. Environment Learning

  • 목표를 향한 trajectory 결정은 주변 environment에 의존한다.
  • 사실적인 trajectory 예측을 위해 많은 접근법이 환경 정보를 모델에 제공한다. [32,33,45,46]은 scene image의 레이아웃과 semantics를 convolution network로 인코딩해 표현을 만들고, trajectory features와 함께 모델 학습에 사용한다.
  • 이러한 방법은 trajectory를 둘러싼 scene context를 학습할 수 있지만, CNNs와 **FCs (fully connected layers)**를 거친 뒤 1D feature vectors로 압축되면서 spatial signal이 손상될 수 있다.
  • Y-net[25]은 semantic map과 trajectory heatmap을 공간적으로 정렬해 한 덩어리로 처리함으로써 이 문제를 완화한다.
  • 본 연구의 모델은 전체 장면이 아닌 trajectory 주변의 제한된 영역에 집중하고, heatmap trajectory representation을 활용해 spatial signal을 유지하면서도 불필요한 정보를 줄이는 보다 의미 있는 환경 학습을 시도한다.

2-3. Multimodal Learning

  • 에이전트(인간, 차량 등)의 trajectory는 의도한 목적지, 주변 환경, 인접한 에이전트 등 여러 요인의 영향을 받으며, 이는 미래 행동에 대한 고유한 uncertainty로 이어진다.
  • 최근 연구들은 deterministic 예측을 비켜가 deep generative models 기반으로 인간 trajectory의 distribution을 학습하는 데 집중한다.
  • [17, 21, 33, 40, 45]는 Conditional Variational Autoencoders (CVAE)[35]를 채택했고, [14,20,32]는 Generative Adversarial Network (GAN)[13]을 도입해 다중 샘플 예측이 가능한 분포 학습을 수행했다.
  • Trajectron++[33]는 latent space에 discrete latent distribution을 채택하고, decoder의 출력 분포로 Gaussian Mixture Model을 사용해 trajectory 분포의 multimodal 측면을 다룬다.
  • AgentFormer[45]는 예측들 간 pairwise distance loss로 다양성을 촉진하지만, 테스트 시 원하는 예측 개수가 바뀌면 매번 retraining이 필요하다는 한계가 있다.
  • Y-net[25]은 테스트 시 predictive discrete density maps에 대한 K-means clustering으로 예측의 다양성을 확보하지만, 해상도에 구애받지 않는 multimodal trajectory density를 명시적으로 학습하지는 않는다.
  • 일부 선행 연구 [25,28,43,46]는 움직임이 주로 final goal position에 의해 좌우된다는 가정하에 goal-conditioned forecasting model을 제안하여 multimodality를 장려한다.

 


2-4. Our Approach (요약)

  • MUSE-VAE는 환경과 정렬된(trajectory-aligned) 표현을 유지하면서 순차 정보를 통합하기 위해 stage-wise training procedure를 채택한다.
  • 먼저 Macro-stage에서 trajectory의 heatmap representation과 semantic environment map을 함께 활용해 미래를 예측하고, 이후 Micro-stage에서는 RNN-based networks로 sequence 학습을 촉진한다.
  • Micro-stage는 Macro-stage의 거친(coarse) 예측을 발판으로 long-range dependency 문제를 줄이고 장애물을 회피하도록 경로를 유도한다.
  • Macro와 Micro 두 단계 모두에 VAE를 도입함으로써, 본 모델은 예측의 고유한 uncertainty를 학습하여 다양한 그럴듯한(plausible) 예측을 산출할 수 있다.

 

 



figure 2.

 

Figure 2. (a) 8개의 과거 / 12개의 미래 trajectory가 표시된 semantic map. ( 파란점이 past , 주황색점이 future )

==> 전체(Global) 맵 대신, 주어진 trajectory 주변 환경에 집중하기 위해 local 맵을 사용한다.


Figure 2.  (b) Macro-stage 모델들(LG-CVAE, SG-net)의 입력·출력 포맷.

==> trajectory heatmap들은 local 뷰의 semantic map 위에 겹쳐서 표시된다.

====>여기서는 12개의 미래 스텝 중 t=4, 8두 개의 short-term goal이 있다고 가정한다.
           따라서 SG-net의 출력은 총 3개의 heatmap(short-term goal 2개 + long-term goal 1개)이다.

 

 

  • Gaussian heatmap은 푸른 얼룩이다... 이렇게 해서 공간적으로 정렬된 입력을 만든다.
  •  

fig 3

3. Proposed Method

 

  1. Sec. 3.1에서는 coarse 예측 단계인 Macro-stage를 소개하고,
    기본 Macro-stage 모델인 "Long-term Goal Conditional VAE (LG-CVAE)"와 그 다음 단계의 Macro-stage 모델인 "Short-term Goal network (SG-net)"의 정식화를 상세히 설명한다.

     

    Sec. 3.2에서는 완전한 예측 trajectory를 정제하기 위한 정밀 예측 단계인 Micro-stage를 소개한다.

     

     


3.1. Macro-stage: Coarse Prediction Stage

  • future behavior의 uncertainty에서 가장 중요한 요인 중 하나는 개별 agent의 향후 heading이다.
  • 가능성의 범위를 좁히는 한 방법은 "주변을 인지"하고, 과거로부터 "패턴을 학습"하는 것이다.
  • [33,45,46]은 scene의 "semantic map""1D flattened feature"로 인코딩해 image space에서 환경 표현을 학습하는데, 이는 scene의 공간 정보를 왜곡시킬 수 있다.
    • ( semantic map을 CNN으로 처리하고, flatten해서 1D 벡터로 만들면, 장면의 2D구조가 벡터 안에서 사라지거나 약해져서 "spatial signal"이 손상된다. )
  • trajectory와 semantic map의 정렬을 위해, 우리는 Y-net [25]에서 제안된 것처럼 trajectory x를 Gaussian heatmap으로 pixel space에 표현하며, 이를 I_x라고 표기한다.
    • ( trajectory와 semanic map의 정렬은, 두 정보를 같은 좌표계 및 같은 pixels에  맞춰놓는것을 의미. 즉, semantic map의 한 픽셀과 tractory heatmap의 픽셀이 동일한 물리적 위치를 가르키게...)

    • Gaussian filter의 분산은 4이고, 미터 단위의 world coordinates를 픽셀 단위의 image-based coordinates로 사상하기 위해 homography matrices를 만든다.
    • 과거 t_p 타임스탬프의 trajectories는 하나의 heatmap으로,
      각 미래 스텝은 스텝당 하나의 heatmap으로 표현한다. 
  • trajectory heatmap의 크기는 semantic map의 크기와 동일하다.

  • 일반적으로 장기 trajectory 예측에는 주어진 scene의 전체 환경 정보가 필요하지 않다.
  • 대개 에이전트의 현재 위치에 근접한(scene-proximal) 정보만으로 충분하다.
  • 따라서 우리는 local semantic map에만 집중하며, Fig. 2a와 같이 trajectory heatmap을 생성한다.
  • local map은 마지막으로 관측된 에이전트 위치를 중심으로 한다.
  • Macro-stage의 입력과 출력은 Fig. 2b에 도시되어 있다.

 

  • 장기 목표 예측 모델 LG-CVAE의 입력은 (local semantic map, past trajectory heatmap)의 concatenation이며, 출력은 하나의 long-term goal heatmap이다.
  • 단기 목표 예측 모델 SG-net은 (local semantic map, past trajectory heatmap, long-term goal heatmap)의 concatenation을 입력으로 받아 N_SG + 1개의 heapmap을 출력한다.
    • N_SG는 short-term goals의 개수이다.
    • local semantic map I_M은 아래와 같다.
      • 함수 f는 전역 scene정보 S이다.
      • homography H는 agent i의 마지막 관축 위치 x_i^(t_p)를 중심으로 한 그기 (n,n)픽셀의 local image-based representation으로 변환한다.

I_M에 대한 식

 


3.1.1 LG-CVAE: Long-term Goal Prediction Model

  • 사람이 앞으로 어디로 갈지는 주로 long-term goal position에 의해 결정된다.
  • 따라서 가능한 여러 future trajectories에 대해, 서로 다른 long-term goal positions을 높은 품질로 예측하는 것이 매우 중요하다.
  • semantic mapheatmap trajectory representation에서 비롯되는 고유한 불확실성을 모델링하기 위해, 우리는 U-net [30]과 Conditional Variational AutoEncoder (CVAE) [35]를 [19]와 같이 결합한다.
  • 과거 trajectory의 heatmap I_x,  long-term goal의 heatmap I_LG
    그리고 local semantic map I_M이 주어졌을 때, CVAE의 목표는 다음 조건부 분포를 최대화하는 것이다.
    • I_LG : long-term goal heat map
      • 크기는 H*W이며, 각 픽셀은 목표가 그 위치일 확률이다.
    • I_x : past trajectory heatmap
    • I_M : local semantic map
    • w : latent varience (잠재변수)

식 1. 적분에서 앞에 항은 '잠재 w와 입력을 보고 heatmap생성'한다는 의미. 뒤에는 '과거/맵을 보고 "가능한 의도 분포"를 예측.

  • 조건부 잠재 분포 p( w ∣ I_x , I_M )의 확률성은 전파되어,  p( I_LG ∣ I_x , I_M )multi-modality에 기여한다.

 

 

 


3.1.2 SG-net: Short-term Goal Prediction Model

  • Macro-stage의 두 번째 단계에서는 LG-CVAE가 예측한 long-term goal을 기반으로 short-term goals를 예측한다.
  • SG-net의 목적은 '마지막 관측 시점'에서 long-term goal까지, 환경과 잘 정렬된 waypoints를 제공하는 것이다.
  • Sec. 3.2의 최종 단계인 Micro-stage는 trajectory와 semantic map을 서로 분리된 1D feature vector로 처리한다.
    • 따라서 long-term goal 정보만으로 모든 세밀한 미래 스텝을 예측하면, 공간 신호가 손상된 상태에서 환경과 잘 맞지 않는 예측을 만들 위험이 커진다.
  • SG-net은 U-net을 활용하여 N_SG + 1개의 heatmap을 생성한다.
  • 여기서 N_SG는 short-term goals의 개수이고, 나머지 1개는 Fig. 2b에 도시된 long-term goal에 해당한다.
  • LG-CVAE와 달리 이 단계는 예측된 long-term goal을 조건으로 deterministic한 출력을 내며, long-term goal 이외의 세밀한 trajectory에 대한 불확실성은 다음 단계에서 다룬다.
  • 따라서 SG-net의 loss는 아래와 같이 focal loss를 적용한 단순 reconstruction loss이다.

 

 


3.2. Micro-stage: Fine Prediction Stage

  • 모델의 마지막 단계에서는 micro level에서 완전한 미래 trajectory를 예측한다.
  • 이때 정교한 예측을 위해, 좌표계를 이산적인 pixel coordinate에서 연속적인 world coordinate로 전환한다.
  • 비록 SG-net이 예측한 long-term/short-term goals로 예측을 유도하더라도, 각 스텝은 주변 환경에서 기인하는 변동성을 가질 수 있다.
  • 이러한 불확실성을 다루기 위해 이 단계에서도 CVAE를 사용한다.
  • Fig. 3과 같이, 과거 trajectory 에 조건화된 prior p(z∣x)를 두고, 이는 미래 trajectory 에 대한 posterior latent distribution p(z∣x,y)를 근사하도록 학습된다. 테스트 시에는 p(z∣x)p(z\mid x)에서 latent factor zz를 샘플링하여 p(y∣z,x)p(y\mid z,x)를 예측한다.
  • 미래 스텝을 디코딩하는 동안, 모델은 SG-net에서 제공되는 long-term/short-term goal 정보를 LSTM-encoded features 형태로 사용한다.
  • 또한 Teacher Forcing을 적용하여, 학습 시에는 GT long/short-term goals를, 테스트 시에는 예측된 goals를 각각 주입해 예측을 보정한다.
  • 학습–테스트 간 재구성 차이를 줄이기 위해 [7,36]을 따라 prior 분포로부터의 추가 reconstruction loss를 제공한다. 따라서 β-weighted ELBO [16]를 사용하는 Micro-stage의 학습 loss는 다음과 같다.

여기서 잠재 분포들과 출력 trajectory 분포는 모두 Gaussian으로 가정한다. 또한 Micro-stage 역시 환경을 인지하므로, LG-CVAEU-net features를 CVAE의 prior network에 공급한다.

 

 


4. Experiments

  • Sec. 4.1에서는 실험에 사용된 datasets, evaluation metrics, 그리고 statistical analysis를 소개한다.
  • Sec. 4.2에서는 SOTA models와 MUSE-VAE의 정량적 비교를 수행한다.
  • Sec. 4.3에서는 직관적 평가를 위한 정성적 측면을 비교한다. Sec. 4.4에서는 MUSE-VAE의 각 구성요소를 ablation studies로 분석한다.