MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction
MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction
[2201.07189] MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction
MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction
Accurate long-term trajectory prediction in complex scenes, where multiple agents (e.g., pedestrians or vehicles) interact with each other and the environment while attempting to accomplish diverse and often unknown goals, is a challenging stochastic forec
arxiv.org
coarse ==> 거친
fine ==> 세밀
coarse to fine ==> 학습을 "거칠게"에서 "세밀하게" 점진적으로 접근하는 전략을 의미.
granularity ==> feature를 얼마나 세분화해서 다루는 지를 의미... ( 분할 정도 or 세밀함의 수준 ). 딥러닝에서 낮은 granularity는 전체적이고 큰 스케일의 특징을 의미한다. 반대로 높은 granularity는 세부적이고 작은 부분의 정보를 의미한다.
joint uncertainty ==> 여러 변수나 예측치가 동시에 가질수 있는 불확실성을 의미.
stage-wise ==> "여러 단계 , 즉, stage별로 순차적으로 무언가를 진행한다"는 의미
학습,최적화 등에서 전체과정을 한번에 처리하지 않고, 여러개의 뚜렷한 단계로 나누어서 각각을 별도로 처리하거나 학습하는 방식.
MUSE-VAE는 크게 두 단계로 구현되는거 같다... Macro-stage ↔ Micro-stage
temporal scale( 시간적 스케일 )
-- macro ==> 먼 미래의 long-term goal → 이어지는 short-term goals(중간 waypoint)처럼, coarse한 계획을 먼저 예측
-- micro ==> 그 목표들을 조건으로, 매 time-step의 세밀한 trajectory를 생성
spatial scale ( 공간적 스케일)
-- macro ==> semantic environment map + trajectory heatmap을 픽셀 공간에서 합쳐 전역/넓은 맥락을 본다.
-- micro ==> 에이전트 주변의 국지적(local) 공간을 따라 실제 경로를 정교하게 꺾고 부딪힘을 피함
표현 스케일 (representation scale)
-- Macro ==> heatmap 기반의 coarse 목표 표현
-- Micro ==> 좌표 시퀀스/hidden state 등 fine한 spatio-temporal representation
0. Abstract
- complex scens에서 여러 에이전트(예: 보행자, 차량)가 서로와 환경과 상호작용하며,
다양하고 때로는 알려지지 않은 목표를 달성하려 할 때,
정확한 장기 trajectory prediction은 매우 도전적인 stochastic forecasting 문제다. - 본 연구에서는 Conditional VAE들을 cascade로 연결한 새로운 probabilistic modeling framework인 MUSE-VAE를 제안하며,
coarse-to-fine 방식의 multi-factor forecasting architecture로 장기적이고 불확실한 trajectory prediction 문제를 다룬다. - Macro stage에서는 "기반 환경"과 "에이전트 움직임"이라는 두 핵심 요인의 joint pixel-space representation을 학습하여 장·단기 motion goals를 예측한다.
- 이들에 조건을 주어, Micro stage에서는 개별 에이전트의 trajectory를 예측하기 위한,
정교한 spatio-temporal representation을 학습한다. - 두 단계에 걸친 VAE backbones 덕분에, 두 수준의 granularity에서 발생하는 joint uncertainty를 자연스럽게 반영할 수 있다.
- 그 결과, MUSE-VAE는 현재 state-of-the-art 대비 더 다양하면서도 동시에 더 정확한 예측을 제공한다.
- 우리는 이러한 주장을 nuScenes와 SDD 벤치마크, 그리고 복잡한 agent–environment 상호작용 시나리오에서 모델의 forecasting 능력을 시험하도록 설계된 새로운 synthetic 데이터셋 PFSD에 대한 포괄적 실험을 통해 입증한다.

- Figure 1. (a) :예측된 trajectory heatmaps를 semantic map 위에 오버레이했다.
Ground Truth (GT) **long-term goal (LG)**과 **short-term goals (SG1, SG2)**는 ‘x’로 표시되어 있다. - Figure 1. (b) : 예측된 LG와 SG를 기반으로 한 complete trajectory forecasting 결과. 각 trajectory sequence는 서로 다른 LG–SG 예측 쌍에서 얻어진 것이다.
- tragectory heatmaps
- 미래에 에이전트가 있을 "가능성"이 높은 위치를 픽셀 격자 위 확률(또는 점수)로 표현한 2D 지도.
- 한 시점당 1장의 heatmap을 만들고, 여러 시점을 채널로 쌓아서(stack) 시퀀스를 표현.
- semantic map
- 장면의 환경 의미(semantics)를 담은 지도
- 배경의 흰색 도로 맵이 semantic map이다.
- GT past
- 과거 실제 이동 경로
- GT futrue
- 앞으로 실제로 간 경로 ( 정답 )
- predicted future
- 경로 위에 'x'로 표시된, { LG , SG2 , SG1 }
- Ground Truth 기준의 long-term goal( LG )와 short-term goals( SG1 --> SG2 )
- 즉, agent가 최종 목적지( LG )를 향해, 중간 목표( SG )를 밟아가는 coarse 계획이 어떻게 놓이는지 보여준다.
- Full trajectories
- 붉은 반투명한 구름/띠 : trajectory heatmaps - ( 미래에 있을 법한 위치의 확률 밀도를 시간 순서로 겹쳐서 표현. 진할수록 확률이 높음)
- 빨간색 점선들 : predictured future - (모델이 샘플링한 여러(멀티모달) 전체 경로. 차선/도로를 따라가며 장애물을 피함.)
- GT future : 정답 경로
- macro-stage에서 LG/SG를 조건으로 micro-stage가 정교한 전체 경로를 생성함.
- 그 불확실성을 heatmap과 여러 경로 샘플로 시각화한 것.
- (a)는 목표(장·단기)라는 거친 계획을,
(b)는 그 목표를 바탕으로 한 세밀한 전체 경로 + 불확실성(확률분포)를 보여줘서, 이 모델의 multi-scale(코스→파인) 예측을 그림으로 설명.
1. Introduction
- 다양한 연구 분야( computer vision [14], computer graphics [15], robotics [10], cognitive science [44])에서 human behavior forecasting는 핵심 문제로 다뤄진다.
- 인간의 움직임을 예측하는 데 있어 근본적인 어려움은 고유한 stochasticity에 있다.
- 사람은 매 순간 수많은 정보원을 활용해 매우 다양한 결정을 내리며, 이러한 결정들이 모두 이후의 움직임에 영향을 미치기 때문이다.
- 이러한 움직임의 불확실성은 인간 자체의 이동을 넘어, 차량과 같이 사람이 조작하는 객체의 움직임으로도 확장된다 [6].
- 이 불확실성을 포괄하기 위해, 본 논문은 데이터로부터 학습되어 향후 agent(사람, 차량 등)의 trajectory에 대한 현실적인 multi-modal distribution을 예측할 수 있는 계산 모델 개발에 초점을 맞춘다.
- 우리는 이 불확실성을 좌우하는 두 가지 핵심 요인 { " agent가 놓여 있는 environment" , "그들이 수행하려는 task"}의 맥락에서 모델을 설계한다.
- 그러나 장기 trajectory를 직접 예측하는 일은 도전적이다.
- 사람은 보통 coarse-to-fine 방식으로 움직임을 계획한다.
- 즉, 최종 목적지를 염두에 두고 일련의 중간 goals/waypoints를 거쳐 그 하위 목표들을 달성하도록 움직임을 실행한다 [8,34].
- State-of-the-Art (SOTA) 방법들 [25,43,46]은 이 직관을 활용해 goal-conditioned prediction model을 제안해 왔다.
- 25: [Trajectory] Y-net , 43 : SG-Net 2103.14107 , 46: TNT 2008.08294
-
- 하지만 전통적 접근 [1:social LSTM , 14: Social gan ,42: social attention ] 대비 효과가 있음에도, 이러한 모델들은 특히 움직임에 영향을 미치는 복잡한 environments를 다루는 능력에 한계를 보인다 [43,46].
- 그 결과, 종종 에이전트-환경 collision constraints를 위반하는 물리적으로 그럴듯하지 않은 trajectory 예측이 발생한다.
- 더 나아가, 문제의 불확실하고 multi-modal한 특성 때문에 예측되는 goals와 trajectories의 다양성을 충분히 포착하지 못하는 경우가 잦다 [25].
- 이를 해결하기 위해, 우리는 장기 trajectory 예측을 위한 MUSE-VAE를 제안한다.
- 이는 multi-scale, environment-aware 모델로서
(1) 상위 goals와 그 goal-conditioned trajectory를 함께 예측하는 stage-wise, coarse-to-fine 접근을 취하고,
(2) 2D 정보를 1D features로 압축할 때 발생하는 공간적 재배치로 인해, spatial signal이 손실되는 문제 없이 장애물과의 collision을 회피하며,
(3) 단계 전반에 걸쳐 multi-modal predictive distribution을 학습하여 고유한 불확실성을 포착한다. - MUSE-VAE는 Macro-stage와 Micro-stage에 걸친 three-step learning strategy를 구현한다.
- Macro-stage는 거친(coarse) 예측을 위한 두 단계로 구성된다.
- 먼저 heatmap trajectory representation을 바탕으로 장기 goal, 즉 주어진 시퀀스의 마지막 지점을 예측한다.
- 이어서 해당 장기 goal이 주어지면, Fig. 1a와 같이 연속적인 단기 goals를 예측한다.
- Macro-stage에서 goal 위치들을 얻은 뒤, 마지막으로 Fig. 1b와 같이 Micro-stage에서 전체 trajectories를 산출한다.
- 우리의 주요 기여는 다음과 같다.
- (a) CVAE-based probabilistic models에 대한 새로운 multi-scale learning strategy를 도입하여, 환경을 인지하고 collision-free한 trajectory 예측을 가능케 했다.
- (b) 기존 연구와 달리, 추가적인 다양성 확보 절차 없이도 테스트 시 새로운 장면에 잘 generalize되며 환경에 부합하는 다양한 그럴듯한 예측을 생성하는 trajectory distributions를 학습할 수 있음을 보였다.
- (c) 제안한 coarse-to-fine 접근은 goal 예측을 통해 전체 trajectory의 방향성을 먼저 예견하고 이를 세밀하고 완전한 예측으로 확장함으로써, 다양하면서도 정확한 trajectory 예측을 가능하게 한다.
- 이러한 기여는 실제(real) 및 synthetic 데이터셋에 대한 실험을 통해 입증하였다.
- 다양한 grounded evaluation metrics로 평가한 결과, MUSE-VAE는 SOTA 방법들보다 환경과의 collision을 더 적게 발생시키면서도 GT (ground-truth) trajectories에 유사한 예측을 산출함을 보였다.
2.Related Work
- 에이전트(개별 인간, 군중, 차량 등)의 movement behavior를 모델링하는 문제는 multi-agent와 computer vision 커뮤니티의 경계를 넘나드는 오랜 연구 주제다.
- 여기서는 (1) 개별 trajectory의 forecasting, (2) 움직임과 환경의 상호작용, (3) motion prediction에서의 불확실성(uncertainty) 모델링 필요성, 이 세 가지 측면에 초점을 맞춘다.
2-1. Sequence Learning
- 인간의 trajectory는 시간이 지남에 따라 순차적으로 변하는 sequence적 특성을 가진다.
- 이러한 순차 정보를 포착하기 위해 많은 선행 연구 [1, 14, 21, 32, 33, 42]가 Recurrent Neural Networks (RNNs)[27], 예컨대 LSTM과 GRU를 활용했다.
- 그러나 RNN은 재귀가 깊어질수록 과거 hidden state를 잊는 문제가 있다.
- [12,45]는 Transformer Networks[41]를 도입해 인간 trajectory forecasting의 시간적 측면을 다뤘다.
- Transformer는 self-attention과 positional encoding을 통해 시퀀스를 통째로 처리함으로써 long-range dependency 문제를 해결한다.
- Y-net[25]은 오직 convolution layers만으로 sequential trajectory 학습 문제를 해결한다.
- 이들은 trajectory를 여러 heatmaps로 표현하고, 이를 semantic environment map image와 channel dimension을 따라 쌓아 하나의 입력으로 convolution networks에 투입한다.
- 이렇게 하면 전통적 sequence 학습 네트워크 없이도 환경 맥락과 함께 시간적 움직임을 학습할 수 있다.
2-2. Environment Learning
- 목표를 향한 trajectory 결정은 주변 environment에 의존한다.
- 사실적인 trajectory 예측을 위해 많은 접근법이 환경 정보를 모델에 제공한다. [32,33,45,46]은 scene image의 레이아웃과 semantics를 convolution network로 인코딩해 표현을 만들고, trajectory features와 함께 모델 학습에 사용한다.
- 이러한 방법은 trajectory를 둘러싼 scene context를 학습할 수 있지만, CNNs와 **FCs (fully connected layers)**를 거친 뒤 1D feature vectors로 압축되면서 spatial signal이 손상될 수 있다.
- Y-net[25]은 semantic map과 trajectory heatmap을 공간적으로 정렬해 한 덩어리로 처리함으로써 이 문제를 완화한다.
- 본 연구의 모델은 전체 장면이 아닌 trajectory 주변의 제한된 영역에 집중하고, heatmap trajectory representation을 활용해 spatial signal을 유지하면서도 불필요한 정보를 줄이는 보다 의미 있는 환경 학습을 시도한다.
2-3. Multimodal Learning
- 에이전트(인간, 차량 등)의 trajectory는 의도한 목적지, 주변 환경, 인접한 에이전트 등 여러 요인의 영향을 받으며, 이는 미래 행동에 대한 고유한 uncertainty로 이어진다.
- 최근 연구들은 deterministic 예측을 비켜가 deep generative models 기반으로 인간 trajectory의 distribution을 학습하는 데 집중한다.
- [17, 21, 33, 40, 45]는 Conditional Variational Autoencoders (CVAE)[35]를 채택했고, [14,20,32]는 Generative Adversarial Network (GAN)[13]을 도입해 다중 샘플 예측이 가능한 분포 학습을 수행했다.
- Trajectron++[33]는 latent space에 discrete latent distribution을 채택하고, decoder의 출력 분포로 Gaussian Mixture Model을 사용해 trajectory 분포의 multimodal 측면을 다룬다.
- AgentFormer[45]는 예측들 간 pairwise distance loss로 다양성을 촉진하지만, 테스트 시 원하는 예측 개수가 바뀌면 매번 retraining이 필요하다는 한계가 있다.
- Y-net[25]은 테스트 시 predictive discrete density maps에 대한 K-means clustering으로 예측의 다양성을 확보하지만, 해상도에 구애받지 않는 multimodal trajectory density를 명시적으로 학습하지는 않는다.
- 일부 선행 연구 [25,28,43,46]는 움직임이 주로 final goal position에 의해 좌우된다는 가정하에 goal-conditioned forecasting model을 제안하여 multimodality를 장려한다.
2-4. Our Approach (요약)
- MUSE-VAE는 환경과 정렬된(trajectory-aligned) 표현을 유지하면서 순차 정보를 통합하기 위해 stage-wise training procedure를 채택한다.
- 먼저 Macro-stage에서 trajectory의 heatmap representation과 semantic environment map을 함께 활용해 미래를 예측하고, 이후 Micro-stage에서는 RNN-based networks로 sequence 학습을 촉진한다.
- Micro-stage는 Macro-stage의 거친(coarse) 예측을 발판으로 long-range dependency 문제를 줄이고 장애물을 회피하도록 경로를 유도한다.
- Macro와 Micro 두 단계 모두에 VAE를 도입함으로써, 본 모델은 예측의 고유한 uncertainty를 학습하여 다양한 그럴듯한(plausible) 예측을 산출할 수 있다.

Figure 2. (a) 8개의 과거 / 12개의 미래 trajectory가 표시된 semantic map. ( 파란점이 past , 주황색점이 future )
==> 전체(Global) 맵 대신, 주어진 trajectory 주변 환경에 집중하기 위해 local 맵을 사용한다.
Figure 2. (b) Macro-stage 모델들(LG-CVAE, SG-net)의 입력·출력 포맷.
==> trajectory heatmap들은 local 뷰의 semantic map 위에 겹쳐서 표시된다.
====>여기서는 12개의 미래 스텝 중 t=4, 8에 두 개의 short-term goal이 있다고 가정한다.
따라서 SG-net의 출력은 총 3개의 heatmap(short-term goal 2개 + long-term goal 1개)이다.
- Gaussian heatmap은 푸른 얼룩이다... 이렇게 해서 공간적으로 정렬된 입력을 만든다.

3. Proposed Method


-
Sec. 3.1에서는 coarse 예측 단계인 Macro-stage를 소개하고,
기본 Macro-stage 모델인 "Long-term Goal Conditional VAE (LG-CVAE)"와 그 다음 단계의 Macro-stage 모델인 "Short-term Goal network (SG-net)"의 정식화를 상세히 설명한다.Sec. 3.2에서는 완전한 예측 trajectory를 정제하기 위한 정밀 예측 단계인 Micro-stage를 소개한다.
3.1. Macro-stage: Coarse Prediction Stage
- future behavior의 uncertainty에서 가장 중요한 요인 중 하나는 개별 agent의 향후 heading이다.
- 가능성의 범위를 좁히는 한 방법은 "주변을 인지"하고, 과거로부터 "패턴을 학습"하는 것이다.
- [33,45,46]은 scene의 "semantic map"을 "1D flattened feature"로 인코딩해 image space에서 환경 표현을 학습하는데, 이는 scene의 공간 정보를 왜곡시킬 수 있다.
- ( semantic map을 CNN으로 처리하고, flatten해서 1D 벡터로 만들면, 장면의 2D구조가 벡터 안에서 사라지거나 약해져서 "spatial signal"이 손상된다. )
- trajectory와 semantic map의 정렬을 위해, 우리는 Y-net [25]에서 제안된 것처럼 trajectory x를 Gaussian heatmap으로 pixel space에 표현하며, 이를 I_x라고 표기한다.
- ( trajectory와 semanic map의 정렬은, 두 정보를 같은 좌표계 및 같은 pixels에 맞춰놓는것을 의미. 즉, semantic map의 한 픽셀과 tractory heatmap의 픽셀이 동일한 물리적 위치를 가르키게...)
- Gaussian filter의 분산은 4이고, 미터 단위의 world coordinates를 픽셀 단위의 image-based coordinates로 사상하기 위해 homography matrices를 만든다.
- 과거 t_p 타임스탬프의 trajectories는 하나의 heatmap으로,
각 미래 스텝은 스텝당 하나의 heatmap으로 표현한다.
- ( trajectory와 semanic map의 정렬은, 두 정보를 같은 좌표계 및 같은 pixels에 맞춰놓는것을 의미. 즉, semantic map의 한 픽셀과 tractory heatmap의 픽셀이 동일한 물리적 위치를 가르키게...)
- trajectory heatmap의 크기는 semantic map의 크기와 동일하다.
- 일반적으로 장기 trajectory 예측에는 주어진 scene의 전체 환경 정보가 필요하지 않다.
- 대개 에이전트의 현재 위치에 근접한(scene-proximal) 정보만으로 충분하다.
- 따라서 우리는 local semantic map에만 집중하며, Fig. 2a와 같이 trajectory heatmap을 생성한다.
- local map은 마지막으로 관측된 에이전트 위치를 중심으로 한다.
- Macro-stage의 입력과 출력은 Fig. 2b에 도시되어 있다.
- 장기 목표 예측 모델 LG-CVAE의 입력은 (local semantic map, past trajectory heatmap)의 concatenation이며, 출력은 하나의 long-term goal heatmap이다.
- 단기 목표 예측 모델 SG-net은 (local semantic map, past trajectory heatmap, long-term goal heatmap)의 concatenation을 입력으로 받아 N_SG + 1개의 heapmap을 출력한다.
- N_SG는 short-term goals의 개수이다.
- local semantic map I_M은 아래와 같다.
- 함수 f는 전역 scene정보 S이다.
- homography H는 agent i의 마지막 관축 위치 x_i^(t_p)를 중심으로 한 그기 (n,n)픽셀의 local image-based representation으로 변환한다.

3.1.1 LG-CVAE: Long-term Goal Prediction Model
- 사람이 앞으로 어디로 갈지는 주로 long-term goal position에 의해 결정된다.
- 따라서 가능한 여러 future trajectories에 대해, 서로 다른 long-term goal positions을 높은 품질로 예측하는 것이 매우 중요하다.
- semantic map과 heatmap trajectory representation에서 비롯되는 고유한 불확실성을 모델링하기 위해, 우리는 U-net [30]과 Conditional Variational AutoEncoder (CVAE) [35]를 [19]와 같이 결합한다.
- 과거 trajectory의 heatmap I_x, long-term goal의 heatmap I_LG,
그리고 local semantic map I_M이 주어졌을 때, CVAE의 목표는 다음 조건부 분포를 최대화하는 것이다.- I_LG : long-term goal heat map
- 크기는 H*W이며, 각 픽셀은 목표가 그 위치일 확률이다.
- I_x : past trajectory heatmap
- I_M : local semantic map
- w : latent varience (잠재변수)
- I_LG : long-term goal heat map

- 조건부 잠재 분포 p( w ∣ I_x , I_M )의 확률성은 전파되어, p( I_LG ∣ I_x , I_M )의 multi-modality에 기여한다.
- LG-CVAE loss는 다음과 같이 음의 ELBO( evidence Lower Bound ) 로 정의된다.


3.1.2 SG-net: Short-term Goal Prediction Model
- Macro-stage의 두 번째 단계에서는 LG-CVAE가 예측한 long-term goal을 기반으로 short-term goals를 예측한다.
- SG-net의 목적은 '마지막 관측 시점'에서 long-term goal까지, 환경과 잘 정렬된 waypoints를 제공하는 것이다.
- Sec. 3.2의 최종 단계인 Micro-stage는 trajectory와 semantic map을 서로 분리된 1D feature vector로 처리한다.
- 따라서 long-term goal 정보만으로 모든 세밀한 미래 스텝을 예측하면, 공간 신호가 손상된 상태에서 환경과 잘 맞지 않는 예측을 만들 위험이 커진다.
- SG-net은 U-net을 활용하여 N_SG + 1개의 heatmap을 생성한다.
- 여기서 N_SG는 short-term goals의 개수이고, 나머지 1개는 Fig. 2b에 도시된 long-term goal에 해당한다.
- LG-CVAE와 달리 이 단계는 예측된 long-term goal을 조건으로 deterministic한 출력을 내며, long-term goal 이외의 세밀한 trajectory에 대한 불확실성은 다음 단계에서 다룬다.
- 따라서 SG-net의 loss는 아래와 같이 focal loss를 적용한 단순 reconstruction loss이다.

3.2. Micro-stage: Fine Prediction Stage
- 모델의 마지막 단계에서는 micro level에서 완전한 미래 trajectory를 예측한다.
- 이때 정교한 예측을 위해, 좌표계를 이산적인 pixel coordinate에서 연속적인 world coordinate로 전환한다.
- 비록 SG-net이 예측한 long-term/short-term goals로 예측을 유도하더라도, 각 스텝은 주변 환경에서 기인하는 변동성을 가질 수 있다.
- 이러한 불확실성을 다루기 위해 이 단계에서도 CVAE를 사용한다.
- Fig. 3과 같이, 과거 trajectory 에 조건화된 prior p(z∣x)를 두고, 이는 미래 trajectory 에 대한 posterior latent distribution p(z∣x,y)를 근사하도록 학습된다. 테스트 시에는 p(z∣x)p(z\mid x)에서 latent factor zz를 샘플링하여 p(y∣z,x)p(y\mid z,x)를 예측한다.
- 미래 스텝을 디코딩하는 동안, 모델은 SG-net에서 제공되는 long-term/short-term goal 정보를 LSTM-encoded features 형태로 사용한다.
- 또한 Teacher Forcing을 적용하여, 학습 시에는 GT long/short-term goals를, 테스트 시에는 예측된 goals를 각각 주입해 예측을 보정한다.
- 학습–테스트 간 재구성 차이를 줄이기 위해 [7,36]을 따라 prior 분포로부터의 추가 reconstruction loss를 제공한다. 따라서 β-weighted ELBO [16]를 사용하는 Micro-stage의 학습 loss는 다음과 같다.

여기서 잠재 분포들과 출력 trajectory 분포는 모두 Gaussian으로 가정한다. 또한 Micro-stage 역시 환경을 인지하므로, LG-CVAE의 U-net features를 CVAE의 prior network에 공급한다.
4. Experiments
- Sec. 4.1에서는 실험에 사용된 datasets, evaluation metrics, 그리고 statistical analysis를 소개한다.
- Sec. 4.2에서는 SOTA models와 MUSE-VAE의 정량적 비교를 수행한다.
- Sec. 4.3에서는 직관적 평가를 위한 정성적 측면을 비교한다. Sec. 4.4에서는 MUSE-VAE의 각 구성요소를 ablation studies로 분석한다.