A Survey of Deep Learning-Based Pedestrian Trajectory Prediction: Challenges and Solutions
A Survey of Deep Learning-Based Pedestrian Trajectory Prediction: Challenges and Solutions
Pedestrian trajectory prediction is widely used in various applications, such as intelligent transportation systems, autonomous driving, and social robotics. Precisely forecasting surrounding pedestrians’ future trajectories can assist intelligent agents
www.mdpi.com
0. abstract
- 보행자 tragectory prediction은 지능형 교통 시스템, 자율 주행, 소셜 로보틱스 등 다양한 응용 분야에서 널리 사용된다.
- 주변 보행자의 미래 궤적을 정밀하게 예측하면 지능형 에이전트의 경로 계획을 더 잘 수행하도록 도울 수 있다.
- 현재 trajectory data로부터 학습하는 딥러닝 기반 예측 기법은 전통적 방법보다 뛰어난 예측 성능을 보이고 있다.
- 그러나 이러한 방법은 예측의 정확도, 효율성, 신뢰성을 향상시키는 데 여전히 많은 도전에 직면해 있다.
- 본 설문 연구에서는 딥러닝 기반 pedestrain tragectory prediction의 주요 도전 과제를 조사하고, 문헌 수집과 분석을 통해 문제와 해결책을 고찰한다.
- 구체적으로, 먼저 pedestrain tragectory prediction에 관한 기존 문헌과 설문 연구를 조사·분석한다.
- 이를 바탕으로 딥러닝 기반 pedestrain tragectory prediction이 직면한 여러 핵심 과제를 정리하는데,
여기에는 "운동(이동) 불확실성" , "상호작용 모델링" , "장면 이해" , "데이터 관련 이슈" , "예측 모델의 해석 가능성"이 포함된다.- 이어 각 과제에 대한 해결 방안을 요약한다.
- 다음으로, 주류 "궤적 예측 데이터셋"을 소개하고 그 위에서 보고된 최신 SOTA 결과를 분석한다.
- 마지막으로 tragectory prediction의 잠재적 연구 전망을 논의하여 관련 연구 커뮤니티의 발전을 도모하고자 한다.
1. Introduction
- 인공지능의 발전과 함께 pedestrain tragectory prediction은 지능형 교통시스템, 자율주행, 보안 감시, 스포츠 분석 등 다양한 응용 분야에서 주목받고 있다.
- 예를 들어 주변 보행자의 미래 궤적을 정확히 예측하면,
자율주행차는 경로 계획을 최적화하고, 보행자–차량 간 충돌을 피하기 위해 실시간으로 주행 행태를 조정할 수 있다. - 이러한 예측 능력은 보행자 흐름이 조밀하고, 보행자·차량·자전거 간 상호작용이 빈번하고, 복잡한 도심 환경에서 특히 중요하다.
- 더 나아가, real-time pedestrian trakcing and predition은 접근하는 차량이나 장애물과 같은 잠재적 위험을 보행자에게 경고하여 보다 안전한 의사결정을 돕는다.
- 예를 들어 주변 보행자의 미래 궤적을 정확히 예측하면,
- 안전성 외에도 보행자 궤적 예측은 교통 흐름의 최적화에도 기여한다.
- 보행자 움직임을 예측함으로써, 교통 관리 시스템은 신호등, 횡단보도, 차량 경로를 동적으로 조정하여 혼잡과 지연을 최소화할 수 있다.
- 이는 교통망의 전반적 효율을 높일 뿐 아니라, 통근 시간과 스트레스를 줄여 도시 생활의 질을 개선한다.
- 이는 교통망의 전반적 효율을 높일 뿐 아니라, 통근 시간과 스트레스를 줄여 도시 생활의 질을 개선한다.
- 보행자 움직임을 예측함으로써, 교통 관리 시스템은 신호등, 횡단보도, 차량 경로를 동적으로 조정하여 혼잡과 지연을 최소화할 수 있다.
- pedestrain tragectory prediction은 "과거 궤적"과 "환경적 맥락"을 바탕으로, 보행자의 미래 경로를 추정하는 문제이다.
- 전통적인 방법은 크게 "운동학(kinematic) 기반"과 "기계학습 기반"으로 나눌 수 있다.
- 전자는 등속·가속·선회율 모델 등을 포함한다 [1–3].
구현이 쉽고 계산이 효율적이라는 장점에도 불구하고, 이러한 운동학 모델은 예측 과정에서 "현재 상태의 불확실성"을 충분히 반영하기 어렵다. - 반면, 기계학습 기반 방법은 보행자 운동 패턴을 모델링하기 위해 서포트 벡터 머신(SVM) [4]이나 동적 베이지안 네트워크(DBN) [5]를 사용한다.
그러나 복잡한 운동 패턴을 포착하는 데에는 한계가 있으며, 정교한 특징 공학(feature engineering)에는 상당한 도메인 지식과 전문성이 요구된다.
- 전자는 등속·가속·선회율 모델 등을 포함한다 [1–3].
- 보행자 궤적 예측은 시계열 분석 문제이기도 하다.
- 딥러닝의 부상과 함께 재귀신경망(RNN) [6], 합성곱신경망(CNN) [7], 그래프신경망(GNN) [8], 트랜스포머 [9] 등이 강력한 데이터 기반 학습 능력으로 인해 pedestrain tragectory prediction에 활용되고 있다.
- 딥러닝의 부상과 함께 재귀신경망(RNN) [6], 합성곱신경망(CNN) [7], 그래프신경망(GNN) [8], 트랜스포머 [9] 등이 강력한 데이터 기반 학습 능력으로 인해 pedestrain tragectory prediction에 활용되고 있다.
- 이에 따라 pedestrain tragectory prediction에 대한 포괄적 설문 연구의 필요성이 커지고 있다.
- 참고문헌 [10]의 설문은 pedestrain tragectory prediction 방법을 검토·분석하고,
"운동 모델링 접근"과 "활용하는 맥락 정보의 수준"에 따라, 기존 방법을 분류하는 분류 체계를 제안한다.- 구체적으로, 운동 모델링 관점에서 기존 예측 방법을 "물리 기반", "패턴 기반", "계획 기반"의 세 범주로 요약한다.
- 아울러 저자들은 움직임 행동에 영향을 미치는 모든 내부·외부 자극을 "맥락적 단서"로 정의하고,
대상 에이전트 자체·장면 내 타 에이전트·정적 환경의 특성과의 관계에 따라 방법들을 분류한다.- 다만 이 설문은 보행자 궤적 예측의 도전 과제를 명시적으로 논의하지는 않는다.
- 참고문헌 [11]의 설문은 자율주행차(AV)에서의 의도 및 궤적 예측을 대상으로 하며,
다양한 모델 구성요소가 사회성, 시간성, 생성성 차원을 얼마나 잘 모델링하는지 비판적으로 검토한다.- 해당 설문은 AV 분야의 예측이 동적·다중 에이전트·확률적 환경 특성 때문에 어려움을 겪는다고 언급하지만, 이러한 도전 과제에 대한 구체적 해결책을 나열·분석하지는 않는다.
- 인간 행동이 본질적으로 다중양상(multimodal)이고 불확실하다는 점을 고려하여, 설문 [12]는 주로 다중양상 궤적 예측 프레임워크에 초점을 맞춘다.
- 참고문헌 [13]은 보행자 궤적 예측에서 많이 사용되는 딥러닝 기반 방법을 RNN(대표적으로 LSTM), CNN, GAN 등 네트워크 구조에 따라 분류해 상세히 기술한다.
- 또 다른 리뷰 [14]는 대규모 보행자 시뮬레이션에 널리 쓰이는 고전적 지식 기반 모델과 딥러닝 모델을 비교하며, 기술적·응용 지향적 차이를 탐색한다.
- 조사 결과, 딥러닝 알고리즘은 국소 궤적의 정확한 예측에 강점을 보이지만, 대규모 시뮬레이션과 군집 동역학의 기술에는 여전히 개선 여지가 있음을 시사한다.
- ==> 요약하면, [13,14]는 딥러닝 기반 방법을 네트워크 구조 관점에서만 분류·분석했을 뿐, 해결 가능한 도전 과제 관점에서의 체계적 분류는 제공하지 않는다.
- 참고문헌 [10]의 설문은 pedestrain tragectory prediction 방법을 검토·분석하고,
- 딥러닝 기반 pedestrain tragectory prediction의 발전과 실용성 제고를 위해, 본 논문은 이 분야의 도전 과제와 현재의 해결책을 조사한다.
- 문헌 수집과 검토를 통해, "운동 불확실성", "상호작용 모델링", "장면 이해", "데이터 관련 이슈", "예측 모델의 해석 가능성" 등 해결해야 할 주요 과제를 분석한다.
- 이에 대응하여 각 과제에 대한 가능한 해결 방안을 정리하고, 일부 최신 기법의 효과를 검토한다.
- 본 논문의 기여는 다음과 같다.
- 딥러닝 기반 보행자 궤적 예측이 직면한 도전 과제를 보행자 자체, 보행자가 위치한 객관적 장면, 예측 모델 자체의 측면에서 정리한다.
구체적으로 과제를 운동 불확실성, 상호작용 모델링, 장면 이해, 데이터 관련 이슈, 예측 모델의 해석 가능성으로 범주화한다. - 이러한 과제들에 대응하는 해결책을 상세히 탐색하고 포괄적으로 요약한다.
- 공개된 궤적 예측 데이터셋을 조사하고, 그 위에서 보고된 최신 성능(SOTA) 결과를 심층 분석하여 궤적 예측에서 효과적인 방법을 강조한다.
- 이 논문의 구성은 다음과 같다.
2장에서는 궤적 예측의 기초 지식을 소개한다.
3장에서는 도전 과제와 잠재적 해결책을 정리한다.
4장에서는 공개 데이터셋, 평가 지표, 최신 성능(SOTA) 결과를 요약한다.
5장에서는 결론과 향후 연구 방향을 논의하여 보행자 궤적 예측을 촉진할 수 있는 방안을 제시한다.
2. Preliminary Knowledge
2.1. Problem Formulation
- 보행자 궤적 예측은 시계열 분석 문제이다.
- 궤적 예측의 본질은 과거 궤적을 바탕으로 보행자의 미래 위치를 예측하는 것이다.
- trajectory prediction에서 보행자 i의 궤적은 2차원 실제 좌표 or 픽셀 좌표로 이루어진 시퀀스{ (X_i)^T , (Y_i)^T }로 정의된다.
- (X_i)^T = { (X_i)^T | t ∈ [1,T_obs] }는 T_obs개의 시점으로 관측된 궤적이다.
- (Y_i)^T = { (Y_i)^T | t ∈ [ T_obs , T_obs + T_pred ] }는 T_pred개의 시점에 대한 미래 경로의 정답(ground truth)이다.
- i는 장면에 있는 N명의 보행자 중 한명의 인덱스이며, i ∈ [ 1 , N ]이다.
- (X_i)^T , (Y_i)^T는 모두 2D좌표를 포함한다.
- 궤적 예측의 목표는, 관측된 정보와 장면 정보 S를 입력으로 받아서 K개의 미래 궤적을 예측하는 모델을 최적화 하는 것이다.

2.2. Existing Challenges
- 딥러닝은 궤적 예측 성능을 크게 향상시켰지만, 여전히 여러 과제들이 남아 있다.
- 문헌 [10,11]에서는 의미적 장면 이해, 다중 에이전트의 사회적 상호작용, 불확실성, 그리고 행위의 다중양상성(multimodality)과 같은 어려움을 지적했다.
- 이를 바탕으로 본 절에서는 기존 연구를 더 정리·분석하여 보행자 궤적 예측이 직면한 주요 도전 과제를 보다 포괄적으로 요약한다.
- 먼저 예측의 직접 대상인 보행자 자체의 주관적 행동과 특성은 예측 결과에 큰 영향을 미치며, 여기에는 보행자의 움직임 불확실성이 포함된다.
- 다음으로 보행자가 위치한 객관적 장면(환경)은 보행 경로에 영향을 주므로, 정확한 예측을 위해서는 장면에 대한 충분한 이해가 필요하다.
- 또한 궤적 예측은 정확하고 신뢰할 수 있는 장면 데이터를 확보하고, 결측·잡음 등 결함이 있는 데이터를 다루어야 한다.
- 마지막으로 딥러닝 기술과 그 모델 자체에 대해서는 보안·안전 관련 응용에서의 신뢰성을 높이기 위해 해석 가능성이 요구된다.
이상의 분석을 종합하면, 딥러닝 기반 보행자 궤적 예측의 도전 과제는 다음의 다섯 가지로 정리된다.
(1) 이동 불확실성(Motion uncertainty): 보행자의 미래 움직임은 본질적으로 불확실하다. 사회적 규범을 따라 도로를 걷기도 하지만, 다른 목적지를 향해 도로를 가로지를 수도 있다. 따라서 이 불확실성을 처리하며 합리적인 예측을 내리는 것이 어렵다.
(2) 상호작용 모델링(Interaction modeling): 보행자들 사이의 상호작용을 모델링하는 일은 도전적이다. 타인의 존재와 행위가 특정 보행자의 의사결정에 영향을 미치므로, 예측 정확도를 높이려면 이러한 상호작용 요인을 충분히 고려해야 한다.
(3) 장면 이해(Scene understanding): 보행자는 이동 중 장애물을 회피해야 하므로, 장면에 대한 포괄적 이해가 더 정확한 궤적 예측에 필수적이다.
(4) 데이터 관련 이슈(Data-related issues): 궤적 데이터에는 결측치가 존재하고 롱테일 분포를 보이는 경우가 많아, 예측 정확도에 근본적인 영향을 준다.
(5) 해석 가능성(Interpretability): 딥러닝 기반 궤적 예측은 해석 가능성이 부족하여 모델 신뢰도를 떨어뜨리며, 이는 보안·안전이 중요한 응용에서 문제를 일으킬 수 있다.
이러한 도전 과제와 그에 대응하는 해결책의 개요는 이어서 제시된다.
3. Solutions to Challenges
이 절에서는 앞에서 언급한 도전 과제들에 대한 해결책을 정리하여 포괄적으로 요약한다.
3.1. Motion Uncertainty
- 보행자의 움직임은 본질적으로 확률적이고 불확실하다.
- 다양한 요인이 불확실성에 영향을 주기 때문에, 미래 궤적을 정확히 예측하는 일은 어렵다.
- 이 불확실성을 충분히 반영하기 위해 다양성 예측(diversity prediction), 즉 여러 양상(multimodal)의 궤적을 함께 예측하는 접근이 널리 사용된다.
- 더 나아가 확산 모델(diffusion model) 은 궤적 예측의 불확실성을 포착하는 데 매우 효과적임이 입증되어, 이동 불확실성 완화를 위한 빈번한 해법으로 쓰인다.
- 또한 에이전트의 목표(goal) 는 궁극적 의도를 반영하므로, 예측된 목표를 궤적 예측/생성의 조건 정보 로 활용할 수 있다.
- 다양한 요인이 불확실성에 영향을 주기 때문에, 미래 궤적을 정확히 예측하는 일은 어렵다.
요약하면, 본 절은 이동 불확실성에 대한 해결책을 다음 세 관점에서 소개한다: 다양성 예측, 확산 모델, 목표 예측.

3.1.1. Diversity Prediction
- 최근 연구는 궤적의 다양성 예측에 초점을 맞추고 있으며, 많은 방법이 적대적 생성 네트워크(GAN)[15]를 채택한다.
- 그림 2-a와 같이 GAN은 generator와 discriminator로 구성된다.
generator는 무작위 잡음을 주입해 다양한 궤적을 만들고, discriminator는 generator가 예측한 궤적과 관측 궤적을 구분함으로써 생성된 궤적이 더 현실적이고 다양해지도록 유도한다.
- Kosaraju 등[16]은 Social-BiGAT이라는 그래프 기반 GAN을 도입해, 생성된 궤적과 보행자 움직임의 잠재 변수 사이에 가역적 매핑을 수립했다.
- 이는 모델이 다중양상(multimodal) 분포에 적응하는 궤적을 생성하도록 돕는다.
- Gupta 등[17]은 generator가 다양한 궤적을 산출하도록 diverse loss를 제안했지만, 이 손실은 모드 붕괴(mode collapse) 를 유발할 수 있다.
- Amirian 등[18]은 InfoGAN[19]에서 영감을 받아 기존의 무작위 잡음에 잠재 인코딩(latent encoding) 을 결합해 궤적 예측을 강화했다.
- 모드 붕괴 외에도, 궤적 분포의 다양체(manifold) 가 불연속적일 수 있어 GAN이 분포 밖(OOD) 샘플을 생성할 위험이 있다.
- Dendorfer 등[20]은 이 문제에 대응하기 위해 여러 생성기 중에서 동적으로 선택해 예측하는 MGGAN을 제안했다.
- 최근 Wang 등[21]은 Sequence Entropy Energy Model(SEEM) 을 제안했는데,
생성기 손실로 최대 시퀀스 엔트로피를 사용해 생성된 궤적이 보행자 행동의 모든 모드를 포괄하도록 하고, 추가로 0 중심 잠재 에너지 정규화(zero-centered potential energy regularization) 를 도입하여 훈련 안정성을 향상시켰다.
- Kosaraju 등[16]은 Social-BiGAT이라는 그래프 기반 GAN을 도입해, 생성된 궤적과 보행자 움직임의 잠재 변수 사이에 가역적 매핑을 수립했다.
- 그림 2-a와 같이 GAN은 generator와 discriminator로 구성된다.
- 조건부 변분 오토인코더(CVAE) [22]는 또 다른 다중양상(멀티모달) 궤적 예측 프레임워크다.
- 그림 2-b처럼, CVAE는 encoder가 입력 데이터를 잠재변수 분포로 매핑하고, 그 분포에서 여러 개의 잠재 샘플을 조건으로 뽑는다.
decoder는 이러한 조건을 바탕으로 여러 가능한 궤적을 생성하며, 생성의 다중양상성을 얻기 위해 변분 하한(ELBO) 손실을 최대화한다. - 조건 정보 덕분에 CVAE는 잠재 분포를 더 잘 제어하고 개선할 수 있다.
- Chen 등[23]은 자기지도 대비학습을 이용해 잠재 분포를 범주화하고, 개인화된 멀티모달 궤적을 예측했다.
- Xu 등[24]은 보행자 궤적 예측을 위해 Social-VAE를 제안했으며, 시간축별 VAE(time-wise VAE)를 사용해 예측 분포로부터 가능한 한 많은 궤적 샘플을 생성하여 보행자의 미래 위치 분포를 추론했다.
- 또한 예측 다양성을 높이기 위해 최종 위치 클러스터링(FPC)을 도입했다.
- 다만 CVAE는 GAN만큼 사실적인 출력을 내기 어렵고, 분포 밖(OOD) 샘플 문제도 겪는다.
- 이를 해결하기 위해 Guo 등[25]은 예측 분포와 정답 분포 사이의 정방향·역방향 교차엔트로피를 결합한 대칭 교차엔트로피 손실을 적용했으며, 역방향 교차엔트로피로 OOD 예측에 패널티를 주었다.
- 나아가 Zhou 등[26]은 CVAE와 GAN을 결합해 멀티모달 궤적을 예측함으로써, GAN의 모드 붕괴 문제를 완화하고 CVAE에서 추가로 정의하기 어려운 손실을 필요로 하는 문제를 동시에 해결했다.
- 그림 2-b처럼, CVAE는 encoder가 입력 데이터를 잠재변수 분포로 매핑하고, 그 분포에서 여러 개의 잠재 샘플을 조건으로 뽑는다.

3.1.2. Diffusion Models
- GAN과 CVAE가 가진 궤적 생성의 한계를 보완하기 위해 확산 모델이 제안되었다.
- 확산 모델은 매개변수화된 마르코프 연쇄를 학습하여, 반복 과정을 통해 "초기의 공통 분포"에서 "특정한 목표 데이터 분포"로 점진적으로 진화하도록 한다.
- 그림 3에서 보이듯, **Gu et al. [27]**은 트랜스포머 기반 MID를 제안하여 이동 불확실성의 확산을 역으로 되돌리는(reverse diffusion) 과정을 통해 궤적을 예측했다.
- 이들은 시공간 GNN으로 과거 궤적과 사회적 상호작용을 상태 임베딩으로 인코딩하고, 이를 마르코프 연쇄의 조건 정보로 사용하여 역확산 과정을 학습, 미래 궤적을 생성하도록 유도했다.
- 또한 **Chen et al. [28]**은 궤적의 기하학적 등변성(geometric equivariance) 을 고려하여, 등변 트랜스포머와 디노이징 확산을 결합했다.
이 방법은 과거 정보와 가우시안 잡음을 함께 활용해 미래 궤적을 생성한다. - Chen 등[28]은 궤적의 기하학적 등변성(geometric equivariance) 을 고려하여, 등변 트랜스포머와 디노이징 확산(denoising diffusion) 을 결합했다.
역사 정보와 가우시안 잡음을 함께 활용해 미래 궤적을 생성한다. - 잡음 분포 하의 초기 모호한 영역 와 데이터 분포 하의 목표 궤적 가 주어졌다고 하자.
확산 과정은 ( y0 , y1 , … , y_K)로 정의되며, 최대 단계까지 진행된다.
이 과정의 목적은 불확정성(indeterminacy) 을 점차 추가하여, 정답 궤적이 잡음이 섞인 보행 가능 영역(noisy walkable region) 으로 변질되도록 하는 것이다. - 반대로, 우리는 ( y_K , y_K−1 , … , y0 )의 역확산 과정을 학습하여 로부터 불확정성을 점차 줄여 최종 궤적을 생성한다.
확산과 역확산 모두 가우시안 전이(Gaussian transitions) 를 갖는 마르코프 연쇄로 정식화된다. - 다만 확산 모델은 충분한 표현력을 확보하려면 여러 번의 디노이징 단계가 필요해 계산 비용이 높다.
- 이를 완화하기 위해 Mao 등[29]은 궤적 예측에 확산 모델 대신 Leapfrog 초기화(Leapfrog Initializer) 를 적용했다.
- 이 접근은 다수의 디노이징 단계를 건너뛰고, 미래 궤적의 풍부한 다중양상 분포를 직접 학습하게 하여 추론 속도를 크게 높였다.
- 또한 Liu 등[30]은 미래 궤적을 다매개변수 이변량 가우시안 분포로 재구성해 확산 모델링을 수행했다.
- 이는 복잡한 역확산 계산 과정을 피하면서, 개별 불확실성과 복잡한 다중 에이전트 운동 모델링을 분리하여 궤적 예측의 불확실성 문제를 보다 효과적으로 다루었다.
3.1.3. Goal Prediction
- 최근 연구는 에이전트의 최종 목표(goal) 에 주목하여 궤적 예측을 보강하고자 한다.
- Mangalam 등[31]은 Y-net이라 불리는 장기 궤적 예측 방법을 제안하며, 에이전트의 불확실성을 에피스테믹(모형/지식 기인) 과 **알레아토릭(관측/우연 기인)**으로 구분했다.
- 이들은 목표와 중간 경유점(waypoints) 을 예측함으로써 두 종류의 불확실성을 모델링했다.
- Lee 등[32]은 MUSE-VAE를 도입해, 거시 단계에서는 환경과 에이전트 운동의 표현을 공동 학습하여 장기·단기 목표 를 동시에 예측하고, 미시 단계에서는 세밀한 시공간 표현 을 활용해 개별 에이전트의 궤적을 예측함으로써 두 수준의 불확실성을 포괄적으로 다루었다.
- Chiara 등[33]은 과거 궤적과 장면의 의미론적 정보를 이용해 미래 목표 를 예측했으며, 순환 주의 메커니즘(recurrent attention mechanism)을 통해 목표 정보를 순전파 네트워크에 통합하여 예측 정확도를 높였다.
- 다만 위 방법들은 대체로 과거 궤적과 장면 으로부터 목표를 학습했을 뿐, 상호작용이 목표에 미치는 영향 은 간과했다.
- 이를 보완하기 위해 Choi 등[34]은 교통 시나리오와 상호작용을 관찰하여 대상 에이전트의 목표 를 예측하고, 목표와 운전자 행동 간의 인과관계 를 설정함으로써 불확실성을 줄이고 더 정확한 예측을 달성했다.
- Zhang 등[35]은 ForceFormer라는 목표 기반 궤적 예측 방법을 제안하여, 사회적 힘(social forces) [36,37]을 트랜스포머 기반 생성 모델에 통합했다.
- 이 방법은 목표에서 기인한 유인 힘 으로 보행자 움직임을 유도하고, 환경 및 이웃의 반발 힘 으로 상호작용을 모델링했다.
- 이러한 방법들이 궤적 예측 분야에서 큰 진전을 보였음에도, 낯선 환경에서 목적지를 정확히 예측 하는 문제는 여전히 도전적이다.


3.1.4. Summary
- 서로 다른 방법들의 이동 불확실성 처리와 궤적 예측 성능을 비교하기 위해, 표 1은 Stanford Drone Dataset(SDD) [38]에서 다섯 가지 방법(또는 모델)의 예측 결과를 제시한다.
- 아래 식 (2)로 정의된 평균 변위 오차(ADE) 와 최종 변위 오차(FDE) 를 평가 지표로 사용하였다.
- 표 1에서 보이듯, TDOR [25]는 역방향 교차엔트로피를 사용해 OOD 예측에 패널티를 부여함으로써 SocialVAE [24]보다 더 나은 다양성 예측 성능을 보였다.
- MUSE-VAE [32]는 거시적·미시적 수준에서 불확실성을 포괄적으로 다룰 수 있어 Goal-SAR [33]보다 성능이 우수했다.
- 다섯 방법 중 TDOR [25]와 MUSE-VAE [32]가 가장 좋은 성능을 달성했으며, 이는 다양성 예측과 목표 예측 기반 접근이 유망함을 시사한다.
- 또한 MID [27]의 결과는 확산 모델을 채택한 방법이 절충적(compromise) 성능을 달성할 수 있음을 보여준다.
- 표 2는 이동 불확실성의 영향을 완화하기 위한 앞선 접근들을 요약한다. CVAE, GAN, 확산 모델과 같은 생성 모델들이 큰 성과를 거두었음에도, 이동 불확실성은 여전히 보행자 궤적 예측의 핵심 과제다.
- 초기의 해법들이 무작위 잡음을 통해 다중양상 궤적을 생성하는 데 초점을 맞췄다면, 최근 연구들은 목표(goal) 와 경유점(waypoints) 같은 의도 예측에 초점을 옮겨, 보다 합리적인 방식으로 불확실성을 완화하고자 한다.
- 다만 예측된 의도 자체에도 불확실성이 남아 있어, 다중양상 궤적의 예측을 여전히 어렵게 만든다.
- 따라서 보행자 자체와 환경 맥락을 더 잘 이해해 잠재적 의도를 예측하는 것이 필요하다.
제안(Suggestions)
- 보행자의 과거 운동 법칙, 장면 맥락, 해당 장면의 전형적 이동 패턴을 결합해 보행자의 실제 의도를 더 잘 파악할 것을 제안한다.
- 이동 불확실성은 보행자 자체의 불확실성에서 기인하므로 완전한 억제는 어렵다. 따라서 예측된 다중양상 궤적을 정렬/랭킹하고, 다운스트림 작업에 적합한 궤적을 선별하는 전략을 제안한다.
한계(Possible limitations)
- 장면 맥락 이해에는 추가 계산 자원 오버헤드가 필요하여, 보행자 궤적 예측의 실시간성을 저해할 수 있다. 이를 완화하려면 더 강력한 하드웨어와, 보다 경량화된 장면 이해 알고리즘이 요구된다.
참고: ADE/FDE(일반적 정의)
- ADE: 예측 궤적과 정답 궤적 사이의 평균 L2 거리(전체 타임스텝 평균).
- FDE: 마지막 타임스텝에서의 L2 거리.
3.2. InteractionModeling
- 혼잡하고 동적으로 변하는 장면에서는 보행자들 사이에 복잡한 상호작용이 존재하며, 이는 미래 trajectory prediction에 큰 영향을 준다. 따라서 interaction modeling은 보행자 궤적 예측의 핵심 요소다.
- 상호작용 모델링의 대표적 방법으로는 소셜 풀링(social pooling) 레이어[39,40], 어텐션 메커니즘[41,42], 그래프 신경망(GNN)[43–46]이 있다.
- 예컨대 [40]에서는 보행자들의 "이동 방향"과 "미래 궤적" 간 상관관계를 바탕으로 이웃의 상호작용을 집계하는 소셜 어텐션 모듈을 사용했다.
- Yang 등[41]은 보행자의 "사회적 상호작용"과 "의도 상태"를 포착하기 위해 소셜 그래프 어텐션과 의사 오라클 예측기(pseudo-oracle predictor) 를 도입하여 궤적 예측 성능을 개선했다.
- 또한 [46]에서는 교통 에이전트들 사이의 복잡한 사회적 상호작용을 포착하기 위한 충돌 인지형(Graph) 트랜스포머를 제안했고, 이어 에이전트 간 상호작용 확률을 예측하는 추가 과제를 도입해 멀티태스크 학습으로 그래프 트랜스포머의 오버스무딩 문제를 완화했다.
- 그러나 이러한 방법들만으로는 보행자 간 상호작용을 완전히 다루기에 여전히 불충분하다.
보행자 상호작용은 시간과 공간에 걸친 동적 과정으로, 시간이 지나며 정보 교환과 행동 적응이 일어난다.
따라서 보행자 상호작용을 모델링하려면 시공간 특징의 융합이 중요하다. - 한편, 관측된 궤적만을 근거로 상호작용을 고려하는 것은 충분하지 않으며, 그렇게 해서는 미래의 상호작용을 보장할 수 없다.
따라서 다중 에이전트 상호작용 모델링의 연구 초점은 다음 두 측면으로 나눌 수 있다.
- 시공간 융합(spatiotemporal fusion)
- 미래 상호작용 모델링(future interaction modeling)


3.2.1. Spatiotemporal Fusion
- 최근 trajectory prediction에서는 RNN(주로 LSTM)과 CNN이 널리 사용된다.
- RNN은 시간 정보를 다루도록 설계되어, "이전 시점의 정보"를 "은닉상태"에 저장한 뒤,
현재 입력과 함께 활용해 출력을 결정한다(그림 4a). - Choi 등[47]은 모든 보행자의 "운동 정보"를 LSTM으로 모델링하고, "각 보행자의 위치"를 MLP(다층 퍼셉트론)로 고차원 특징 공간에 사상하여 보행자 간 위치 관계를 반영했다.
이어 "목표 보행자"와의 위치 관계에 따라, 각 보행자의 운동 특징에 가중치를 부여해 위치 변위 예측을 수행했다.
- CNN은 합성곱·풀링 계층을 통해 입력으로부터 국소 특징을 먼저, 이어 전역 특징을 추출한다.
- 완전연결 계층은 추출된 특징을 통합해 분류나 회귀를 수행한다.
- 궤적 정보를 CNN으로 처리하는 일반적 방법은 그림 4b에 제시된다.
- Xu 등[48]은 보행자 상호작용을 동적 다중 스케일 하이퍼그래프로 표현하는 DynGroupNet을 제안했다.
이 방법은 위상 추론, 신경 메시지 전달, 다중 스케일 하이퍼그래프의 동적 임베딩 진화를 통해 서로 다른 시점에서의 동적 상호작용을 포착한다. - Wang 등[49]은 조감도(BEV) 표현으로 전역 공간 텐서를 구성하고, 에이전트들의 시점별 특징을 임베딩해 공간적 관계를 유지했다.
이후 3D-CNN으로 궤적 시퀀스의 시간 의존성을 포착하고, Social Recurrent Mechanism(SRM) 으로 보행자 상호작용을 모델링했다. - ==> 다만 기존 RNN/CNN 기반 모델은 단기 예측에서는 우수하지만, 장기 시퀀스에서 확장성 한계를 겪는다.
- 트랜스포머는 강력한 공간·장기 시간 모델링 능력을 지녀, 동적 상호작용 처리에 유망하다.
- trajectory prediction에 트랜스포머를 적용하는 전형적 방식은 그림 5에 나타난다.
- Yuan 등[50]은 궤적 특징을 시간순으로 추출해 트랜스포머에 입력, 시공간 상호작용 임베딩을 학습했다.
- Yang 등[51]은 GNN과 트랜스포머를 결합해 공간 및 시간 의존성을 함께 모델링했다.
또한 Temporal Convolutional Network(TCN) 를 도입해 시공간 특징을 통합, 보행자 간 동적 상호작용을 포괄적으로 고려했다. - ==> 그러나 이러한 방법들 모두 미래 상호작용 행동이 미래 궤적 예측에 미치는 영향을 간과하는 경향이 있어, 차선(sub-optimal) 의 궤적 생성 성능으로 이어질 수 있다.
3.2.2. Future Interaction Modeling
- 미래 상호작용을 고려하기 위해, **Amirloo 등[53]**은 트랜스포머의 셀프 어텐션으로 보행자 간 상호작용을 모델링했다.
디코딩 단계에서 자가회귀(auto-regressive) 방식으로 보행자들의 미래 상태를 반영하여, 예측 궤적들 사이의 충돌을 회피했다. - Zhou 등[54]은 예측 이후에 에이전트 간 상호작용을 모델링하는 CSR이라는 접근을 제안했다.
- 이 방법은 과거 궤적과 예측된 미래 궤적에서 각각 특징을 추출해 전역 운동 특징으로 융합한 뒤, 이를 소셜 논-로컬 풀링 레이어[55]에 전달해 상호작용 특징을 얻는다.
- 마지막으로 이 상호작용 특징을 사용해 예측 궤적을 정제하여 불합리한 충돌을 줄인다.
다만 보행자의 미래 운동 자체가 불확실하므로, 미래 상호작용 모델링은 매우 복잡하고 도전적이다.

3.2.3. Summary
- 상호작용 모델링 관련 연구는 표 3에 정리되어 있다.
- 보행자 사이의 복잡한 상호작용을 정밀하게 모델링하는 일은 여전히 큰 과제다.
- 전통적 연구(소셜 풀링, 어텐션, GNN 등)는 데이터 기반으로 상호작용을 학습한다.
- 최근 연구들은 예측을 통해 추정한 미래 상호작용을 활용해 궤적 예측 성능을 높인다.
- 그러나 보행자 운동 데이터만으로 정확한 상호작용 모델을 구축하기는 어렵다.
제안 (Suggestions)
- 보행자의 심리 상태와 장면 레이아웃을 함께 고려해, 더 나은 상호작용 모델을 구축할 것을 제안한다.
- 보행자의 미래 궤적은 미래 상호작용 행동의 영향을 크게 받으므로, 이를 명시적으로 모델링하여 예측 성능을 향상시킬 것을 권장한다.
한계 (Possible limitations)
- 현재 공개 궤적 데이터셋의 다수는 조감도(BEV) 기반으로 수집되어 얼굴·사지의 세부 묘사를 얻기 어렵고, 따라서 심리 상태를 정밀 포착하기 힘들다.
- 보행자의 미래 궤적의 불확실성 때문에 미래 상호작용의 불확실성도 증폭되며, 이를 정확히 모델링하는 것이 또 하나의 한계다.
3.3. Scene Understanding
- 장면의 의미론적 정보는 궤적 예측에서 매우 중요한 역할을 하며, 예측 정확도를 높이기 위한 입력으로 자주 활용된다.
- 실제 환경은 화단, 나무, 잔디, 보도, 신호등 등 다양한 요소로 복잡하게 구성되어 있고, 이러한 요소들은 보행자의 움직임에 영향을 준다.
- 따라서 궤적 예측에서는 장면 의미를 정확히 파악하기 위해 장면 안의 다양한 정보를 인식해야 한다.
- 더불어, 의미론적 정보와 궤적 데이터를 효과적으로 융합(fusion)하면 모델의 장면 이해가 한층 향상된다.
- 또한 환경의 교란(confounding) 효과 때문에 장면과 궤적 사이의 인과관계를 심층적으로 탐구할 필요가 있다.
- 이에 본 설문은 장면 의미 이해를 scene-trajectory Fusion과 confounding effects의 두 관점에서 소개한다
3.3.1. Scene-Trajectory Fusion
- 장면의 의미 정보는 의미 분할(semantic segmentation) 기법[56–58]을 통해 얻을 수 있다.
- He 등[59]은 경량 의미 분할 네트워크인 ENet[56]으로 장면 정보를 추출한 뒤, 역강화학습(inverse reinforcement learning) 을 통해 장면 정보와 궤적 정보를 융합했다.
- 또한 Yang 등[60]은 SegFormer[61]로 장면 의미 정보를 추출하고, 효율적 장면 융합 트랜스포머를 이용해 서로 다른 세부화(granularity) 수준에서 장면–궤적 정보를 점진적으로 융합했다.
- 의미 분할은 복잡한 환경을 효과적으로 이해할 수 있게 해 주지만, 계산 비용이 높다는 한계가 있다.
- 이에 따라 일부 방법은 장면으로부터 시각적 특징을 직접 추출한 뒤, 이를 보행자의 운동 특징과 융합하는 방식을 취한다.
- Peng 등[62]은 CNN으로 장면 특징을 추출하고, 맞춤형 어텐션 메커니즘으로 융합을 수행했다.
- Xu 등[63]은 CNN으로 장면 특징을 추출한 뒤, 이중 어텐션(dual attention) 으로 scene-trajectory특징을 융합했다.
- 이 접근법은 보행자가 드러내는 사회적(social) 특징과 물리적 환경 제약을 함께 고려하여, 그럴듯한 궤적을 생성하도록 한다.
==>그러나 보행자 궤적은 동적이며 궤적과 장면 사이의 상호작용 역시 동적이다.
- 이 접근법은 보행자가 드러내는 사회적(social) 특징과 물리적 환경 제약을 함께 고려하여, 그럴듯한 궤적을 생성하도록 한다.
- 위 방법들은 이러한 궤적–장면의 동적 영향을 간과했고, 중복적 장면 정보가 궤적 예측 정확도를 저해할 수 있다.

3.3.2.Confounding Effects
- 동적인 궤적–장면 상호작용을 간과하는 문제 외에도, "학습 환경"과 "실제 환경" 사이의 편향(bias) 은 장면 이해에서 또 하나의 도전 과제다.
- 이런 편향은 "환경과의 상호작용"을 "부정적 교란 변수(negative confounder)" 로 만든다.
- Chen 등[64]은 환경적 편향이 새로운 환경에서 잘못된 예측을 유발할 수 있음을 지적했다.
- 이를 해결하기 위해, 저자들은 "환경 상호작용 E" (사회적 상호작용과 물리적 환경 상호작용), "과거 궤적 , "미래 궤적 Y"사이의 인과 그래프를 구성하고, 화살표로 인과 관계를 표시했다.
- 그림 6a에서 보듯, 는 환경이 보행자의 과거와 미래 움직임 모두에 영향을 준다는 뜻이다.
- 인과추론[65]에 따르면, 변수 가 와 Y를 동시에 좌우하면, 는 이 둘의 인과 분석에서 교란 변수(confounder) 가 된다.
- 예를 들어, 학습 중 “우회전 궤적”이 “교차로”와 자주 결합되어 나타났다면, 실제 응용에서 우회전 예측이 교차로 때문인 것처럼 잘못 귀속될 수 있고, 과거 궤적 뒤에 있는 진짜 인과 관계 가 가려질 수 있다.
- 따라서 저자들은 궤적 예측에 반사실(counterfactual) 분석을 적용하여, 그림 6b와 같이 환경–과거 궤적의 연관성 을 이용해 환경 편향의 부정적 영향을 완화했다.
- 또한 Ge 등[66], Lian 등[67]도 과거/미래 궤적의 환경 상호작용에 대한 인과 모델을 구성해 그 인과 관계를 분석했고, 각각 소셜 크로스 어텐션 과 Do-calculus 를 사용하여 환경의 교란 효과를 제거했다.
- 요컨대, 인과 분석은 장면에서 궤적 예측에 영향을 미치는 요인을 드러내므로, 장면 이해와 예측 정확도 향상에 중요한 역할을 한다.

3.3.3. Summary
- 장면 이해 관련 방법들은 표 4에 정리되어 있다. 장면 이해는 정확하고 신뢰할 수 있는 궤적 예측을 달성하는 핵심 요소다.
- 기존 연구의 다수는 CNN 또는 의미 분할 네트워크로 장면 정보를 추출하고, 어텐션 등 다양한 전략으로 장면–궤적 융합을 수행했다.
- 한편 교란 효과 에 대해서는 인과 모델을 통해 환경 차이가 야기하는 간섭을 제거하여, 실제 시나리오에서의 성능을 향상시켰다.
- 이 방향은 연구 잠재력이 크며 추가 탐구 가치가 높다.
제안(Suggestions)
- 전통적 융합에서는 장면과 궤적을 독립 성분으로 다루지만, 실제로 장면은 보행자 궤적에 직접 영향을 준다. 따라서 장면–궤적 상호작용 자체를 연구하는 것이 더 나은 장면 이해에 도움이 된다.
- 여러 궤적과 장면의 상호작용을 함께 고려하는 것이, 보다 신뢰할 수 있는 장면 이해에 유리하다.
한계(Possible limitations)
- 역강화학습(IRL) 은 장면–궤적 상호작용을 탐색하는 한 방법이지만, 현재로서는 단일 궤적–장면 상호작용에 주로 한정된다.
- 장면 정보를 정밀하게 이해하려면 상당한 계산 자원이 필요하다. 따라서 경량 네트워크를 고안하여 효율적인 장면 이해를 달성하는 연구가 중요하며, 이는 궤적 예측 분야에서 의미 있는 돌파구가 될 수 있다.
3.4 Data-Related Issues
- 딥러닝 기반 궤적 예측은 데이터 주도적이므로 궤적 데이터의 신뢰성과 정확성에 크게 의존한다.
- 그러나 기존 방법들은 데이터 이슈를 상대적으로 덜 다뤄 왔다.
- 한편으로는 수집 과정에서의 가림(occlusion), 범위 한계, 센서 오류 등으로 결측치가 발생할 수 있고, 다른 한편으로는 궤적 데이터가 불균형하며 본질적으로 롱테일 분포를 띤다.
- 이에 본 절은 데이터 이슈를 ① 결측치 처리, ② 롱테일 분포 대응의 두 측면으로 구분해 다룬다.
3.4.1 Handling Missing Values
- 결측치는 궤적 예측의 정확도에 악영향을 준다.
- 여러 연구[68,69]가 이를 해결하기 위한 다양한 접근을 제안했다.
- Qi 등[70]은 모방학습 패러다임에서 VAE와 비자가회귀 변환 모델을 결합해 공동 최적화로 미래 궤적 예측과 결측치 보간을 동시에 수행했다.
- Xu 등[71]은 MS-GNN으로 불완전 관측에서 콤팩트한 공간 특징을 추출하고, 변분 RNN으로 시간 의존성을 모델링해 결측 패턴을 학습했다.
- Qin 등[72]은 비자가회귀와 자가회귀 접근을 결합하고, 다층의 셀프 어텐션으로 관측치–결측치 간 의존성을 학습했다.
- 요컨대 관측 데이터를 활용한 외삽/보간으로 결측의 영향을 최소화한다.
- 다만 장기적으로는 더 합리적인 관측 설계를 통해 결측 발생 자체를 줄이는 것이 중요한 연구 방향이다.
3.4.2 Tackling Long-Tailed Distribution
- 현실 세계에서 다수의 궤적은 기본 운동학 규칙을 따르지만, 소수는 복잡한 운동 패턴을 보인다.
- 즉 헤드–테일 불균형이 존재한다. 테일 샘플이 적어 그 특성을 충분히 학습하지 못하면, 테일에 대한 예측 정확도가 떨어진다.
- Makansi 등[73]은 궤적 예측의 롱테일 문제를 최초로 체계 분석했으며, 테일 특징이 헤드 특징 사이에 끼어 학습 중 무시되는 현상을 관찰했다.
- 이들은 대비학습을 도입해 헤드/테일을 구분하고 유사 샘플 특징을 군집화했다.
- Zhou 등[74]은 앙상블로 롱테일에서 오는 불확실성을 완화하고, 최악 사례를 고려하는 궤적 플래너를 설계해 자율주행의 안전성을 높였다.
- Chen 등[75]은 BOsampler를 제안하여, 초기 예측 궤적을 사전(prior) 로 활용해 저확률 잠재 경로를 적응적으로 탐색했다.
- 최근 Wang 등[76]은 FEND라는 플러그앤플레이 프레임워크를 제안, 미래 궤적을 활용한 대비학습으로 상이한 운동 패턴의 샘플을 특징 공간에서 분리된 클러스터로 만들고, 분포 인지 하이퍼-예측기로 테일 특징을 학습했다.
- 이러한 방법들은 롱테일 문제를 완화하지만 근본 해결은 아니다.
- 다양한 장면에서 더 풍부한 궤적 데이터를 도입해 데이터 측면에서 롱테일을 억제하는 연구가 요구된다.

3.4.3 Summary
- 궤적 데이터 이슈 관련 방법은 표 5에 요약되어 있다. 데이터 이슈는 데이터 주도적 보행자 예측에서 핵심적이다. 특히 결측치와 롱테일 분포 문제 해결을 위해 새로운 기술의 도입이 필요하다.
제안(Suggestions)
- 신경 확률 미분방정식(SDE) 을 이용해 궤적 데이터의 동적 변화를 모델링하면, 다양한 원인으로 발생한 결측 처리에 적합하다.
- 롱테일 문제에서는 대비학습 설계 시 헤드 샘플의 다양성을 충분히 고려해, 서로 다른 운동 패턴을 더 정확히 표현해야 한다.
- 위 두 가지 외에도 잠재적인 기타 데이터 이슈에 대한 탐구가 필요하다.
한계(Possible limitations)
- 상기 방법들은 결측과 롱테일 문제를 억제할 뿐, 완전히 해결하지는 못한다. 진전을 위해서는 고품질·다양·다각도의 보행자 궤적 데이터를 더 많이 수집하고, 데이터셋 구축 단계에서부터 문제를 해결하는 노력이 필요하다.
3.5 Interpretability
- 딥러닝 기반 궤적 예측은 신경망으로 보행자 운동 패턴을 모델링해 미래 궤적을 예측한다.
- 전통적 방법 대비 정확도는 향상되었으나, 블랙박스 특성 때문에 해석 가능성[77,78]의 도전이 남아 있다.
- 반면, 수작업 규칙 기반 방법은 도메인 지식·전문가 경험·논리 규칙에 의해 설명 가능하다.
- 일부 고전적 기계학습도 정확도는 낮더라도 설명 가능한 예측을 제공할 수 있다.
- 따라서 딥러닝 모델의 해석 가능성을 높이는 길은 크게 ① 수작업(지식 기반) 방법과의 결합, ② 기계학습 방법과의 결합 두 가지다.
3.5.1 Combination with Hand-Crafted Methods
- 이산 선택 모형(DCM)[79–82]은 보행자 의사결정 행태를 설명하는 수작업 기반 방법이다.
- 해석 가능 출력은 제공하지만 예측 정확도는 낮은 편이다.
- 이에 다수 연구는 DCM + 신경망을 결합해 해석 가능성을 확보한다.
- Kothari 등[83]은 보행자 행동을 방향 유지, 리더–팔로워, 충돌 회피, 점유의 네 가지로 정의하고, DCM으로 해석 가능한 미래 의도를 학습한 뒤 신경망으로 정밀화했다.
- 전문가 지식을 직접 활용한 사례도 있다. Cao 등[84]는 논리 정보에 기반한 지식 주도형 예측을 제안, 관측 궤적으로부터 시공간 논리 규칙을 학습해 행태를 해석했다.
- Neumeier 등[85]은 디코더에 전문가 지식을 통합해 해석 가능한 잠재 공간을 형성했다.
3.5.2 Combination with Machine Learning Methods
- 일부 기계학습 방법은 보행자 운동 패턴을 직접 모델링할 수 있으므로, 신경망과 결합해 상호 보완이 가능하다.
- Shi 등[86]은 의사결정나무를 멀티모달 예측에 적용, 과거 궤적 정보를 바탕으로 트리 경로(루트→리프)로 거친(granular) 이동 행태를 설명했다.
- 결정나무의 해석성과 신경망의 유연성 결합으로 성능과 해석 가능성이 모두 향상되었다.
- Yue 등[87]은 BNSP-SFM을 제안해 행동 SDE와 베이즈 신경망(BNN) 을 결합했다.
- 신경망은 예측 성능을, SDE는 강한 해석 가능성을 제공한다.

3.5.3 Summary
- 모델 해석 가능성 관련 방법은 표 6에 요약되어 있다.
- 해석 가능성은 실사용에서의 채택을 좌우하는 핵심 요인이다. 딥러닝 모델이 높은 정확도를 달성했더라도, 해석력 부족은 보안/안전 관련 응용에서 부적합할 수 있다.
- 기존 연구는 신경망 + 기계학습/수작업 규칙 결합으로 해석 가능성을 확보했지만, 예측 정확도 저하 등 한계가 남아 있다.
제안(Suggestions)
- 심층 신경망의 설명가능성 연구에 집중할 필요가 있다. 대규모 언어모델(LLM) 을 활용해 궤적 예측의 설명을 제공하는 것도 유망하다.
- 화이트박스 신경망 또는 LLM 기반 궤적 예측의 도전을 고려할 때, 현재는 중간 산출물(예: 목적지 생성, 보행자 간 상호작용 및 행동 추정)을 함께 생성하여 설명 가능한 예측을 얻는 방안이 현실적이다.
한계(Possible limitations)
- LLM의 환각으로 잘못된 설명을 줄 수 있다. 또한 LLM 배치는 하드웨어 비용과 시스템 오버헤드를 증가시켜 궤적 예측 파이프라인에 부담이 될 수 있다.
4. Datasets and Evaluation Metrics
4.1. Evaluation Metrics
- 보행자 궤적 예측의 주류 평가 지표는 "평균 변위 오차(ADE)"와 "최종 변위 오차(FDE)"다.
- ADE는 예측 구간 전체에서 "예측 궤적 좌표"와 "정답(ground truth) 궤적 좌표" 사이의 유클리드 거리의 평균을 뜻한다.
- FDE는 "마지막 시점에서의 예측 좌표"와 "정답 좌표" 사이 유클리드 거리를 뜻한다. 두 지표는 다음과 같이 계산된다.
- N은 보행자 수 , T_pred와 T_obs는 각각 예측구간과 관측 구간의 길이이다.
- Y^과 Y는 각각 예측 및 정답 궤적을 의미하며, ||*||2는 L2노름이다.

4.2. Mainstream Pedestrian Trajectory Datasets
- 주요 보행자 궤적 데이터셋은 다양한 장면 정보를 포함하며, 복잡한 상호작용 행동을 가진 보행자 궤적을 담고 있다.
- 이들 데이터셋은 모델이 현실 세계의 운동 패턴과 규칙을 학습·평가하는 데 핵심적인 기반을 제공한다. 대표적인 데이터셋은 다음과 같다.


(1) Stanford Drone [38]
- Stanford Drone Dataset(SDD)은 드론으로 촬영한 스탠퍼드 대학교 내 60개 장면에서 보행자, 자전거, 스케이트보더, 차량의 궤적 데이터를 포함한다.
- 각 장면의 항공 이미지와 장면 내 에이전트의 픽셀 좌표가 제공되며, 도로·인도·건물·주차장·식생 등 다양한 장면 요소도 포함된다.
- SDD는 보행자 궤적 예측에 흔히 사용되며, 대부분의 연구는 TrajNet[88]에서 정의한 분할을 채택해 학습/검증/테스트 세트를 구성한다(표 7 참고).
- 이 분할에서 관측/예측 구간은 각각 8 타임스텝(3.2초), **12 타임스텝(4.8초)**이다.
- 표 8은 SDD에서의 SOTA 결과를 보고한다.
- MUSE-VAE[32]는 거시적→미시적 단계로 이어지는 "다단 예측 프레임워크"를 사용해 장기 궤적 예측을 다뤘다.
- "거시 단계"에서는 환경과 에이전트 운동의 결합 표현을 학습해 장·단기 목표를 예측했고,
"미시 단계"에서는 "정교한 시공간 표현"을 활용해 에이전트의 궤적을 예측했다. - VAE 프레임워크를 두 단계 모두에 결합하여, 두 수준의 불확실성을 공동으로 고려함으로써 SDD에서 유망한 성능을 보였다.
- "거시 단계"에서는 환경과 에이전트 운동의 결합 표현을 학습해 장·단기 목표를 예측했고,
- 한편 CSR[54]은 파라미터를 공유하지 않는 "다중 CVAE 모델"을 사용했다.
- 초기 과거 관측에 기반해 "다음 프레임의 궤적 좌표"를 예측하고, 이를 "새로운 과거 관측"으로 사용해 다음 CVAE에 순차적으로 투입하여, 전체 궤적을 생성하는 캐스케이드 구조를 설계했다.
- 이 설계는 누적 예측 오차를 효과적으로 회피해 성능을 향상시켰다.
- 추가로 CSR[54]은 과거 및 예측 궤적 특성을 전역적으로 결합해 상호작용 모델링과 궤적 예측 간의 호환성을 높였다.

(2) ETH[98] 및 UCY[99]
- ETH는 ETH와 Hotel 두 장면으로 구성되며, UCY는 ZARA1, ZARA2, UNIV 세 장면으로 구성된다. 모든 장면은 탑다운 관점의 감시 카메라로 촬영되었다.
- ETH/UCY는 1,536명의 보행자를 포함하며 수천 개의 비선형 궤적을 기록한다.
- 데이터에는 서로 다른 방향 이동, 동행 보행, 충돌 회피, 정지 등 복잡한 행동이 포함된다.
- SDD와 마찬가지로 관측/예측 구간은 **8 타임스텝(3.2초)**과 **12 타임스텝(4.8초)**이다.
- 표 9는 ETH/UCY의 SOTA 결과를 보고한다.
- 그중 **BNSP-SFM[87]**과 **STGLow[96]**이 뛰어난 성능을 달성했다.
- BNSP-SFM[87]의 주요 장점은 해석 가능성이다.
- Y-net[31]에서 영감을 받아 행동으로 인한 우연적(aleatoric) 불확실성과 관찰되지 않는 인지 요인으로 인한 인지적(epistemic) 불확실성을 분해했다.
- 구체적으로, 보행자의 행동 역학을 2차 확률 미분방정식으로 모델링해 상호작용에서 발생하는 우연적 불확실성을 다뤘고, 신경망을 이용해 장면·상호작용에 기반한 보행자의 최종 목표를 예측함으로써 인지적 불확실성을 모델링했다.
- 또한 우연적 불확실성의 무작위성을 정량화하기 위해 영향 요인에 사전분포를 부여하고, 베이지안 신경망으로 운동 역학과 불확실성을 학습했다.
- 반면 STGLow[96]은 예측을 위해 플로우 기반 생성 모델을 사용했다.
- GAN 기반 방법과 달리 플로우 방식은 잠재공간에서 데이터를 직접 모델링할 수 있다.
- CVAE 기반 방법은 관측 데이터의 로그 가능도의 변분 하한을 최적화하므로 현실과 맞지 않는 궤적을 생성할 수 있는 반면, 플로우 기반 방법은 데이터 분포를 더 정확히 모델링하며 인간 운동의 진화를 모사하는 데 물리적 의미가 명확하다는 장점이 있다.
- 아울러 STGLow는 GNN과 트랜스포머를 결합해 시간적 의존성과 공간적 상호작용을 충분히 모델링하여 성능을 더욱 높였다.

(3) NBA SportVU 데이터셋
- NBA 궤적 데이터셋은 NBA의 SportVU 추적 시스템으로 수집되었다. 실제 경기에서 10명의 선수와 공의 궤적이 제공된다.
- 표 10은 NBA 데이터셋의 SOTA 모델을 요약한다.
- 이들 모델은 과거 2.0초의 궤적을 사용해 4.0초 동안의 20개 미래 궤적을 예측한다.
- 평가는 ADE와 FDE로 수행된다.
- Cao 등[84]은 대량의 궤적 데이터로부터 선수 행동의 시공간 논리 규칙을 신경망으로 학습한 뒤, 학습된 규칙을 사용해 에이전트의 의도를 추론하고 기대-최대화(EM) 알고리즘으로 이를 최적화했다.
- NBA 데이터셋의 에이전트(선수)는 특정 행동 규칙을 따르므로, [74]는 본 데이터셋에서 유망한 성능을 얻었다.
- **DynGroupNet[48]**은 동적 다중 스케일 하이퍼그래프로 그룹 간 상호작용을 모델링하고, 위상 추론·신경 메시지 패싱·하이퍼그래프의 동적 임베딩 진화를 통해 서로 다른 시점에서의 동적 상호작용을 포착했다.
- 농구는 공격·수비 전술 수행을 위한 선수 간 협력이 빈번한 고상호작용 스포츠 시나리오이므로, DynGroupNet[48]은 이러한 동적 상호작용 문제에 특히 적합하다.
(4) JAAD[103] 및 PIE[104]
- JAAD는 교차로에서의 차량과 보행자 궤적을 주로 기록하며, 다양한 기상 조건 하의 도시 주행 장면을 담은 240시간 이상의 주행 영상에서 추출한 풍부한 주석을 제공한다.
- 총 346개의 짧은 비디오 클립(각 5–10초)을 포함한다.
- PIE는 차량 탑재 카메라로 촬영한 전형적 교통 시나리오를 포함하며 총 6시간 규모다.
- 300,000 프레임의 주석 영상, 1,842명 보행자 샘플, 그리고 속도·방향·GPS 등 정밀 차량 센서 정보가 영상과 동기화되어 제공된다.
- JAAD/PIE의 고전적 방법인 **SGNet[102]**은 에이전트의 목표(goal) 정보가 더 정확하고 상세한 미래 궤적 예측에 도움이 된다고 주장한다.
- 다른 연구들이 보행자의 최종 목표만 고려한 것과 달리, SGNet[102]은 보행자의 행동이 다양한 시간 규모의 목표에 의존한다고 보았다.
- 따라서 여러 시간 규모에서 목표 정보를 추정하는 경량 모듈을 도입하고, 어텐션 메커니즘으로 중요한 목표 특징을 강화했다.
5. Conclusions and Prospects
- 본 설문은 딥러닝 기반 보행자 궤적 예측의 과제를 조사하고, 기존 해법과 주류 데이터셋을 검토한다.
- 딥러닝 기반 궤적 예측 방법이 직면한 과제는 운동의 불확실성, 상호작용 모델링, 장면 의미 이해, 데이터 관련 이슈, 예측 모델의 해석 가능성의 다섯 측면으로 구분된다.
- 이어서 각 과제에 대한 해결책을 요약·분석하고, 해당 과제들과 함께 주요 궤적 예측 데이터셋과 그 SOTA 방법들을 제시한다.
- 이러한 과제들을 바탕으로, 향후 연구 전망은 다음 네 가지 측면에서 모색될 수 있다.
(1) 이기종 에이전트를 위한 궤적 예측: 본 설문에서 언급했듯 다중 에이전트 상호작용 모델링은 중요한 도전 과제다. 현재 연구 대부분은 이기종 에이전트가 상호작용에 미치는 영향을 충분히 고려할 필요가 있다. 이기종 에이전트의 궤적 예측은 동종 에이전트보다 일반적으로 더 어렵다. 실제 교통 시나리오에는 보행자, 자동차, 버스, 자전거 등 다양한 범주의 에이전트가 존재한다. 예를 들어, 보행자가 다른 보행자를 마주할 때와 자동차를 마주할 때의 반응은 완전히 다를 수 있다. 자동차가 표적 보행자에게 미치는 영향이 미미하더라도, 표적 보행자가 크게 반응할 수 있다. 일부 기존 연구[42,97]가 해결책을 제안했다. 이기종 에이전트 상호작용을 모델링하고 궤적 예측을 수행하는 것은 유망한 연구 방향이다.
(2) 경량화된 궤적 예측 모델: 현실 세계에서 궤적 예측을 적용하려면 효율성과 정확성의 균형이 필요하다. 그러나 딥러닝 기반 궤적 예측 모델로 이 균형을 달성하는 일은 도전적일 수 있다. 모델이 고려하는 요인이 많을수록 예측은 더 정확해지지만, 그만큼 모델 복잡도가 증가해 효율성이 떨어진다. 더불어 메모리 보강 네트워크 기반 일부 예측 모델[90,101]은 특히 복잡한 장면을 다룰 때 일정 수준의 메모리 소모를 요구한다. 따라서 효율성과 높은 정확성을 동시에 제공하는 경량 네트워크 아키텍처를 설계하는 것이 향후 궤적 예측 연구의 중요한 방향이다.
(3) 모델 강인성(robustness): 학습에 사용되는 궤적 예측 데이터셋은 종종 잡음과 불확실성의 영향을 받는다. 또한 실제 응용에서는 센서 오류나 날씨와 같은 요인이 상당한 불확실성의 원인이 된다. 보안이 특히 중요한 일부 실제 응용에서는 공격에 대한 강인성이 점점 더 주목받고 있다. 공격은 백도어 공격 등으로 학습 데이터를 오염시키는 방식으로 학습 단계에서 발생할 수 있다. 공격자는 주어진 모델의 학습 및 추론 절차를 수정할 수도 있다[105]. 따라서 간섭을 견디는 모델의 능력을 강화하고 신뢰성을 향상시켜 다양한 실제 작업에 보다 효과적으로 적용될 수 있도록, 모델 강인성을 우선시하는 것이 중요하다.
(4) 궤적 예측과 동작 계획의 통합: 궤적 예측은 종종 다운스트림 계획(planning) 작업에 사용된다. 예를 들어, 문헌[94]에서는 예측된 궤적에 확률을 부여하는 분류 기반 궤적 예측 접근을 제안하여 다운스트림 작업을 더 잘 지원했다. 따라서 궤적 예측과 동작 계획 작업을 효과적으로 통합하는 방법을 탐구하는 것은 가치 있는 연구 주제다.
최근 몇 년간 궤적 예측은 주목할 만한 진전을 이루었지만, 여전히 개선의 여지가 있다. 본 설문은 독자와 연구 커뮤니티가 딥러닝 기반 궤적 예측을 더 잘 이해하도록 돕고, 향후 연구를 촉진할 것이다.
'논문' 카테고리의 다른 글
| [Trajectory] MUSE-VAE (0) | 2025.09.15 |
|---|---|
| [ Trajectory Prediction ]Socail LSTM (1) | 2025.09.10 |
| [RRT][Fast 계열]FHQ-RRT* : AnImproved Path Planning Algorithm for Mobile Robots to Acquire High-Quality Paths Faster (0) | 2025.07.30 |
| [RRT][Quick계열] More Quickly - RRT* (0) | 2025.07.28 |
| [RRT] F-RRT* : An improved path planning algorithm with improved initial solution and convergence rate (0) | 2025.07.18 |