논문

[ Trajectory Prediction ]Socail LSTM

정지홍 2025. 9. 10. 08:21

CVPR 2016 Open Access Repository

 

CVPR 2016 Open Access Repository

Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan, Alexandre Robicquet, Li Fei-Fei, Silvio Savarese; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 961-971 Humans navigate complex crowded environments based

openaccess.thecvf.com

 

CVPR 2016

 

 

0. Abstract

  • pedestrians는 장애물을 피하고 다른 보행자를 배려하기 위해 서로 다른 이동 경로를 택한다.
  • 이러한 장면을 주행하는 autonomous vehicle은 pedestrains의 future positions를 미리 예측하고, 그에 맞춰 자신의 path를 조정해 collision을 피할 수 있어야 한다.
  • trajectory prediction 문제는 과거 위치를 바탕으로 사람들의 미래 궤적을 예측하는 시퀀스 생성 과제로 볼 수 있다.
    • 시퀀스 예측 과제에서 순환신경망(RNN)이 최근 성공을 거둔 흐름을 따라, 우리는 일반적인 인간의 이동 패턴을 학습하고 미래 궤적을 예측할 수 있는 LSTM 모델을 제안한다.
    • 이는 Social Forces처럼 수작업으로 설계된 함수에 의존하는 전통적 접근과 대조적이다.
  • 우리는 여러 공개 데이터셋에서 제안 방법의 성능을 입증하며, 일부 데이터셋에서는 최신 기법보다 더 좋은 성능을 보인다는 것을 보여준다.
  • 또한 모델이 학습한 이동 행동 양상을 보여주기 위해, 모델이 예측한 궤적을 분석한다.

 


 

figure 1.

figure1. 논문의 목표는 붐비는 장면에서의 이동 역학을 예측하는 것이다. 그러나 각 사람의 움직임이 보통 주변 사람들의 영향을 받기 때문에 이는 도전적인 과제다. 우리는 공용 환경에서 사람들이 이동할 때 일반적으로 활용하는 상식적 규칙과 사회적 관습을 고려하여, 장면 속 모든 사람의 경로를 공동으로 예측할 수 있는 새로운 모델 Social LSTM을 제안한다. 이들의 미래 궤적에 대한 예측 분포는 히트맵으로 표시되어 있다

 


1. Introduction

 

  • 인간은 서로를 ‘읽는’ 타고난 능력을 지니고 있다.
  • 사람들이 인도, 공항 터미널, 쇼핑몰 같은 붐비는 공공 공간에서 걸을 때, 수많은 (암묵적인) 상식 규칙을 따르고 사회적 관습을 준수한다.
    • 예를 들어 다음에 어디로 움직일지 고민할 때, 개인 공간을 존중하고 통행 우선권을 양보한다.
      • 이러한 규칙을 모델링하고 그것을 활용해 복잡한 실제 환경에서 인간의 움직임을 이해하고 예측하는 능력은, 사회적 인식을 갖춘 로봇의 배치 [41]부터 스마트 환경에서의 지능형 추적 시스템 설계 [43]에 이르기까지 매우 폭넓은 응용 분야에서 큰 가치를 지닌다.
  • 그러나 이런 상식적 행동을 고려하면서 인간 표적의 움직임을 예측하는 일은 매우 어려운 문제다.
  • 이는 붐비는 공간에서 사람들 사이에 일어나는 복잡하고 종종 미묘한 상호작용을 이해해야 하기 때문이다.
  • 컴퓨터 비전의 최근 연구는 이러한 도전 과제 중 일부를 성공적으로 다뤄 왔다.
    • Kitani 등 [32]은 정적 환경의 의미론(예: 보도의 위치, 잔디 구역의 범위 등)에 대한 추론된 지식이, 장면 정보를 무시하는 모델보다 가까운 미래의 보행자 궤적을 더 정확히 예측하도록 돕는다는 것을 보였다.
    • 또한 [24, 50, 35]의 선구적 연구들은 다중 표적 추적 문제에서 견고성과 정확도를 높이기 위해 인간–인간 상호작용(흔히 ‘사회적 힘’)을 모델링하는 방법을 제안했다.
  • 하지만 이러한 연구들 대부분은 다음 두 가지 가정에 의해 제한된다.

    i) 상호작용을 데이터 기반으로 추론하기보다 특정 환경을 위해 으로 설계한 함수로 ‘상호작용’을 모델링한다.
      ==> 그 결과 반발/흡인 같은 단순 상호작용을 포착하는 모델이 선호되어, 더 복잡하고 혼잡한 상황에는 일반화가 어려울 수 있다.

    ii) (즉각적 충돌을 피하기 위해) 서로 가까운 사람들 사이의 상호작용 모델링에 초점을 맞추지만, 더 먼 미래에 일어날 수 있는 상호작용은 예견하지 한다.

 

  • 본 연구에서는 "가까운 미래의 인간 궤적"예측하기 위한, 새로운 데이터 기반 아키텍처를 통해, 이 두 가지 문제를 모두 다루는 접근법을 제안한다. ( 2가지 문제는 위에서 언급한 내용... 직접 설계한 함수 + 먼 미래는 예측 x )
    • 필기 [20]와 음성 [21] 생성 등 다양한 시퀀스 예측 과제에서 장단기 메모리(LSTM) 네트워크가 거둔 최근의 성공에서 영감을 받아, 이를 인간 궤적 예측으로도 확장한다.

 

  • LSTM은 긴 시퀀스를 학습하고 재현할 수 있지만, 서로 상관된 다중 시퀀스 간의 의존성은 포착하지 못한다.
  • 우리는 서로 가까운 시퀀스에 해당하는 LSTM들을 연결하는 새로운 아키텍처로 이 문제를 해결한다.
  • 특히, 공간적으로 인접한 시퀀스들의 LSTM이 서로의 은닉 상태를 공유할 수 있게 하는 ‘소셜’ 풀링 레이어를 도입한다.
  • 우리가 ‘Social-LSTM’이라 부르는 이 아키텍처는, 시간적으로 동시에 존재하는 궤적들 사이에서 일어나는 전형적 상호작용을 자동으로 학습할 수 있다.
  • 이 모델은 추가 주석 없이 기존의 인간 궤적 데이터셋만으로도, 사회적 공간에서 인간이 지키는 상식적 규칙과 관습을 학습한다.
  • 마지막으로, 공개 데이터셋 두 가지(ETH [49], UCY [39])에서 우리의 Social-LSTM이 최첨단 기법들보다 훨씬 더 정확하게 보행자 궤적을 예측할 수 있음을 보인다.
  • 또한 궤적 데이터셋으로부터 모델이 학습한 사회적 제약을 이해하기 위해, 모델이 생성한 궤적 패턴을 분석한다.

 


 

2. Related work

2-1. Human - Human interactions

  • Helbing과 Molnar [24]의 선구적 연구는 보행자 움직임을 매력(흡인)·반발 힘으로 설명하는, 이른바 Social Force 모델을 제시했다.
    • 이 모델(social force)은 최신 보행자 데이터셋들 [39, 49]에서도 경쟁력 있는 성능을 보이는 것으로 알려져 있다.
    • 이후 이 방법은 로보틱스 [41]와 행동 이해 [43, 73, 50, 38, 37, 9, 10]로 확장되었다.
  • 이와 유사한 접근들은 강한 "사전 가정"을 둔 모델로 "human-human interactions"을 모델링해 왔다.
    • Treuille 등 [62]은 연속체 역학을,
      Antonini 등 [2]은 이산 선택(Discrete Choice) 프레임워크를,
      Wang 등 [69]과 Tay 등 [59]은 가우시안 프로세스를 사용했다.
      • 이러한 함수 기반 방법들은 정지해 있는 집단 [74, 48]을 연구하는 데에도 쓰였다.
      • 이들 연구는 "매끄러운 이동 경로"를 대상으로 하며, 이산화(discretization)에서 비롯되는 문제는 다루지 않는다.
  • 또 다른 연구 흐름은 잘 설계된 "특징(feature)""속성(attribute)"을 사용해 추적과 예측을 개선한다.
    • Alahi 등 [1]은 군중의 궤적으로부터 상대적 위치 관계를 학습해 사회적 친화(social affinity) 특징을 제안했고,
      Yu 등 [74]는 조밀한 군중에서의 예측 향상을 위해 인간 속성의 활용을 제안했다.
      • 이들은 또한 [6]과 유사한 에이전트 기반 모델을 사용한다.
    • Rodriguez 등 [54]은 초고밀도 군중 영상을 분석해 사람을 추적·계수한다.
    • ==> 이들 모델 대부분은 특정 장면을 위한 규칙과 상대 거리 기반의 수작업 에너지 함수를 제공한다.

 

  • ==> 반면, 우리는 보다 일반적인 데이터 주도 방식으로 Human-Human Interactions을 학습하는 방법을 제안한다.

 

 

2-2. Activity forecasting

  • activity forecasting 모델은 영상 속 사람들이 수행할 이동과/또는 행동을 예측하려 한다.
    • 많은 연구가 궤적 클러스터링을 통해 운동 패턴을 학습한다 [26, 30, 46, 77].
    • 더 많은 접근은 [45, 52, 34, 3, 16, 33]에 정리되어 있다.
      • Kitani 등 [32]은 정적 장면에서 인간 경로를 예측하기 위해 역강화학습을 사용한다.
        • 이들은 인간–공간 상호작용을 모델링해 장면 내 보행 가능 경로를 추론한다.
      •  Walker 등 [68]은 방대한 동영상 컬렉션을 주어졌을 때 시각 장면에서 일반적 에이전트(예: 차량)의 행동을 예측한다.
      • Ziebart 등 [78, 23]은 계획(planning) 기반 접근을 제안했다.
      • Turek 등 [63, 40]은 유사한 아이디어로 장면의 기능적 지도를 식별했다.
      • 이 밖에도 [27, 19, 42, 36]과 같은 방법들은 장면 의미론(scene semantics)을 사용해 인간 내비게이션의 목표와 경로를 예측함을 보였다.
    • 장면 의미론은 다중 객체 동역학 예측에도 사용되었다 [17, 36, 34, 28].
      • 이러한 연구들은 대체로 정적 장면 정보를 이용해 인간의 움직임이나 활동을 예측하는 데 국한되어 있다.

 

  • 본 연구에서는 경로 예측을 위해 동적인 군중 상호작용을 모델링하는 데 초점을 맞춘다.
    • 보다 최근에는 미래 인간 행위를 예측하려는 시도도 있다.
      특히 Ryoo 등 [55, 8, 71, 67, 44, 58]은 스트리밍 동영상에서 행동을 예측한다.

 

  • 우리 연구와 더 밀접한 것은 RNN 모델을 사용해 영상 내 미래 사건을 예측하는 아이디어다 [53, 57, 66, 56, 31].
  • 유사한 맥락에서, 우리는 장면 속 미래 궤적을 예측한다.

 

 

2-3. RNN models for sequence prediction

  • 최근 RNN과 그 변형(장단기 메모리 , LSTM  , GRU )은 음성 인식 , 캡션 생성,기계 번역 , 이미지/비디오 분류 ,인간 동작(human dynamics)  등 다양한 시퀀스 예측 과제에서 큰 성공을 보였다.
  • RNN 모델은 의미 분할 [76], 장면 파싱 [51], 심지어 합성곱신경망(CNN)의 대안 [65]처럼 촘촘히 연결된 데이터를 다루는 작업에도 효과적임이 입증되었다.
    • 이러한 연구들은 RNN이 이미지 픽셀처럼 공간적으로 상관된 데이터 간의 의존성도 학습할 수 있음을 보여준다.
  • 이는 우리가 Graves 등 [20]의 시퀀스 생성 모델을 본 문제로 확장하도록 동기를 부여한다.
  • 구체적으로, Graves 등 [20]은 고립된 필기 시퀀스를 예측하지만, 우리 연구에서는 동시에 존재하며 서로 상관된 다중 시퀀스(인간 궤적)에 대해 공동 예측을 수행한다.

 


figure 2.

figure 2. Social-LSTM 방법 개요.

- 한 장면의 각 궤적마다 별도의 LSTM 네트워크를 사용한다.

  그런 다음 Social pooling(S-pooling) 레이어를 통해 이 LSTM들을 서로 연결한다.

 

- 기존 LSTM과 달리, 이 풀링 레이어는 공간적으로 가까운 LSTM들끼리 정보를 공유할 수 있게 한다.

  그림의 변수들은 식 (2)에서 설명된다.

 

- 맨 아래 행은 장면 내 한 사람에 대한 S-pooling을 보여준다.

  일정 반경 안에 있는 모든 LSTM의 은닉 상태를 모아 풀링하고, 이를 다음 시점의 입력으로 사용한다.

 

- 그림의 위쪽( 시간 흐름 ): 각 보행자마다 하나의 LSTM이 있고, 시간 t마다 이들의 "은닉상태 h_i"가 가운데의 "S-Pooling layer"로 모인다. 

 

- S-Pooling"주변 이웃들의 은닉상태 "를 모아(합산/임베딩) 각 보행자에게 돌려주고, 그 정보가 다음 시간의 LSTM입력으로 들어가 상호작용을 반영한 업데이트가 이루어진다. ==> 그래서 사람들 간 영향이 동시에 전파된다.

 

- S-Pooling의 의미: 전통적인 LSTM은 자기 시퀀스만 보지만, 여기에서는 공간적으로 가까운 LSTM들끼리 정보를 공유한다... ==> 즉, 한 보행자의 다음 이동을 예측할때 , 이웃의 움직임( 속도 or 방향 변화 등)을 함께 참고한다.

 

- 그림의 검은원(사람)에 대한 예시

==> 1. 검은원을 중심으로 로컬 격자를 깐다.

==> 2. 격자 셀 안에 들어온 이웃들(파란점 , 주황점)의 은닉벡터를 cell별로 합산한다.

==> 3. 이렇게 cell별로 모은 값들을 쌓아서, 3차원 텐서를 만들고, 이것이 임베딩되어서, 사람 3의 다음 시각 LSTM입력에 포함된다. ( 이 방식은 단순 평균이 아니다. 이는 "어느 방향에 어떤 이웃이 있었는지"의 공간배치를 보존한다. )

 

3. Our model

  • 혼잡한 장면에서 이동하는 인간은 주변 사람들의 행동에 맞춰 자신의 움직임을 조정한다.
    • 예를 들어, 어떤 사람은 마주 오는 집단을 배려하기 위해 경로를 완전히 바꾸거나 잠시 멈출 수도 있다.
    • 이런 궤적의 변화는 해당 개인만을 고립적으로 관찰해서는 예측할 수 없다.
  • 또한 전통적 사회적 힘(social forces) 모델 [24, 43, 73, 50]처럼 단순한 ‘반발’이나 ‘흡인’ 함수만으로도 예측되기 어렵다.

 

  • 따라서 우리는 한 사람의 경로를 예측할 때,
    넓은 주변(neighborhood) 내 다른 사람들의 행동을 함께 고려할 수 있는 모델을 구축하고자 한다.
  • 이 절에서는 장면 내 모든 사람의 궤적을 공동으로(jointly) 예측하는 풀링 기반 LSTM 모델(그림 2)을 설명한다.
    우리는 이를 “Social LSTM”이라 부른다.

 

 

3.1 Social LSTM

  • 사람마다 움직임 패턴이 다르다. 각자는 서로 다른 속도와 가속으로 움직이고, 보행 방식(게이트)도 다르다.
    • 따라서 한 개인에 대해 "제한된 초기 관측"만으로도, 그 사람 고유의 운동 특성을 이해하고 학습할 수 있는 모델이 필요하다.
  • LSTM은 필기나 음성처럼 고립된 시퀀스의 성질을 성공적으로 학습하고 일반화할 수 있음이 알려져 있다.
    • 이에 영감을 받아, 우리는 궤적 예측 문제에도 LSTM 기반 모델을 개발한다.

 

  • 구체적으로, 한 장면에서 사람마다 하나의 LSTM을 배정한다.
    • 이 LSTM은 해당 사람의 상태학습하고, 그림 2와 같이 그 사람의 미래 위치를 예측한다.
    • LSTM의 가중치는 모든 시퀀스에 공유된다.

  • 하지만 사람당 LSTM 하나를 그대로 쓰는 것만으로는, 주변 이웃과의 상호작용을 포착하지 못한다.
    • 일반적인(바닐라) LSTM은 다른 시퀀스의 거동에 대해 무지하다.
  • 우리는 이 한계를 해결하기 위해, 그림 3(및 그림 2)에 시각화된 새로운 풀링 전략으로 이웃한 LSTM들을 연결한다.

식1
figure 2.

figure 2. 검은점으로 표시된 사람에 대한 S-Pooling을 보여준다.

- 일정 거리안에 있는 이웃들의 hidden state를 pooling한다.

- 오른쪽 두 단계가 보여주듯, 이 pooling은 이웃의 공간적 정보를 부분적으로 보존한다.

- 1번째 그림 : 검은점이 중심 보행자, 주변의 다른 점이 이웃들

- 2번째 그림 : 중심을 기준으로 격자를 깔고, 각 이웃의 은닉 벡터 h1 h2 h3를 해당 셀 위치에 배치

- 3번째 그림 : sum-pooling을 적용해서, 같은 cell/window에 있는 이웃들의 은닉벡터를 더함.

- 4번째 그림 : 노랑과 파랑이 같은 셀에 존재해서 서로 합쳐짐. 주황은 다른 셀로 남음..

 

==> 결과적으로 “어느 방향/거리 셀에 이웃이 있었는가”라는 대략적 공간 배치를 유지한 채, 이웃들의 상태 정보를 압축해 다음 시점 LSTM 입력으로 사용한다.(식 1의 (H_t)^i 구성 )

 

3.1.1 Social pooling of hidden states

  • 개인은 주변 사람들의 움직임을 암묵적으로 추론하며 자신의 경로를 조정한다.
  • 이웃들 또한 자신들 주변의 다른 사람들에 의해 영향을 받아 시간이 지나며 거동이 변할 수 있다.
  • 우리는 LSTM의 은닉 상태가 이러한 시간에 따라 변하는 운동 특성을 담아낼 것이라 기대한다.
  • 여러 사람을 공동으로 추론하기 위해, 우리는 이웃한 LSTM들 사이에 상태를 공유한다.
  • 이때 새로운 문제가 생긴다.
  • 사람마다 이웃의 수가 다르고, 매우 밀집한 군중에서는 [1] 그 수가 매우 커질 수 있다.
  • 따라서 모든 이웃의 상태 정보를 압축적으로 결합하는 표현이 필요하다.
  • 우리는 그림 2와 같이 “소셜” 풀링 레이어를 도입해 이를 처리한다.
  • 매 시점마다, 각 LSTM 셀은 이웃 LSTM들의 은닉 상태를 풀링한 정보를 입력으로 받는다.
  • 이 정보를 풀링하는 동안, 아래에 설명하듯 **격자 기반 풀링(grid-based pooling)**을 사용해 공간적 정보를 보존하려 한다.

 

 

 

3.1.2 Position estimation

  • 우리는 학습 데이터셋의 모든 궤적에 대해 이 손실을 합쳐 최소화함으로써 모델을 학습한다.
  • 주목할 점은, 우리의 “Social” 풀링 레이어는 추가 파라미터를 도입하지 않는다는 것이다.
  • 전통적인 LSTM과의 중요한 차이점은, 여러 LSTM의 은닉상태가 우리의 “Social” 풀링 레이어에 의해 서로 결합되고, 매 시점마다 장면 내 여러 LSTM을 공동으로 역전파한다는 점이다.

 

 

3.1.3 Occupancy map pooling

  • “Social” LSTM은 이웃 궤적으로부터 온 어떤 종류의 특징이든 풀링할 수 있다.
  • 단순화를 위해, 우리는 이웃들의 좌표만 풀링하는 모델도 실험했는데(실험 4절에서 O-LSTM이라 부름), 이는 원래 모델을 축약한 것으로 훈련 시 모든 궤적에 대한 공동 역전파가 필요 없다.
  • 이 모델은 여전히 이웃과의 즉각적 충돌을 피하도록 궤적 위치를 재조정하는 법은 배울 수 있다.
  • 그러나 이웃들로부터의 추가 정보가 없기 때문에, 미래 충돌을 피하기 위한 매끄러운 경로 변경은 해내기 어렵다.
  • 사람 i에 대해서는, 텐서 H_t i의 정의를 바꿔 시각 t에 그 사람의 위치를 중심으로 한 N x N행렬로 만들고, 이를 occupancy map ( O_t i )라 부든다. 
  • 이 맵에는 모든 이웃의 위치가 풀링된다. 맵의 (m,n) 원소는 다음과 같이 주어진다.

  • 여기서 1mn[⋅]은 앞서 정의한 지시 함수이다.
  • 이는 식 (1)의 소셜 텐서를 단순화한 것으로 볼 수 있는데, 해당 셀에 이웃이 있는지/없는지를 나타내는 상수값으로 은닉상태 벡터를 대체한 형태다.
  • 이 더 단순한 모델을 학습할 때는, 벡터화된 점유 맵을 식 (2)에서 Hti대신 사용한다.

 

 

3.1.4 Inference for path prediction

 

 


3.2 Implementation details

  • LSTM에 넣기 전에 공간 좌표를 64차원으로 임베딩한다.
  • 공간 풀링 크기 N_o는 32로 두고, 겹치지 않는 8×8 sum-pooling window를 사용한다.
  • 모든 LSTM의 은닉 상태 차원은 128로 고정했다.
  • 또한 풀링된 은닉 상태 특징 위에 ReLU(정류 선형 유닛) 비선형을 갖는 임베딩 층을 한 층 더 두어, 은닉 상태 텐서 H_t^i를 계산하기 전에 이 특징을 변환한다.
  • 하이퍼파라미터는 합성 데이터셋에서의 교차 검증으로 선택했다.
  • 이 합성 데이터셋은 소셜 포스 모델을 구현한 시뮬레이션으로 생성되었으며, 프레임당 평균 군중 밀도 30명 수준의 수백 개 장면 궤적을 포함한다.
  • 학습에는 학습률 0.003과 RMSprop [14]을 사용했고, Theano [5] 구현으로 단일 GPU에서 Social-LSTM을 훈련했다.

 

4. Experiments

  • 이 절에서는 공개 보행자 궤적 데이터셋 두 가지, ETH [49]와 UCY [39]에 대한 실험을 제시한다.
  • ETH는 장면 2개(각각 보행자 750명)를 포함하며 ETH와 Hotel로 나뉜다.
  • UCY는 장면 2개(보행자 786명)를 포함하며, ZARA-01, ZARA-02, UCY의 3개 구성으로 제공된다.
  • 총 5개 세트에서 모델을 평가한다.
  • 이 데이터셋들은 수천 개의 비선형 궤적이 포함된 실제 혼잡 환경을 나타내며, [49]에서 보인 것처럼 커플 동행, 그룹 교차, 그룹 생성/해산 같은 까다로운 군집 행동도 다룬다.

 

평가는 세 가지 지표로 보고한다. Pellegrini 등 [49]을 따라:

  1. 평균 변위 오차(ADE) – 한 궤적의 예측점들과 실제점들 전체에 대한 평균제곱오차(MSE).
  2. 최종 변위 오차(FDE) – 예측 구간 끝 TpredT_{\text{pred}}에서 예측 최종 위치실제 최종 위치 사이의 거리.
  3. 평균 비선형 변위 오차(N-ADE) – 궤적의 비선형 구간에서의 MSE. 궤적 예측 오차는 대체로 사람 간 상호작용에서 생기는 비선형 회전/꺾임 근처에서 크므로, 이 구간의 오차를 별도로 평가한다. 비선형 구간은 2차 미분 노름에 임계값을 두는 휴리스틱으로 판별한다.

 

  • 학습 데이터 활용을 극대화하기 위해 leave-one-out 방식을 사용한다. 5개 세트 중 4개로 학습·검증하고 남은 1개로 테스트하며, 이를 다섯 번 반복한다. 비교되는 다른 기준 기법들도 동일한 학습/테스트 절차를 따른다.
  • 테스트에서는 3.2초를 관측하고 이후 4.8초를 예측한다. 프레임 간격이 0.4초이므로, 8 프레임 관측 → 12 프레임 예측에 해당한다.
  • 설정은 [49, 39]와 유사하다. 표 4에서 최신 기법들과 다음의 통제 설정들과 성능을 비교한다.
  • Linear (Lin.): 표준 칼만 필터로 등가속 가정을 두고 궤적을 외삽.
  • Collision avoidance (LTA): Social Force [73]의 충돌 회피 에너지만 사용하는 단순화 버전(선형 궤적 회피).
  • Social Force (SF): [73] 구현 사용. 그룹 친화도, 목적지 예측 등 여러 요인을 모델링.
  • Iterative Gaussian Process (IGP): [61] 구현 사용. 다른 기준들과 달리 사람의 최종 목적지 정보를 추가로 사용.
  • 우리의 Vanilla LSTM (LSTM): “Social” 풀링을 제거하고 궤적 간 독립으로 처리한 단순화 설정.
  • 우리의 LSTM + 점유맵 (O-LSTM): §3.1의 단순화 버전. 매 시점 이웃 좌표만 풀링.

 

결과 요약:

  • 단순 선형 모델은 오차가 크며, 특히 비선형 구간에서 평균 비선형 변위 오차가 두드러진다.
  • 바닐라 LSTM은 [20]에서처럼 비선형 곡선을 외삽할 수 있어 선형 베이스라인보다 낫지만, 사람–사람 상호작용을 명시적으로 모델링하는 Social ForceIGP에는 미치지 못한다. → 상호작용을 고려해야 함을 시사.
  • 우리의 Social pooling 기반 LSTMO-LSTM은 대부분의 데이터셋에서 공들여 설계된 Social Force, IGP보다 우수하다. 특히 UCY에서의 오차 감소ETH보다 크다. 이는 두 데이터셋의 군중 밀도 차이로 설명할 수 있다: UCY에는 비선형 구간이 총 32K로 더 많고, ETH는 15K로 상대적으로 성긴 장면이 많다.
  • 더 혼잡한 UCY에서는 선형 경로에서의 이탈이 사람–사람 상호작용에 더 크게 지배되므로, 이웃 상호작용을 포착하는 우리의 모델이 더 큰 이득을 보인다. 반면 ETH에서는 보행자의 목적지 의도가 더 큰 역할을 하므로, 테스트 시 실제 최종 목적지를 알고 있는 IGP가 일부 구간에서 더 낮은 오차를 낸다.
  • ETH의 경우 O-LSTMSocial-LSTM의 오차는 비슷하며, 대체로 Social Force보다 좋다. 반면 더 혼잡한 UCY에선 Social-LSTM이 O-LSTM을 상회한다. 이는 은닉상태 전체를 풀링해야 밀집 군중의 복잡한 상호작용을 더 잘 포착할 수 있음을 보여준다.

 

 

4.1. Analyzing the predicted paths

  • 4장에서의 정량 평가 결과에 따르면, 학습된 Social-LSTM은 표준 데이터셋에서 최신 기법들을 능가한다.
  • 이번 절에서는 서로 다른 군중 환경에서 모델이 실제로 어떤 거동을 보이는지에 대한 정성적 통찰을 얻고자 한다.
  • 구체적으로, 개인들이 특정 양식으로 상호작용하는 사회적 장면에서 Social-LSTM의 성능을 질적으로 살펴본다.
  • 그림 4에는 네 사람이 있는 예시 장면을 제시한다. 서로 다른 시각에서 모델이 예측한 경로 분포를 시각화했다.
  • 그림 4의 1·3행은 각 사람의 현재 위치와 실제 궤적(미래 경로는 실선, 과거는 점선)을 보여준다.
  • 2·4행은 향후 12.4초에 대한 Social-LSTM의 예측을 보여준다.
  • 이 장면에서 세 사람(2, 3, 4)은 서로 가까이 걷고, 네 번째 사람(1)은 이들로부터 떨어져 이동한다.
  • 모델은 사람 (1)에 대해서는 모든 시점에서 직선 경로를 예측한다. 시간에 따른 분포가 유사하여, 이 사람이 일정 속도로 이동하고 있음을 시사한다.
  • 세 사람이 함께 걷는 3인 그룹의 예측에서는 더 흥미로운 패턴이 나타난다.
  • 모델은 양보선제적 충돌 회피를 위해 똑똑한 경로 선택을 한다.
  • 예를 들어, 시점 2, 4, 5에서 모델은 실제 선회가 시작되기 이전에 이미 사람 (3)과 (4)의 직선 경로에서의 이탈을 예측한다.
  • 시점 3과 4에서는, 사람 (3)이 사람 (1)에게 **양보하기 위해 ‘멈춤’**을 예측한다.
  • 흥미롭게도 시점 4에서는 그 정지 지점의 위치가 갱신되어 실제 경로의 회전 지점과 일치하도록 맞춰진다.
  • 그 다음 시점에는 더 많은 관측이 주어지면서, 모델이 그 지점을 **기준점(앵커)**으로 하여 완전한 회전을 정확히 예측할 수 있게 된다.
  • 그림 5에서는 ETH 데이터셋 중 하나에서 우리 모델(Social-LSTM), SF(Social Force) 모델 [49], 선형 베이스라인의 예측 결과를 비교한다. 사람들이 **그룹(예: 커플)**으로 걸을 때, 우리 모델은 그들의 궤적을 공동으로 잘 예측한다.
  • 주목할 점은 Social Force [73]와 달리 그룹 행동을 명시적으로 모델링하지 않았음에도, 우리 모델이 **그룹 궤적을 보다 총체적(holistic)**으로 잘 예측한다는 것이다.
  • 그림 5의 마지막 행에는 실패 사례도 제시한다.
  • 즉, 이전 연구들보다 결과가 나빠지는 경우로, (두 번째 열) 직선 경로를 그대로 예측하거나, (첫 번째·세 번째 열) 필요 이상으로 일찍 감속하는 경우다.
  • 이러한 경우 예측 궤적이 GT(정답)와 일치하지는 않지만, Social-LSTM은 여전히 ‘그럴듯한(plausible)’ 궤적을 출력한다.
  • 예컨대 첫 번째와 세 번째 열에서는, 앞사람과의 잠재적 충돌을 피하기 위해 속도를 줄이는 행동을 예측한다.

 

 


5. Conclusions

  • 본 논문은 한 장면에서 여러 개인을 공동으로 추론하여 인간의 궤적을 예측하는 LSTM 기반 모델을 제시했다.
  • 각 궤적(사람)마다 하나의 LSTM을 두고, 새로운 Social pooling 레이어를 통해 LSTM들 사이에 정보를 공유한다.
  • 이로써 얻어진 모델을 **“Social-LSTM”**이라 부른다.
  • 제안 방법은 두 개의 공개 데이터셋에서 최신 기법들을 능가했으며, 정성적 분석을 통해 그룹 이동과 같은 사회적 상호작용에서 비롯된 다양한 비선형 거동을 성공적으로 예측함을 보였다.
  • 향후 연구로는, 자전거·스케이트보드·카트·보행자 등 다양한 객체가 공존하는 멀티 클래스 환경으로의 확장을 계획한다.
  • 이때 각 객체는 점유맵의 라벨을 갖게 된다.
  • 또한 **정적 장면 이미지(지도)**를 LSTM의 추가 입력으로 포함하여 인간–공간 상호작용도 함께 모델링할 수 있다.
  • 이를 통해 인간–인간인간–공간 상호작용을 하나의 프레임워크에서 공동으로 다루는 것이 가능해질 것이다.