SocialCircle

논문

SocialCircle

정지홍 2026. 1. 8. 10:22

[2310.05370] SocialCircle: Learning the Angle-based Social Interaction Representation for Pedestrian Trajectory Prediction

SocialCircle: Learning the Angle-based Social Interaction Representation for Pedestrian Trajectory Prediction

Analyzing and forecasting trajectories of agents like pedestrians and cars in complex scenes has become more and more significant in many intelligent systems and applications. The diversity and uncertainty in socially interactive behaviors among a rich var

arxiv.org

0. 초록

복잡한 장면에서 pedestrian이나 car 같은 agent들의 trajectory를 분석하고 예측하는 일은 많은 지능형 시스템과 응용에서 점점 더 중요해지고 있다.
다양한 종류의 agent들 사이에서 발생하는 socially interactive behavior는 diversity와 uncertainty가 크기 때문에, 이 과제는 다른 결정론적(deterministic) computer vision 과제들보다 더 어렵다.
연구자들은 서로 간 상호작용이 미래 trajectory에 미치는 영향을 정량화하기 위해 다양한 수학적 모델과 네트워크 구조를 통해 많은 노력을 해왔지만, 이 문제는 아직 잘 해결되지 않았다.
저자들은 물속에서 echo를 통해 동료의 위치를 파악하는 해양 동물에게서 아이디어를 얻어, target agent를 기준으로 서로 다른 각도 방향(angular orientations)에서의 social interaction context를 지속적으로 반영할 수 있는 angle-based trainable social interaction representation을 새롭게 제안한다.
이 표현은 SocialCircle이라고 이름 붙였다.
또한 저자들은 새로 공개된 여러 trajectory prediction 모델들과 함께 SocialCircle을 같이 학습시키며 그 효과를 검증했고, 실험 결과 SocialCircle이 예측 성능을 정량적으로(quantitatively) 향상시킬 뿐 아니라,
pedestrian trajectory를 예측할 때 사람의 직관(human intuitions)과 일치하는 방식으로 social interaction을 더 잘 시뮬레이션하도록(qualitatively) 돕는다는 것을 보여준다.

figure 1. “SocialCircle”의 핵심 직관을 **해양 동물의 echolocation(반향정위)**에 비유해서, social interaction을 ‘각도 기반(angle-based)’으로 표현하겠다 는 동기를 설명하는 그림

1) 그림 전체 구조: 1-Scan → 2-Reflection → 3-Echo

캡션이 말하는 흐름이 정확히 이 3단계다.
(1) 먼저 모든 각도로 Scan을 쏘고,
(2) 주변 agent들이 자기 방향을 알려주는 Reflection을 보내며,
(3) 타겟 agent는 서로 다른 각도 방향에서 들어오는 echo를 받아 의사결정을 한다는 가정.

2) 각 단계가 그림에서 무엇을 의미하는지

2- (1) 1-Scan (아래)

맨 아래 실제 scene(지도/영상) 위에 **Target Agent’s Past Trajectory(청록색 궤적)**와 **Neighbor Agents(분홍색 표식)**가 있음.
보라색 화살표들이 위로 올라가는데, 이게 “타겟이 주변을 스캔한다(모든 방향으로 신호를 쏜다)”는 비유 표현이다.
캡션에서도 “sending signals from all angles”라고 명시.

2- (2) 2-Reflection (중간)

가운데 파란 점들로 채워진 원판은 “각도 공간(angle space)” 같은 개념적 평면으로 보면 된다.
그 위에 표시된 High / Low / No Reflection은 “해당 방향(각도)에서 이웃이 주는 상호작용 신호가 강한지/약한지/없는지”를 직관적으로 나타낸 것이다.
- 빨간 X = High Reflection (상호작용 신호가 큼 → 잠재적 위험/충돌 가능성 큼)
- 노란 삼각형 = Low Reflection (영향은 있지만 약함)
- 파란 원 = No Reflection (그 방향에는 사실상 이웃이 없거나 영향이 거의 없음)

2- (3) 3-Echo (위)

맨 위의 큰 원(타겟 주변이 색으로 나뉜 영역)은 타겟이 “각도별 echo”를 종합해서 얻는 현재 social context의 요약 지도를 의미한다.
말풍선(“Maybe safer?”, “A little bit dangerous?”, “Better not to go through there?”)은 각도 방향별로 위험/안전 판단이 달라질 수 있음을 직관적으로 보여줌.

3) 오른쪽 점선 박스: “A Single Partition’s View”의 의미

오른쪽은 SocialCircle의 핵심 구현 아이디어인 **angle partition(각도 구간 분할)**을 한 조각만 떼어 보여주는 패널이다.

한 개의 wedge(부채꼴)가 하나의 **partition(각도 구간)**이라고 보면 되고,
그 partition에 대해:
1. Scan(아래 wedge) →
2. 그 방향에 이웃이 있으면 Reflection이 생기고(가운데) →
3. 그 결과가 Echo(위 wedge)로 요약됨
  이 과정을 모든 partition에 대해 반복한 뒤 Concatenate해서 “원형(사이클) 표현”을 만든다는 뜻.

1. 서론

지능형 agent들의 behavior를 분석·이해·예측하는 일은 점점 더 많은 지능형 시스템과 응용에서 크게 요구되고 있다. trajectory는 접근과 분석이 비교적 쉽기 때문에, trajectory를 통해 agent의 behavior를 분석하는 방식도 일반적인 접근이 되었다.
Trajectory prediction은 장면(scene)에 등장한 모든 agent의 position을 고려하여, 특정 기간 동안 agent의 가능한 모든 미래 trajectory를 예측하는 것을 목표로 한다 [1].
- 이때 예측을 수행할 때 잠재적인 interactive behavior [2, 8, 12, 33, 46]뿐 아니라 scene constraint [3, 5, 17, 25, 27, 30, 41, 47]도 함께 고려한다.
Trajectory prediction에서 고려하는 social interaction [1, 28](또는 agent-to-agent interaction)은,
서로 다른 agent들 사이에 발생할 수 있는 다양한 interactive behavior 자체뿐만 아니라, 그러한 behavior가 trajectory에 어떤 영향을 주는지까지 포함해 고려하는 것이다.
현재 trajectory prediction에서 social interaction을 모델링하는 방법들은 대략 Model-based와 Model-free 두 부류로 나눌 수 있다 [49].
- Model-based 방법은 특정한 “rules” [49]를 예측의 주요 기반으로 삼는다.
  - 예를 들어 Social Force 기반 방법 [9, 28]은 뉴턴 역학(Newtonian mechanics)의 규칙을 바탕으로 agent의 behavior를 모델링하고 시뮬레이션한다.
  - 또 [3, 42, 49]와 같은 다른 방법들은 서로 다른 수학적 모델을 도입해 trajectory prediction을 optimization problem으로 바꾸기도 한다.
  - 하지만 대부분의 social interaction 상황에 두루 맞는 일반화된 “rule”을 설계하는 것은 대체로 어렵기 때문에, 복잡한 scene에 적용하기가 쉽지 않다.
- 반대로 model-free 방법은 대부분 데이터에 의해 구동되며, 수동적인 개입은 거의 고려하지 않는다.
  - 예를 들어 graph-based 방법 [4, 14, 36]은 spatial 혹은 temporal graph 구조를 일련으로 구축하고, 이를 통해 agent들의 social interaction을 시뮬레이션하는 법을 학습한다.
  - 많은 model-free 방법은 neural network의 데이터 적합(data fitting) 능력을 충분히 활용할 수 있지만, 서로 다른 network structure에 크게 의존할 수 있고 explainability가 제한적일 수 있다.
  - “Rules”와 “data”는 둘 다 핵심적인 역할을 하지만, 각각의 방식은 그에 따른 한계를 가진다.
    - 자연스러운 생각은, 데이터 기반 backbone에 몇 가지 “lite-rules”를 추가해 약한 제약을 가이드로 제공함으로써 data-fit 과정이나 explainability를 개선하는 것이다.
    - ===> 즉, 강한 수학적 규칙 대신 상대적으로 약한 규칙으로 social interaction 학습을 제약하여, rules의 장점과 data-fit 능력을 동시에 얻고자 한다.
생체모방(bionics)과 심리학을 통해 agent의 interactive behavior를 분석하는 것은 자연스러운 선택이다.
- 동물들은 trajectory를 계획할 때 복잡한 방정식을 푸는 방식으로 다른 개체의 behavior를 분석하지 않고, 비교적 단순한 판단 규칙을 사용한다.
- 사회심리학 분야의 일부 연구자들도 복잡한 multi-agent system에서 각 agent는 광범위한 계산보다는 단순한 규칙에 따라 행동하고 상호작용하는 경향이 있다고 지적하며,
  이는 경제학과 정치학에서 널리 적용되어 온 다양한 agent-based simulation model에 영감을 주었다 [35].
흥미롭게도, 일부 해양 동물은 빛이 약한 심해에서 시각적 요인 대신 echolocation으로 다른 개체의 위치를 파악할 수 있다.
- 이들은 먼저 서로 다른 각도에서 (초음파 같은) 고유한 신호를 보내 환경을 스캔하고, 그 신호가 다른 개체와 접촉하면서 반사되어 echo를 만든다.
- 이후 서로 다른 방향에서 들어오는 echo를 수집하여 다른 개체의 위치를 파악하고, 상호작용하거나 소통한 뒤, 최종적으로 자신의 behavior를 수정한다.
Fig. 1에서 보이듯 echolocation은 agent들이 서로 상호작용하는 방식과 유사하다.
- 여기에는 “rules”가 아주 소수만 필요하다.
  - 예를 들어 echo를 보낸 뒤 다시 받을 때까지 걸리는 시간, 그리고 echo가 들어오는 방향 같은 것들이다.
  - 이런 방식에서 우리는 social behavior를 모델링하기 위한 단순한 prior를 도입하는데, 즉 interaction은 angle-based로 고려될 수 있다는 것이다.
    - 구체적으로, 모든 interactive behavior는 특수한 angle space에서 고려되며, angle θ(= echo가 어느 방향에서 오는지)가 독립변수 역할을 한다.
  - 우리는 대부분의 social interaction이 각 angle θ에 대응하는 몇 가지 단순한 component들로 “추론(infer)”될 수 있다고 가정한다.
    - 예를 들어 각 참여자의 velocity(두 번의 echolocation 사이에서 participant의 position이 어떤 방향으로 얼마나 변하는지)와 participant와 target agent 사이의 distance(스캔 이후 echo가 도달하는 데 걸리는 시간에 대응) 같은 것들이다.
  - 따라서 우리는 trajectory를 예측할 때의 현재 social interactive context를 표현하기 위해, angle-based vector function f(θ) ( 0≤θ<2π )을 얻을 수 있다고 본다.
우리는 이 angle-based social interaction representation을 SocialCircle이라고 부른다.
- SocialCircle은 Model-based로 분류될 수 있지만,
  동시에 model-free 방법처럼 데이터에 fit되도록 설계되었으며,
  그때 사용되는 rule은 “서로 다른 angle에서의 단순한 component”라는 상대적으로 약한 규칙이다.
- 이후 observed trajectory와 angle-based SocialCircle은 함께 분석되는데, 둘 다 sequence로 취급될 수 있기 때문이다.
- 이를 통해 trajectory에서의 temporal-attentive portion과 현재 interactive context에서의 angle-attentive portion을 동시에 포착하고, 이러한 약한 규칙들과 실제 세계의 social interaction behavior 및 예측된 trajectory 사이의 연결을 구축한다.

정리하면, 저자의 기여는 다음과 같다.
(1) pedestrian trajectory prediction에서 social interactive behavior를 모델링하기 위한 angle-based SocialCircle representation 제안
(2) spatial social interaction을 trajectory와 함께 temporal sequence 방식으로 취급하고 인코딩하는 serialized modeling strategy 제안
(3) 여러 backbone prediction model에서의 실험을 통해 정량적·정성적 우수성을 보임

2. 관련 연구

2-1. Model-based Social Interaction Methods

Model-based 방법은 수학적 규칙(mathematical rules)을 기반으로 trajectory를 예측하려는 접근이다.
- 고전적인 Social Force Model [9]은 뉴턴 역학(Newtonian mechanics)으로 인간의 dynamics를 모델링하기 위해 제안되었다.
- Pellegrini et al. [28]은 multi-agent tracking 과제에서 social behavior를 모델링하기 위해 Social Force factor를 도입했다.
- 또한 [19, 24, 50]과 같은 더 많은 Social-Force 기반 방법들도 crowd의 interaction을 모델링하기 위해 제안되었다.
Trajectory를 예측할 때 socially interactive behavior를 시뮬레이션하기 위해 다른 수학적 도구와 모델들도 사용된다.
- Xie et al. [42]는 field와 agent-based Lagrangian Mechanics를 이용해 social behavior를 시뮬레이션하고 예측하는 “Dark Matter” 모델을 제안했다.
- Xia et al. [41]는 여러 prediction scene에 걸쳐 통일된 방식으로 인간의 socially interactive behavior를 모델링하기 위해 social transfer function을 제안했다.
- Yue et al. [49]는 neural differential equation 모델을 제안했는데, 여기서는 명시적인 physics model이 pedestrian behavior를 모델링하는 데 강한 inductive bias로 작용한다.
- ==> 하지만 이런 방법들은 가능한 모든 socially interactive case를 포괄하기가 종종 어렵다.
[41, 49]처럼 데이터 기반(data-driven) 접근의 장점을 활용해 일부 핵심 파라미터를 trainable하게 만든 방법들도 있긴 하지만, 복잡한 prediction scene에서는 여전히 복잡한 수학적 규칙과 방정식에 의해 제한될 수 있다.

2-2. Model-free Social Interaction Methods

Model-free 방법은 주로 데이터 기반 형태(data-driven form)로 interactive behavior를 시뮬레이션한다.
- Alahi et al. [1]은 Social Pooling을 제안했는데, 이는 주변의 sequence들을 연결해 서로 hidden state를 공유하게 함으로써 information sharing 과정을 시뮬레이션한다.
- [8, 30]과 같은 social pooling 변형들은 서로 다른 scale이나 location을 동시에 고려하면서 feature를 pooling하도록 제안되었다.
- [11] 같은 grid-based 방법은 pooling 방법의 capacity를 강화하기 위해 추가적인 간단한 rule을 탐색하려는 시도로 제안되었다.
- Graph neural network가 빠르게 발전하면서, graph structure는 social interaction을 모델링하는 데 널리 사용되어 왔다.
  - Graph Attention Networks (GATs) [18, 26], Graph Convolutional Networks [6, 32, 36]는 서로 다른 node들 사이의 edge로 interaction을 표현/시뮬레이션하는 데 사용된다.
대부분의 model-free 방법은 예측된 trajectory가 social interactive cue의 영향을 반영하도록, 데이터를 fit하기 위한 “구조(structure)”에 더 초점을 두는 경향이 있다.
- 이 과정에서는 직접적인 수학적 규칙이 거의 제약으로 들어가지 않기 때문에, 결과적으로 서로 다른 network structure와 고품질 데이터에 더 의존하게 된다.

==> 제안하는 SocialCircle은 trainable backbone에 “lite-rules”를 도입함으로써 이러한 문제들을 해결하려고 한다.

====> 즉, interactive behavior를 모델링할 때 model-based 접근의 explainability와 data-driven 접근의 장점을 결합해 활용한다.

또한 interaction modeling 과정에서 복잡한 수학적 모델을 설계하거나 복잡한 방정식을 푸는 것을 피한다.

figure 2 . 제안하는 social circle의 계산 파이프라인...각 agent의 SocialCircle은 서로 다르다. 어떤 target agent에 대해, 먼저 세 가지 meta component(velocity, distance, direction)를 계산한다. 그런 다음 이 meta component들을 각 angle-based SocialCircle partition(각도 구간) 내부에서 평균내고, 마지막으로 이를 high-dimensional head-to-tail cyclic representation의 집합으로 embedding한다.

figure 2-1. 맨 왼쪽 : angle-based partitioning ( 각도 기반 분할 )

--- "target i(검은 사람)"과 "주변의 neighbor agents j(회색 사람)"이 있다.

--- 타겟을 기준으로 360˚를 N_θ개로 쪼갠다.

--- 각 neighbor j에 대해서, 현재 관측 마지막 시점인 t_h에서 target →neighbor 방향의 각도를 계산한다.

figure 2-2. 가운데 표 “Partitions / Agents / velocity distance direction”

--- 이는 "각 partition에 어떤 agents가 들어오며, 해당 agents로부터 어떤 값들을 뽑는지"를 보여준다.

--- partition에 agent배정(= angle binning)을 나타내며, 이는 neighbor j가 계산된 θ^i_j에 따라 어느 각도 구간에 속하는지가 결정됨.

--- 각 agent로부터 meta component인 vel dist dir를 뽑는다.

--- 만약, 각 partition마다 neighbor이 존재하지 않으면, 표에 empty라고 표시하고, 해당 값들은 0 0 0으로 들어간다.

figure 2-3. “Partition-Wise Average” (구간 내부 평균)

--- n번째 partition에 여러 agent가 들어올 수 있으니까, 그 안에서 velocity 평균, distance 평균, direction(각도) 평균
을 내서 partition을 대표하는 3차원 벡터를 만든다.

figure 2-4.“Embedding” (고차원 벡터로 변환)

partition별 3차원 meta 벡터 (v,d,θ)(v,d,\theta)는 그대로 쓰기엔 너무 저차원이라

3. Method

3-1. Formulations

본 연구는 2D 좌표로 이루어진 trajectory만을 다룬다.
위치는 아래의 식과 같이 표기한다.

관측 구간인 t_h step동안의 agent i의 과거 trajectory를 아래와 같이 정의한다.

연구에서 trajectory prediction목표는, 관측된 X^i를 바탕으로,
특정 예측 구간 t_f 동안의 1개 이상의 가능한 미래 trajectory를 예측하는 것이다.

이때 입력으로는 target i의 관측 trajectory인 X^i뿐만 아니라,
장면에 존재하는 모든 neighbors의 trajectory도 같이 사용하며,
또한 관측 마지막 시점인 t_h에서의 scene image I_{t_h}도 함꼐 고려한다.

N_a는 scene에 존재하는 전체 agent수.... " /i "는 i를 제외한 집합을 의미

3-2. Angle-based SocialCircle Representation .

이 논문에서는 social interaction과 관련된 모든 연산을 “angle” 공간에서 기술하고 구현한다.
여기서 angle θ는 interactive behavior의 위치(방향)를 나타내는 독립변수 역할을 한다.
먼저, "neighbor agent 가 "target agent i"에 대해 어느 방향에 있는지를 나타내기 위해, 각도 θ^i(j)∈[0,2π)를 정의한다.

target agent에 대해서, 이웃이 어느 방향에 존재하는지 나타내기 위함.

이 값은 현재 관측 시점( t = t_h )에서 **agent 에서 시작해서, agent 로 끝나는 벡터의 “direction(방향)” **으로 계산한다.
이는 아래의 식과 같다.
- 여기 식에서 atan2는 "입력 p=(x,y)

3-2-1. SocialCircle을 함수로 보는 관점

agent i의 SocialCircle representation(줄여서 SocialCircle)은
θ∈[0,2π)전 범위에서 정의되는 head-to-tail cyclic vector function f^i(θ)로 볼 수 있다.

계산을 쉽게 하기 위해, angle 변수 θ를 N_θ 개의 **partition(각도 구간)**으로 discretize(이산화)한다.
이때 agent 의 SocialCircle은 다음처럼 쓸 수 있다.

바로 위의 식에서 θ는 바로 아래의 식과 같다.
- 즉, [0,2π)를 쪼개서 [ θ_{n−1} , θ_n )같은 부채꼴 구간들을 만든 것

figure2의 오른쪽에 있는, 각 f^i( theta_n )은 **n번째 partition(각도 구간) 안에 들어오는 모든 참여자(participants)**가 만들어내는 “전체 interactive effort”를 나타내는 벡터로 사용된다.

이를 위해 n번째 partition에 속하는 agent들의 집합을 N^i( theta_n )으로 두고, 해당 집합은 아래의 조건을 만족한다.

즉, target i를 기준으로 보았을때, neighbor j의 방향각도 θ^i(j) 가 그 구간에 들어가면, j는 해당 partition의 집합에 포함된다는 뜻

그리고 논문은 agent 자신을 1번째 partition의 self-neighbor로 포함시킨다고 한다.
아래 식처럼 나타낸다.

또, N^i( theta_n )안의 agent 수를 | N^i( theta_n ) |라고 하면... 아래와 같다.

이건 “모든 partition에 들어간 agent들을 다 합치면, scene의 전체 agent 수 N_a가 된다”는 뜻이다.
(= 각 agent가 어떤 한 각도 구간에는 반드시 배정되도록 정리한 것)

3-3. SocialCircle Meta Components

각 SocialCircle partition(각도 구간)은 3개의 meta component로 계산된다.

3-3-1. Velocity f_vel

속도가 더 큰 agent는 주변 다른 agent들에게 잠재적으로 더 큰 위험이 될 수 있다.
SocialCircle은 이 상호작용 요인을 모사하기 위해, 한 partition 안에 있는 모든 neighbor들의 “average velocity”(관측 기간 동안의 이동 길이)를 사용한다.

3-3-2. Distrance f_dis

agent들은 상호작용 상대와의 거리 변화에 따라 서로 다른 interaction preference를 보인다.
SocialCircle은 이 요인을 모델링하기 위해, 한 partition 안에서 타겟 agent와 모든 neighbor들 사이의 평균 Euclidean distance(시점 t=t_h)를 사용한다.

3-3-3. Direction f_dir

연속적인 θ∈[0,2π)를 partitioning(이산화)하면 angle detail이 손실될 수 있다.
이를 보완하기 위해, 한 partition 안의 모든 neighbor들이 타겟 agent에 대해 갖는 각도의 평균을 compensation factor로 사용한다.
또한 이는 서로 다른 partition을 구분하기 위한 positional coding term처럼도 동작한다.

3-4. Serialized Modeling of Social Interaction

social circle의 각 partition은 아래와 같이 표현한다.

각 partition은....
meta component들을 concatenate한 뒤 embedding해서 얻는다. partition이 비어있으면(=해당 각도 구간에 neighbor가 없으면) 0을 넣어 embedding하고, 그렇지 않으면 f^i_meta( theta_n )을 embeding한다.
- 여기에서 g_embed는 **2개의 fully connected layer(각각 64 output unit)**로 구성된 embedding function이며,
  첫 번째 layer는 ReLU, 두 번째 layer는 tanh를 사용한다.

SocialCircle은 현재 시점( t=t_h )의 spatial interactive context를 serialized form(시퀀스 형태)으로 표현한다.
그리고 이를 아래와 같이 표현한다.

자연스럽게, serialized form의 context를 관측 trajectory X^i와 함께 다뤄서, 두 시퀀스 내부에서 “attentive portions”를 동시에 학습하는 것이다.

구체적으로는 spatial social circle f^i를 trajectory(또는 그 representation)와 같은 sequence length를 갖는 Virtual Temporal Sequence로 취급한다.
Fig. 3처럼, 먼저 f^i에 padding을 수행하며( N_θ≤t_h로 둔다), 이는 아래와 같다.

대부분의 기존 연구들에서는 agent 의 관측 trajectory X^i를 embedding layer f_embed로 고차원 표현 f^i_traj ∈ R^{t_h×d}로 먼저 변환한다.
backbone prediction model을 B_pred라 하면, 보통 미래 trajectory는 다음처럼 예측된다:

여기에서 social은 backbone 내부의 기존 social representation이다. others는 scene image I_{t_h}의 visual feature 같은 다른 필요한 feature들을 뜻한다.

SocialCircle 모델(SocialCircle-lized backbone)은 trajectory 정보와 interactive context를 함께 담은 fused vector f_fuse를 사용해서, 단독 f_traj대신 이것으로 trajectory의 temporal-attentive 부분과 SocialCircle의 angle-attentive 부분을 동시에 학습한다.
- f_fuse는 아래와 같이 만든다.

그리고 기존의 f_social은 제거되며, 이에 따른 파이프라인은 아래와 같다.

3-5. Training

SocialCircle은 추가적인 새로운 loss function을 도입하지 않는다.
실험에서는 Transformer, MSN, V^2-Net, E-V^2-Net을 backbone으로 사용해 성능을 검증하며, 각 backbone 논문에 보고된 원래 loss와 설정 그대로 학습한다.