multi-head attention과 cross-attention , self-attention차이

코딩 및 기타

multi-head attention과 cross-attention , self-attention차이

정지홍 2026. 1. 6. 11:45

0. Attention에 대한 간단한 정리

어떠한 token sequence가 존재할때, 각각의 token이 "다른 tokens 중 무엇을 얼마나 참고할지"를 계산하는 연산이 attention이다.
기본 구성 요소

그리고 token마다 3가지를 만든다.

핵심 연산 ( Scaled Dot-Product Attention )
- softmax는 점수를 확률처럼 만들어서 가중치로 사용한다.
- softmax안의 수식은 “점수” 이다. (토큰 i가 토큰 j를 얼마나 참고할지)
- 마지막에 V를 가중합해서 “참고 결과”를 만든다
  - 직관적으로, 각각의 token은 "내 질문Q"에 가장 잘 맞는 "주소 K"를 가진 tokens를 골라서, 해당 tokens의 "내용 V"를 섞어서 새로운 표현을 만든다.

1. self-attention

self-attention은 Q K V가 모두 같은 token집합에서 나온다.
만약 입력이 X하나라면...

즉, 토큰들이 서로 같은 집단 내부에서 서로를 참고한다.

직관적으로, 문장이라면... 단어들이 문장 안의 다른 단어를 참고
이미지 토큰이라면, 패치들이 같은 프레임 안의 다른 패치를 참고
- Navigation World Models의 CDiT에서 self-attention은 "미래 프레임(denoise대상)" 토큰들을 X_target이라 한다면, self-attn을 X_target내부에서만 하게 제안한다... ( 목적은 target frame안에서 공간적/구조적 관계를 정리 )

2. Cross-Attention

cross-attention은 Q는 하나의 token집합에서, K와 V는 다른 token집합에서 나온다.

직관적으로
- 번역(encoder-decoder)에서: 디코더(출력)가 인코더(입력 문장)를 참고
- 비디오에서: 현재 프레임이 과거 프레임(컨텍스트)을 참고
Navigation World Models의 CDiT에서 cross-attention의 의미는 아래와 같다.....
- 미래 프레임을 복원할 때, 과거 프레임에서 “어떤 정보(랜드마크, 방향, 구조)”를 가져와야 하는지를 cross-attention이 담당

3. Multi-Head Attention

Multi-head attention은 attention을 여러 개 head로 병렬로 계산한 뒤 합치는 구조다.
(중요: multi-head는 self/cross의 “종류”가 아니라, 그 attention을 여러 개로 쪼개는 방식)
head 개수를 h라고 한다면....

그리고 각 head의 출력들은 아래와 같다.
- W_O는 concat한거를 선형가중치로 투영하는 것
  - concat만 하면 head 결과가 그냥 “옆으로 붙어있는” 상태라서 head들 사이 정보가 잘 섞이지 않는다.
  - W_O는 head들의 채널을 섞어서(선형 결합) 모델이 다음 레이어에서 쓰기 좋은 표현으로 바꿔준다.
    - 비유하자면....
      concat: “12명이 각자 메모한 걸 한 장에 붙여놓기”
      W_O: “그 메모들을 한 번 정리/편집해서 최종 보고서로 만들기(선형 조합)”

직관
- 하나의 attention만 쓰면 “참고하는 기준”이 하나인데,
  head를 여러 개 두면...
  - 어떤 head는 코너/윤곽
  - 다른 head는 특정 물체/랜드마크
  - 또 다른 head는 원근/방향 변화
    같이 서로 다른 관계를 동시에 학습하기 쉬워진다.

'코딩 및 기타' 카테고리의 다른 글

LayerNorm , AdaLN이란 (0)	2026.01.05
attention이란 (0)	2026.01.02
world model이란 (1)	2025.12.31
학교 복도 ynet 결과 (0)	2025.11.20
ynet 작업 1 (0)	2025.11.18

현재글multi-head attention과 cross-attention , self-attention차이

정지홍

티스토리챌린지, ros, gz sim, ROS 2, ros2, anytime rrt, turtlebot, turtlesim, RRT, Gazebo, 퍼지 이론, Fuzzy, 퍼지, 오블완, SLAM, urdf, 퍼지이론, rrt*, Nav2, rrt star,

Today :
Yesterday :

티스토리툴바