코딩 및 기타/이미지

atrous convolution

정지홍 2025. 1. 24. 12:08

atrous convolution

  • 컨볼루션 연산에서 수용 영역을 증가시키기 위해서, 필터에 간격( Dilation Rate )을 추가하는 기법.
    • 이로 인하여 연산량 증가 없이, 더 넓은 컨텍스트 정보를 캡처하는데 유용하다.
      • 특히, 이미지 분할 , 객체 탐지에서 자주 사용됨.
  • 장점
    • 수용 영역의 확장으로 인한 계산 효율성 증가. ( 수용 영역 receptive field )
  • 한계
    • 격자 효과로 인하여, 수용영역에 포함되지 않는 중간 샘플링 지점들이 생길수있음. 이는 정보 손실을 가져옴
    • 공건 해상도도 감소
  • 활용
    • deeplab 시리즈 : atrous convolution과 aspp를 활용한 이미지 분할 모델이며, aspp를 사용해서 격자 효과를 해결
    • wavenet : 시계열 데이터를 더 넓은 컨텍스트에서 학습함.

 

 

기존의 컨볼루션 연산 출처: 10. Introduction to Deep Learning with Computer Vision— Types of Convolutions & Atrous Convolutions ❘ by Inside AI ❘ Deep-Learning-For-Computer-Vision ❘ Medium
atrous convolution 출처: 10. Introduction to Deep Learning with Computer Vision— Types of Convolutions & Atrous Convolutions ❘ by Inside AI ❘ Deep-Learning-For-Computer-Vision ❘ Medium

 

 

 

 

 

atrous convolution의 기본적인 개념

  • 기존은 convolution은 입력 이미지에 대해서 슬라이딩하며 연속적으로 커널을 적용시킴.
    하지만 atrous convolution은 이 과정에서 필터의 커널 사이에 간격을 두어서, 연산간의 샘플링 간격을 조절한다.
  • dalation rate = 1 : 일반적인 컨볼루션 ( 간격 없음 )
  • dalation rate = 2 : 커널의 각 요소 사이에 하나의 간격 추가 
  • dalation rate = 3 : 커널의 각 요소 사이에 두개의 간격 추가
    • 이로 인해서 커널의 수용 영역이 커지지만, 파라미터 수나 계산 복잡도는 증가하지 않는다.

dilation rate

  • 위의 그림에서 볼수있듯이 dilation rate가 커질수록 receptive field가 증가한다.
    • dilation rate가 지나치게 크면 grid effect( 격자 효과 )가 나타날수있다.

 

 

 

 

atrous convolution의 동작원리

  • 입력 데이터에 간격을 포함한 커널을 적용해서 샘플링하는 방식이다.