

VGG 16
- 이미지 분류와 객체 검출 작업에서 사용되는 모델
- 깊이가 16개 층인 CNN이다.
- 현제는 딥러닝 모델의 기반으로 자주 사용됨.
- 장점
- 단순하며 성능이 좋으며, 전이학습에서 사용 가능
- 단점
- 많은 파라미터와 메모리를 가지며 훈련속도가 느리다.
- 경량화에는 부적합
- 구조..
- 총 16개의 학습가능한 레이어로 이루어짐. ( convolutional layer + fully connected layer )
- 입력 크기 : 224 x 224 x 3 크기로 고정. ( 이를 위해서 이미지를 resize해야함)
- convolution layer ( padding = 1 , stride = 1 )
- 이미지의 공간적 특징을 추출하며, 3 x 3 크기의 필터를 사용한다.
- 필터의 크기는 특징을 세밀하게 추출하면서, 계산 복잡도를 억제함.
- 각각의 convolution layer뒤에 ReLU활성화를 해서 비선형성을 부여함.
- 이미지의 공간적 특징을 추출하며, 3 x 3 크기의 필터를 사용한다.
- max pooling
- 컨볼루션 레이어들 마다 max pooling을 삽입하여, 차원을 축소하며 중요한 정보를 요약한다.
- 2 x 2 크기의 풀링 윈도우와 stride = 2 이다.
- fully connected layers
- 해당 레이어로 이미지의 최종 클래스를 예측함.
- softmax
- 마지막 레이어를 softmax활성화 함수를 사용
| 크기 | ||
| 입력 | 224 x 224 x 3 | conv 3x3 + ReLU |
| 첫번째 블록 | 224 x 224 x 64 | conv 3x3 + ReLU |
| 224 x 244 x 64 | conv 3x3 + ReLU | |
| 112 x 112 x 64 | 2 x 2 max pooling | |
| 두번째 블록 | 112 x 112 x 128 | conv 3x3 + ReLU |
| 112 x 112 x 128 | conv 3x3 + ReLU | |
| 56 x 56 x 128 | 2 x 2 max pooling | |
| 세번째 블록 | 56 x 56 x 256 | conv 3x3 + ReLU |
| 56 x 56 x 256 | conv 3x3 + ReLU | |
| 56 x 56 x 256 | conv 3x3 + ReLU | |
| 28 x 28 x 256 | 2 x 2 max pooling | |
| 네번째 블록 | 28 x 28 x 512 | conv 3x3 + ReLU |
| 28 x 28 x 512 | conv 3x3 + ReLU | |
| 28 x 28 x 512 | conv 3x3 + ReLU | |
| 14 x 14 x 512 | 2 x 2 max pooling | |
| 다섯번째 블록 | 14 x 14 x 512 | conv 3x3 + ReLU |
| 14 x 14 x 512 | conv 3x3 + ReLU | |
| 14 x 14 x 512 | conv 3x3 + ReLU | |
| 7 x 7 x 512 | 2 x 2 max pooling | |
| Flatting 단계 | 7 x 7 x 512 특징맵을 Flatten으로 1차원 벡터로 바꾼다. 이는 7x7x512=25088개의 요소로 이루어짐. | |
| Fully Connected Layer | Flatten된 벡터를 입력받아서 4096개의 뉴런으로 변환함. 그리고 ReLU적용 | |
| Flatten된 벡터를 입력받아서 4096개의 뉴런으로 변환함. 그리고 ReLU적용 | ||
| Softmax | softmax활성화 함수를 사용해서, 각 클래스에 속할 확률을 계산한다. |
'코딩 및 기타 > 이미지' 카테고리의 다른 글
| coordinate system ( world , camera , pixel , normalized ) (0) | 2025.01.19 |
|---|---|
| segNet (0) | 2025.01.19 |
| 허프 변환(Hough Transformation) (0) | 2025.01.17 |
| 모폴로지 Morphology (1) | 2025.01.16 |
| U-Net (0) | 2025.01.15 |