코딩 및 기타

ridge regression

정지홍 2023. 7. 12. 16:30

정규화(regularization)

-회귀모델에서 과적합을 완화 및 성능을 높혀주는 기법이다.

-과소적합 혹은 high bias 경우는 bias가 큰 모델이다. 이는 학습이 덜된 것이 원인이다.(train test 데이터간 차이가 커서)

-과적합 혹은 분산이 높은 것은 분산이 큰 모델이다. 이는 현 데이터로는 잘맞으나 다른 데이터 사용시 정확한 예측을 못함

-모델을 만들때, 분산과 편향을 둘 다 줄여주면 제일 좋으나 둘 중 하나를 포기해야한다.

-만약에 과적합인 경우, feature의 수를 줄이거나 정규화를 한다.

----->좋은 모델은 적절한 분산과 편향을 가지고 있는 모델이다. 

 

 

 

 

Ridge Regressiom

-이것은 최소제곱법과 유사하지만 각 계수의 제곱을 더한 값을 식에 포함해서 계수의 크기도 함께 최소화 하도록 만듬

  (기존 다중회귀선을 훈련데이터에 덜 적합하도록 만드는 것)

-일반적인 선현모델을 사용하다보면 오버피팅이 발생할 수 있다. 이 경우에 데이터에 매우 적응되며 이를 표현하는 선형회귀의 계수값이 매우 크게 나온다. 이러한 것을 막기 위해서 계수 자체가 크면 패널티를 주는 것이 ridge regression이다.

-모델의 일반화 성능을 향상시킬 수 있다.