정규화(regularization)
-회귀모델에서 과적합을 완화 및 성능을 높혀주는 기법이다.
-과소적합 혹은 high bias 경우는 bias가 큰 모델이다. 이는 학습이 덜된 것이 원인이다.(train test 데이터간 차이가 커서)
-과적합 혹은 분산이 높은 것은 분산이 큰 모델이다. 이는 현 데이터로는 잘맞으나 다른 데이터 사용시 정확한 예측을 못함
-모델을 만들때, 분산과 편향을 둘 다 줄여주면 제일 좋으나 둘 중 하나를 포기해야한다.
-만약에 과적합인 경우, feature의 수를 줄이거나 정규화를 한다.
----->좋은 모델은 적절한 분산과 편향을 가지고 있는 모델이다.
Ridge Regressiom
-이것은 최소제곱법과 유사하지만 각 계수의 제곱을 더한 값을 식에 포함해서 계수의 크기도 함께 최소화 하도록 만듬
(기존 다중회귀선을 훈련데이터에 덜 적합하도록 만드는 것)
-일반적인 선현모델을 사용하다보면 오버피팅이 발생할 수 있다. 이 경우에 데이터에 매우 적응되며 이를 표현하는 선형회귀의 계수값이 매우 크게 나온다. 이러한 것을 막기 위해서 계수 자체가 크면 패널티를 주는 것이 ridge regression이다.
-모델의 일반화 성능을 향상시킬 수 있다.
'코딩 및 기타' 카테고리의 다른 글
| 코드리뷰 MLM블로그 How to Use Out-of-Fold Predictions in Machine Learning (0) | 2023.07.20 |
|---|---|
| c형 간염 예측 random forest (0) | 2023.07.15 |
| 6주차 데이터베이스의 이해와 활용 | K-MOOC (0) | 2023.03.07 |
| 신경망 택시요금예측 (0) | 2023.03.06 |
| 당뇨 예측 (0) | 2023.03.05 |