정상문제
- 보상의 확률 분포가 변하지 않는 문제
비정상 문제
- 보상의 확률분포가 변하도록 설정한 문제

==> 위에서는 가중치가 지수적으로 감소하니 이러한 것을 지수 이동 평균 or 지수 가중 이동 평균 이라고 한다.
'강화학습' 카테고리의 다른 글
| 행동 가치 함수 , 벨만 최적 방정식 , 최적 정책 (0) | 2024.12.03 |
|---|---|
| 벨만 방정식 bellman equation (0) | 2024.12.02 |
| 마르코프 결정 과정 (0) | 2024.11.28 |
| slot machine ( E-greedy 정책 ) (1) | 2024.11.26 |
| 밴디트 문제 bandit problem (0) | 2024.11.25 |