벨만 방정식
- agent가 결정적인 상황뿐만 아니라 확률적으로 움직이는 경우에서도 상태 가치 함수를 구하기 위한 방정식이다.
- 이는 마르코프 의사 결정에서 중요한 방정식이다. ( 마르코프 결정 과정 )

1. 다음과 같은 2칸짜리의 그리드 월드에 대한 예제


'강화학습' 카테고리의 다른 글
| 정책 평가 , 정책 제어 , 반복적 정책 평가 (0) | 2024.12.05 |
|---|---|
| 행동 가치 함수 , 벨만 최적 방정식 , 최적 정책 (0) | 2024.12.03 |
| 마르코프 결정 과정 (0) | 2024.11.28 |
| 정상문제 , 비정상문제 (2) | 2024.11.27 |
| slot machine ( E-greedy 정책 ) (1) | 2024.11.26 |