강화학습
벨만 방정식 bellman equation
정지홍
2024. 12. 2. 12:13
벨만 방정식
- agent가 결정적인 상황뿐만 아니라 확률적으로 움직이는 경우에서도 상태 가치 함수를 구하기 위한 방정식이다.
- 이는 마르코프 의사 결정에서 중요한 방정식이다. ( 마르코프 결정 과정 )

1. 다음과 같은 2칸짜리의 그리드 월드에 대한 예제

