강화학습

벨만 방정식 bellman equation

정지홍 2024. 12. 2. 12:13

벨만 방정식

  • agent가 결정적인 상황뿐만 아니라 확률적으로 움직이는 경우에서도 상태 가치 함수를 구하기 위한 방정식이다.

벨만 방정식 유도

 

 

 


1. 다음과 같은 2칸짜리의 그리드 월드에 대한 예제

각 칸의 백업 다이어그램이다. 왼쪽 오른쪽은 각각 0.5의 확률이며, 상태전이는 결정적이라고 가정하자.
위의 예제에서 상태 가치 함수를 구하는 과정...