벨만 방정식 bellman equation

강화학습

벨만 방정식 bellman equation

정지홍 2024. 12. 2. 12:13

벨만 방정식

agent가 결정적인 상황뿐만 아니라 확률적으로 움직이는 경우에서도 상태 가치 함수를 구하기 위한 방정식이다.
- 이는 마르코프 의사 결정에서 중요한 방정식이다. ( 마르코프 결정 과정 )

벨만 방정식 유도

1. 다음과 같은 2칸짜리의 그리드 월드에 대한 예제

각 칸의 백업 다이어그램이다. 왼쪽 오른쪽은 각각 0.5의 확률이며, 상태전이는 결정적이라고 가정하자.

위의 예제에서 상태 가치 함수를 구하는 과정...

'강화학습' 카테고리의 다른 글

정책 평가 , 정책 제어 , 반복적 정책 평가 (0)	2024.12.05
행동 가치 함수 , 벨만 최적 방정식 , 최적 정책 (0)	2024.12.03
마르코프 결정 과정 (0)	2024.11.28
정상문제 , 비정상문제 (2)	2024.11.27
slot machine ( E-greedy 정책 ) (1)	2024.11.26

현재글벨만 방정식 bellman equation

정지홍

RRT, SLAM, 티스토리챌린지, 퍼지, 퍼지이론, turtlesim, 퍼지 이론, turtlebot, urdf, ros2, rrt star, rrt*, ros, gz sim, 오블완, ROS 2, Fuzzy, Nav2, Gazebo, anytime rrt,

Today :
Yesterday :

티스토리툴바