정책 경사법 ( reinforce , baseline )

강화학습

정책 경사법 ( reinforce , baseline )

정지홍 2024. 12. 17. 15:42

손실함수

경사 하강법으로 최소값을 찾음.
기울기에 마이너스를 곱한 방향으로 매개변수를 갱신한다.
- 손실함수에 마이너스를 붙이면, 목적함수로 취급가능

목적함수

경사 상승법으로 최대값을 찾음.
기울기에 플러스를 곱한 방향으로 매개변수를 갱신한다.
- 목적함수에 마이너스를 붙이면, 손실함수로 취급가능

정책 경사법

기울기를 이용하여 정책을 갱신하는 기법을 의미
- 정책 기반 방법 중 하나이다.
종류
- A3C , A2C 분산 학습 알고리즘
- DDPG 결정적 정책을 따르는 알고리즘
- TRPO , PPO 목적 함수에 제약을 추가하는 알고리즘

세타를 찾는 과정을 '최적화'라고 한다. 최적화는 신경망 학습 과정을 말한다.

간단한 경사 상승법( 매개변수 theta를 기울기 방향으로 alpha만큼 갱신한다.) alpha는 학습률

몬테카를로법 이용

식으로 풀어보면 대충 이런 느낌...

REINFORCE알고리즘

Reward Increment = Nonnegative Factor x Offser Reinforcement x Characteristic Eligibility
위의 식에서 G(tau)는 지금까지 얻은 보상의 총합이다. 이러면 특정 시간 t에서 행동을 선택할 확률에 항상 일정한 가중치 G(tau)를 적용한다.
- 이때 선택하는 action이 좋은건지 안좋은건지는 reward를 얻고 나서 알게된다. 그래서 이를 해결하기 위해서 G(tau)대신에 G t를 사용한다.

baseline 알고리즘

reinforce알고리즘의 개선
- 안전성과 효율성을 높히기 위함.
- 기존의 reinforce는 분산에 대한 문제가 존재하며, baseline이 이를 해결함.
원리
- baseline은 단순히 기대값을 빼줘서 기울기 방향은 유지하지만 분산을 줄이게 유도 한다.
- b( S t )는 정책이 전체적으로 좋은지 나쁜지에 대한 기준값을 제공해쥼
조건
- baseline의 함수 b( S t)는 상황에 따라서 함수가 다르게 설정되어야함.
- 기울기의 방향을 변경하지 말아햐함. 즉, G t와 ( G t - b (s ) )의 기대값이 동일해야함.
b( S t )는 임의의 함수이며, 이는 함수 입력이 t시점에서 state면 아무런 함수여도 상관없다는 것을 의미한다.
- baseline의 앞글자를 가져와서 b( S t )이다.
baseline을 사용하는 알고리즘
- A2C , A3C , PPO

'강화학습' 카테고리의 다른 글

DQN ( Deep Q-Network ) (4)	2024.12.16
에이전트 모델( 분포 모델과 샘플 모델의 차이점) (1)	2024.12.15
Q-Learning , Q-Learning과 벨만 최적 관계식 간의 관계 (0)	2024.12.15
SARSA ( State-Action-Reward-State-Action ) 및 벨만 방정식과의 관계 (1)	2024.12.14
TD법 (0)	2024.12.13

현재글정책 경사법 ( reinforce , baseline )

정지홍

퍼지, SLAM, ros, Gazebo, Nav2, turtlebot, gz sim, 오블완, Fuzzy, anytime rrt, urdf, rrt star, turtlesim, RRT, ROS 2, 티스토리챌린지, 퍼지 이론, rrt*, 퍼지이론, ros2,

Today :
Yesterday :

티스토리툴바