강화학습
정책 경사법 ( reinforce , baseline )
정지홍
2024. 12. 17. 15:42
손실함수
- 경사 하강법으로 최소값을 찾음.
- 기울기에 마이너스를 곱한 방향으로 매개변수를 갱신한다.
- 손실함수에 마이너스를 붙이면, 목적함수로 취급가능
목적함수
- 경사 상승법으로 최대값을 찾음.
- 기울기에 플러스를 곱한 방향으로 매개변수를 갱신한다.
- 목적함수에 마이너스를 붙이면, 손실함수로 취급가능
정책 경사법
- 기울기를 이용하여 정책을 갱신하는 기법을 의미
- 정책 기반 방법 중 하나이다.
- 종류
- A3C , A2C 분산 학습 알고리즘
- DDPG 결정적 정책을 따르는 알고리즘
- TRPO , PPO 목적 함수에 제약을 추가하는 알고리즘










REINFORCE알고리즘
- Reward Increment = Nonnegative Factor x Offser Reinforcement x Characteristic Eligibility
- 위의 식에서 G(tau)는 지금까지 얻은 보상의 총합이다. 이러면 특정 시간 t에서 행동을 선택할 확률에 항상 일정한 가중치 G(tau)를 적용한다.
- 이때 선택하는 action이 좋은건지 안좋은건지는 reward를 얻고 나서 알게된다. 그래서 이를 해결하기 위해서 G(tau)대신에 G t를 사용한다.

baseline 알고리즘
- reinforce알고리즘의 개선
- 안전성과 효율성을 높히기 위함.
- 기존의 reinforce는 분산에 대한 문제가 존재하며, baseline이 이를 해결함.
- 원리
- baseline은 단순히 기대값을 빼줘서 기울기 방향은 유지하지만 분산을 줄이게 유도 한다.
- b( S t )는 정책이 전체적으로 좋은지 나쁜지에 대한 기준값을 제공해쥼
- 조건
- baseline의 함수 b( S t)는 상황에 따라서 함수가 다르게 설정되어야함.
- 기울기의 방향을 변경하지 말아햐함. 즉, G t와 ( G t - b (s ) )의 기대값이 동일해야함.
- b( S t )는 임의의 함수이며, 이는 함수 입력이 t시점에서 state면 아무런 함수여도 상관없다는 것을 의미한다.
- baseline의 앞글자를 가져와서 b( S t )이다.
- baseline을 사용하는 알고리즘
- A2C , A3C , PPO