코딩 및 기타
강화 학습이란?
정지홍
2024. 11. 25. 08:25
강화학습이란?
- 인간이 개입하지 않고, 컴퓨터가 스스로 주변의 환경과 상호작용하며 학습하는것
- 에이전트와 환경이 서로 상호작용한다.
강화학습의 구조

- agent
- 행동의 주체
- agent가 적절한 행동을 하면 환경이 변화한다.
그리고 agent는 environment로부터 적절한 reward를 받으며 새로운 state를 관찰한다. - value
- 보상의 기대값
- 행동의 결과로 인해서 얻는 보상의 기대값을 action value라고 함.
- 강화학습의 목표는 agent가 얻는 reward를 최대화할 수 있는 행동을 익히는 것 이다.
- ex) 보행로봇
- 보행로봇의 목표는 앞으로 효율적으로 걷는 방법이다.
- 로봇은 팔다리를 움직이는 action을 한다. 그러면 주변의 environment가 변화한다.
그리고 reward는 앞으로 나아간 거리 이다.