강화학습이란?
- 인간이 개입하지 않고, 컴퓨터가 스스로 주변의 환경과 상호작용하며 학습하는것
- 에이전트와 환경이 서로 상호작용한다.
강화학습의 구조

- agent
- 행동의 주체
- agent가 적절한 행동을 하면 환경이 변화한다.
그리고 agent는 environment로부터 적절한 reward를 받으며 새로운 state를 관찰한다. - value
- 보상의 기대값
- 행동의 결과로 인해서 얻는 보상의 기대값을 action value라고 함.
- 강화학습의 목표는 agent가 얻는 reward를 최대화할 수 있는 행동을 익히는 것 이다.
- ex) 보행로봇
- 보행로봇의 목표는 앞으로 효율적으로 걷는 방법이다.
- 로봇은 팔다리를 움직이는 action을 한다. 그러면 주변의 environment가 변화한다.
그리고 reward는 앞으로 나아간 거리 이다.
'코딩 및 기타' 카테고리의 다른 글
| openAI Gym test (0) | 2024.12.16 |
|---|---|
| ProjectFileAppend , ProjectFileAppendProducer (0) | 2024.12.06 |
| 면접준비 (2) | 2024.11.21 |
| intellij에서 spring boot 프로젝트 시작하기 ( kafka project ) (0) | 2024.11.20 |
| 이치 논리 (0) | 2024.11.16 |