강화 학습이란?

코딩 및 기타

정지홍 2024. 11. 25. 08:25

강화학습이란?

agent
- 행동의 주체
agent가 적절한 행동을 하면 환경이 변화한다.
그리고 agent는 environment로부터 적절한 reward를 받으며 새로운 state를 관찰한다.
value
- 보상의 기대값
- 행동의 결과로 인해서 얻는 보상의 기대값을 action value라고 함.
강화학습의 목표는 agent가 얻는 reward를 최대화할 수 있는 행동을 익히는 것 이다.
ex) 보행로봇
- 보행로봇의 목표는 앞으로 효율적으로 걷는 방법이다.
- 로봇은 팔다리를 움직이는 action을 한다. 그러면 주변의 environment가 변화한다.
  그리고 reward는 앞으로 나아간 거리 이다.

openAI Gym test (0)	2024.12.16
ProjectFileAppend , ProjectFileAppendProducer (0)	2024.12.06
면접준비 (2)	2024.11.21
intellij에서 spring boot 프로젝트 시작하기 ( kafka project ) (0)	2024.11.20
이치 논리 (0)	2024.11.16

정지홍

rrt*, rrt star, 퍼지이론, turtlebot, urdf, 티스토리챌린지, SLAM, 퍼지 이론, turtlesim, Fuzzy, 퍼지, ROS 2, RRT, Gazebo, ros2, Nav2, anytime rrt, ros, gz sim, 오블완,