책/구글코랩으로 배우는 인공지능기술(23.01.26-23.02.04)
chapter11,12 강화학습,전이학습
정지홍
2023. 2. 4. 12:32
강화학습?
-강화대상에게 어떠한 행동의 결과에 대해서 보상을 준다. 이 대상은 보상을 최대한 얻을 수 있도록 개선해나간다.
-행동:대상이 환경에 작용하는 것을 의미.
-상태:대상이 환경에 놓여진 상태를 의미.(상태는 행동에 의해 변한다.)
-보상:대상이 행동에 따른 결과로 받는 것.
-정책:대상이 현재 상태를 토대로 어떻게 행동하는지 정해진 규칙 의미.
Q학습 알고리즘
-각 상태와 행동의 조합으로 Q값을 설정. 그리고 이 값으로 테이블을 만들어서 가장 큰 값을 선택.
-Q학습의 Q테이블은 다루는 문제가 많아지면 학습이 잘 진행되지 않는다.이런 경우는 딥큐 네트워크라는 심층 학습을 사영한다.
SARSA학습 알고리즘
-Q학습과 비슷하나 최대Q값이 아닌 다음에 실제로 선택된 Q값을 사용한다.
전이학습?
-어떠한 영역에서 학습한 모델을 다른 영역에 적용시키는 방법.
-기존의 학습한 모델은 특징 추출기로 사용하지만 여기의 파라미터들은 변경하지 않는다.
-딥러닝에 비하여 학습시간이 적다.
-학습한 모델을 기반으로 해서 추가하는 데이터가 적어도 좋은 모델을 훈련하는 것이 가능.