chapter11,12 강화학습,전이학습

정지홍 2023. 2. 4. 12:32

강화학습?

-강화대상에게 어떠한 행동의 결과에 대해서 보상을 준다. 이 대상은 보상을 최대한 얻을 수 있도록 개선해나간다.

-행동:대상이 환경에 작용하는 것을 의미.

-상태:대상이 환경에 놓여진 상태를 의미.(상태는 행동에 의해 변한다.)

-보상:대상이 행동에 따른 결과로 받는 것.

-정책:대상이 현재 상태를 토대로 어떻게 행동하는지 정해진 규칙 의미.

Q학습 알고리즘

-각 상태와 행동의 조합으로 Q값을 설정. 그리고 이 값으로 테이블을 만들어서 가장 큰 값을 선택.

-Q학습의 Q테이블은 다루는 문제가 많아지면 학습이 잘 진행되지 않는다.이런 경우는 딥큐 네트워크라는 심층 학습을 사영한다.

SARSA학습 알고리즘

-Q학습과 비슷하나 최대Q값이 아닌 다음에 실제로 선택된 Q값을 사용한다.

전이학습?

-어떠한 영역에서 학습한 모델을 다른 영역에 적용시키는 방법.

-기존의 학습한 모델은 특징 추출기로 사용하지만 여기의 파라미터들은 변경하지 않는다.

-딥러닝에 비하여 학습시간이 적다.

-학습한 모델을 기반으로 해서 추가하는 데이터가 적어도 좋은 모델을 훈련하는 것이 가능.