본문 바로가기

ReinforcementLearning

강화학습

강화학습은 의사결정을 위한  목표 지향 접근법이다.

이방법은 환경과 직접 상호작용 하고 지연된 보상 메커니즘을 이용한다는 점에서 기존 패러다임과 차이가 있다

강화학습에서 딥러닝을 사용하면 고차원 상태 공간 문제와 인지 데이터 분석 문제를 해결하는데 도움이 된다.

강화학습에서 환경 모델은 필요 없지만 추가 정보를 제공해 폴리시의 품질을 개선하는데 도움이 된다.

 

  • 강화학습이란 무엇인가?
    • 의사 결정을 위한 목표 지향 접근법
  • 에이전트의 최종 목표는 무엇인가?
    • 살아 있는 동안  누적된 총 보상을 최대화 하는 것
  • 지도학습과 강화학습의 주요 차이는 무엇인가?
    • 지도학습과 강화학습은 데이터를 이용해 학습하는 유사하지만 다른 패러다임을 가짐.
    • 지도학습 : 예제를 구성하는 제한된 데이터 양을 갖는 고정된 데이터셋으로 일반화 방법을 학습함.                                                특정 환경에서 취할 수 있는 순차적 행동에 중점을 둠. 지도의 역활을 하는 것이 보상 reward이다.                                              강화학습은 지도 학습과 달리 어떠한 상황에서 취해야할 정답 행동이 없다.
  • 딥러닝과 강화 학습을 결합해 얻는 장점은 무엇인가?
    • 딥러닝이 고차원 공간 문제를 잘 해결하기 때문에 사용
  • 폴리시와 가치함수의 차이는 무엇인가?
    • 폴리시와 가치함수의 개념은 환경 상태의 품질과 취해야 할 행동 지침을 제공해 중요하다.
    • 폴리시 policy : 에이전트가 대상 상태에서 행동을 선택하는 방법을 정의한다. 에이전트의 장기 목표를 찾는데 도움이 된다.
    • 가치함수 : 상태에 대한 장기간 품질을 나타낸다. 이 함수는 에이전트가 지정된 상태에서 시작하는 경우 향후 예상되는 누적 보상이다.

 

파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.