본문 바로가기

ReinforcementLearning

Q-러닝과 SARSA 애플리케이션

환경과 상호작용해 경험을 통해 학습하는 새로운 강화학습 알고리즘을 소개했다.

이방법은 환경 모델에 의존하지 않고 폴리시와 가치함수를 학습한다는 점에서 동적 프로그래밍과는 다르다.

몬테카를로 방법이 환경에서 간단하게 샘플링하는 방법이지만 학습하기 위해서는 완전한 궤도가 필요하므로 많은 실제 환경에 적용 할 수 없다는 것을 알게 됐다.

이러한 단점을 극복하기 위해 부트스트레핑을 몬테카를로 방법과 결합한 TD학습 방법을 사용했다.

이 알고리즘은 부트스트레핑 기술을 이용해 온라인으로 학습하고 분산을 줄이면서 최적의 폴리시에 수렴하게 하는 방법이다.

 

 

  • 강화학습에 사용 되는 몬테카를로 메서드의 주요 특징은?
  • 몬테카를로 메서드가 오프라인인 이유는?
  • TD학습의 두 가지 주요 아이디어는?
    • 부트스트레핑을 몬테카를로 방법과 결합한 TD학습 방법.
    • 이 알고리즘은 부트스트레핑 기술을 이용해 온라인으로 학습하고 분산을 줄이면서 최적의 폴리시에 수렴하게 하는 방법이다.
  • 몬테카를로와 TD학습의 차이는?
    • 몬테카를로와 TD의 중요한 특성은 두 방법이 테이블 형식 사례를 다루고 탐색 전략을 갖는 한 최적 해에 수렴한다는 점이다.
    • 하지만 두 방법은 가치함수를 업데이트 하는 방법이 다르다.
    • 전반적으로 TD는 몬테카를로 학습보다 분산이 상대적으로 낮지만 바이어스가 높다.
    • 또한 TD학습은 일반적으로 더 빠르며 몬테까를로 메서드 보다 많이 선호 되는 방법이다.
  • TD 학습에서 탐색이 중요한 이유는?
    • 모든 TD메서드는 환경을 잘 알고 최적의 폴리시를 찾기 위해 환경을 탐색해야 한다.
    • 환경 탐색은 행동 폴리시에 달려 있으며 때때로 폴리시는 e-탐욕 정책에 의해 비탐욕적 행동non-greddy Action인 랜덤 행동을 실행해야한다.
  • Q-러닝이 오프-폴리시인 이유는?
    • 원-스텝이고 테이블 형태이며 모델-프리 시간차 방법인 SARSA와 Q-러닝
    • SARSA는 현재의 폴리시에 근거해 행동을 선택하고 상태 가치를 업데이트 하므로 온-폴리시 방법이다.
    • 반면 Q-러닝은 행동 폴리시를 이용해 경험을 수집하는 동안 탐욕 폴리시에 근거해 상태 가치를 추정하므로 오프-폴리시라고 한다. 
    • 이와 같은 SARSA와 Q-러닝의 차이 때문에 SARA보다 Q-러닝이 강건하고 효율적인 학습을 할 수 있다.

 

 

파이썬 기반 강화학습 알고리듬 책을 읽고, 그 책의 질문 부분에 대한 답변을 작성한것 입니다.

 

 

 

'ReinforcementLearning' 카테고리의 다른 글

확률 기반 PG최적화 학습  (0) 2023.04.02
Deep Q-Network  (0) 2023.04.02
동적 프로그래밍으로 문제 해결하기  (0) 2023.04.02
강화학습 사이클과 openAI Gym 구현하기  (0) 2023.04.02
강화학습  (0) 2023.04.02