본문 바로가기

ReinforcementLearning

(18)
강화학습 사이클과 openAI Gym 구현하기 대부분의 최신 강화학습 알고리듬은 딥러닝과 관련 있으므로 책전반에 걸쳐 사용할 딥러닝 프레임 워크인 텐서플로우를 살펴봤다. 텐서플로우를 사용하면 역전파 backpropagation 같은 심층신경망의 복잡한 부분을 처리할 때 딥강화학습 알고리듬의 개발 속도를 높여 준다. 또한 tensorflow는 알고리듬 디버깅 과정을 모니터링하고 지원하는 tensorBoard를 제공한다. Gym에서 step()함수의 출력은 무엇인가? step() : 실행 // render() : 결과를 표시 OpenAI Gym 인터페이스를 이용한 액션을 어떻게 샘플링 할 수 있는가? 에이전트에서 환경 : 액션 환경에서 에이전트 : 관측, 보상, 종료여부, 정보 관측: 환경에 대한 새로운 관측을 나타내는 객체 보상 : 마지막 액션에서 얻..
강화학습 강화학습은 의사결정을 위한 목표 지향 접근법이다. 이방법은 환경과 직접 상호작용 하고 지연된 보상 메커니즘을 이용한다는 점에서 기존 패러다임과 차이가 있다 강화학습에서 딥러닝을 사용하면 고차원 상태 공간 문제와 인지 데이터 분석 문제를 해결하는데 도움이 된다. 강화학습에서 환경 모델은 필요 없지만 추가 정보를 제공해 폴리시의 품질을 개선하는데 도움이 된다. 강화학습이란 무엇인가? 의사 결정을 위한 목표 지향 접근법 에이전트의 최종 목표는 무엇인가? 살아 있는 동안 누적된 총 보상을 최대화 하는 것 지도학습과 강화학습의 주요 차이는 무엇인가? 지도학습과 강화학습은 데이터를 이용해 학습하는 유사하지만 다른 패러다임을 가짐. 지도학습 : 예제를 구성하는 제한된 데이터 양을 갖는 고정된 데이터셋으로 일반화 방법..