분류 전체보기 (79) 썸네일형 리스트형 확률 기반 PG최적화 학습 - 폴리시 그래디언트 메서드 - Reinforce 알고리즘 PG메서드의 더 간단한 버전을 Reinforce라고 함 Reinforce는 완전한 궤도로부터 실제 리턴true return을 계산하는 MC리턴의 특성으로 편향이 없는 unbiased 좋은 특성을 가지고있다. 하지만, 이러한 불편 추정unbiased estimate은 궤도의 길이에 따라 값이 증가하는 특성을 갖는 분산에는 바람직 하지 않다. 간단한 reinforce는 편향이 없다는 장점이 있지만, 분산variance이 상대적으로 크다는 단점이 있다. - 베이스라인이 있는 Reinforce 베이스라인을 추가하면 불편 특성을 유지하는 동안(근사적으로 이알고리즘은 로컬 최소값에 수렴한다.) 분산을 낮출 수 있다. 하지만 베이스라인이 있는 Reinforc.. Deep Q-Network DQN알고리즘 3가지 주요 부분으로 구성 - 데이터 수집과 저장 : 데이터는 행동 폴리시 behavior에 의해 수집한다. - 신경망 최적화(버퍼에서 샘플링한 미니 배치에 대해 SGD를 수행한다.) - 타깃 업데이트 DQN 구현 DQN코드안 네가지 주요 구성 요소 - DNN - 경험 버퍼 - 계산 그래프 - 훈련 및 평가 루프 Q-러닝과 결합해 심층 신경망을 사용할 수 있었던 최초의 알고리즘은 DQN이다. 이 알고리즘은 두가지 핵심 요소를 통합해 학습 안정화와 아타리 2600게임 같은 복잡한 작업을 제어할 수 있었다. 사용한 두 가지 핵심 요소는 기존 경험을 저장하는데 사용한 리플레이 버퍼replay buffer와 온라인 네트워크 online network 보다 업데이트 빈도가 낮은 별도의 타깃 네트워크.. Q-러닝과 SARSA 애플리케이션 환경과 상호작용해 경험을 통해 학습하는 새로운 강화학습 알고리즘을 소개했다. 이방법은 환경 모델에 의존하지 않고 폴리시와 가치함수를 학습한다는 점에서 동적 프로그래밍과는 다르다. 몬테카를로 방법이 환경에서 간단하게 샘플링하는 방법이지만 학습하기 위해서는 완전한 궤도가 필요하므로 많은 실제 환경에 적용 할 수 없다는 것을 알게 됐다. 이러한 단점을 극복하기 위해 부트스트레핑을 몬테카를로 방법과 결합한 TD학습 방법을 사용했다. 이 알고리즘은 부트스트레핑 기술을 이용해 온라인으로 학습하고 분산을 줄이면서 최적의 폴리시에 수렴하게 하는 방법이다. 강화학습에 사용 되는 몬테카를로 메서드의 주요 특징은? 몬테카를로 메서드가 오프라인인 이유는? TD학습의 두 가지 주요 아이디어는? 부트스트레핑을 몬테카를로 방법과 .. 동적 프로그래밍으로 문제 해결하기 MDP란? - 가치함수와 기대보상으로 이루어짐. - Markov 특성은 MDP에 내재돼 있으며, 미래의 상태는 과거의 이력이 아닌 현재 상태로부터만 영향을 받는다. - MDP정의를 사용해 폴리시, 리턴함수, 예상리턴(Expected return), 행동-가치함수, 가치함수의 개념을 정의했다. 강화학습 알고리즘은 모델-기반과 모델-프리 방법으로 구분할 수 있다. 모델-기반은 다음 행동을 계획하기 위해 환경 모델이 필요하며 모델-프리는 모델과는 독립적이며 환경과 직접 상호 작용해 학습할 수 있다. 폴리시 그래디언트 알고리즘은 그래디언트 상승을 통해 폴리시에서 직접 학습 하므로 온-폴리시 on-policy라고 한다, 가치함수 알고리즘은 오프-폴리시 off-policy이며 폴리시를 만들기 위해 행동-가치함수나 .. 강화학습 사이클과 openAI Gym 구현하기 대부분의 최신 강화학습 알고리듬은 딥러닝과 관련 있으므로 책전반에 걸쳐 사용할 딥러닝 프레임 워크인 텐서플로우를 살펴봤다. 텐서플로우를 사용하면 역전파 backpropagation 같은 심층신경망의 복잡한 부분을 처리할 때 딥강화학습 알고리듬의 개발 속도를 높여 준다. 또한 tensorflow는 알고리듬 디버깅 과정을 모니터링하고 지원하는 tensorBoard를 제공한다. Gym에서 step()함수의 출력은 무엇인가? step() : 실행 // render() : 결과를 표시 OpenAI Gym 인터페이스를 이용한 액션을 어떻게 샘플링 할 수 있는가? 에이전트에서 환경 : 액션 환경에서 에이전트 : 관측, 보상, 종료여부, 정보 관측: 환경에 대한 새로운 관측을 나타내는 객체 보상 : 마지막 액션에서 얻.. 강화학습 강화학습은 의사결정을 위한 목표 지향 접근법이다. 이방법은 환경과 직접 상호작용 하고 지연된 보상 메커니즘을 이용한다는 점에서 기존 패러다임과 차이가 있다 강화학습에서 딥러닝을 사용하면 고차원 상태 공간 문제와 인지 데이터 분석 문제를 해결하는데 도움이 된다. 강화학습에서 환경 모델은 필요 없지만 추가 정보를 제공해 폴리시의 품질을 개선하는데 도움이 된다. 강화학습이란 무엇인가? 의사 결정을 위한 목표 지향 접근법 에이전트의 최종 목표는 무엇인가? 살아 있는 동안 누적된 총 보상을 최대화 하는 것 지도학습과 강화학습의 주요 차이는 무엇인가? 지도학습과 강화학습은 데이터를 이용해 학습하는 유사하지만 다른 패러다임을 가짐. 지도학습 : 예제를 구성하는 제한된 데이터 양을 갖는 고정된 데이터셋으로 일반화 방법.. Few shot Learning, Meta Learning Meta Learning - Learning to learn 배우는 방법을 배운다 meta라는 단어는 한 차원 위의 개념적 용어로 대상의 전반적인 특성을 반영한다. 그래서 메타 러닝은 데이터의 패턴을 정해진 프로세스로 학습하는 것이 아니라, 데이터의 특성에 맞춰 모델 네트워킄 구조를 변화 시키면서 학습 한다. Few shot learning - 모델이 추론하는 과정에서 소량의 데이터만 보고 추론을 하는 경우를 few-shot 라고 한다. - 용어 정리 : - way: 데이터 클래스의 개수 - shot, point: 데이터의 개수 - query: test data (validation data) - source: train data - Few shot Learning 의 목적은 말 그대로 적은 데이터로 추.. [Machine Learning]Meta Learning Meta Learning - Learning to learn 배우는 방법을 배운다 meta라는 단어는 한 차원 위의 개념적 용어로 대상의 전반적인 특성을 반영한다. 그래서 메타 러닝은 데이터의 패턴을 정해진 프로세스로 학습하는 것이 아니라, 데이터의 특성에 맞춰 모델 네트워크 구조를 변화 시키면서 학습 한다. 메타러닝이란? 문제해결 방법론 중 하나 메타러닝은 적은 데이터로 모델을 훈련하면서 관련 task를 모두 수행 할 수 있다. Task A만 훈련시키면 task B는 추가적인 훈련 없이도 바로 구분해 낼 수 있느 모델이 탄생하는 것이다. 현재 AI 연구자들은 이러한 메타러닝이 AGI를 달성하는데 큰 도움이 될 것으로 보고 있다. *AGI : Artificial General Intelligence Me.. 이전 1 2 3 4 5 6 7 ··· 10 다음