본문 바로가기

ReinforcementLearning

(18)
[paper]Dense Passage Retrieval for open-Domain Questionestions and passages Answering(2020) [paper]Dense Passage Retrieval for open-Domain Questionestions and passages Answering(2020) 질문이 주어졌을 때, 질문에 대한 답을 찾기 위해 위키피디아 문서에서 검색을 하고, 분석을 진행 🟨Open-domain Question Answering 질문과 위키피디아 안에서의 연관성을 찾아서 답을 찾아가는 과정 -> TF-IDF 와 BM25를 사용 🟨ORQA: Learnable retriever 학습하는 과정에서 질문과 유사한 문장을 찾는 것 ( 임베딩을 통해서 유사도를 산출) 의미상 유사한 단어가 있어도 문장을 잘 파악해서 찾아냄. 🟨ORQA: Inverse Close Task(ICT) Inverse Close Task(ICT) : 사..
[논문리뷰]Time Series Data Augmentation for Deep Learning: A Survey 시계열 데이터 분석에서의 어려움 현존 하는 데이터 증강 기법들은 시계열 데이터의 내제적 특성(intrinsic property)을 활용하지 못함 일반적으로 시계열 데이터는 시간 종속성(Temporal Dependency)라는 특성을 가지고 있음 이미지나 언어 데이터와 다르게 시계열 데이터는 크게 시간(time)과 빈도(Frequency) 도메인으로 나눌 수 있는데, 이러한 각각의 transformed domain에 적합한 데이터 증강이 수행되어야 하기 때문에 다른 데이터에 비해 비교적 어려움 현존하는 데이터 증강 기법들은 task에 의존적인 경향이 존재함 time Series Classification에 쓰인 증강기법이, time Seriese Anomaly Detection에는 적합하지 않을 수 있음 ..
[논문리뷰]Diversity is all you need: Learning skills without a reward function meta learning + RL 에서 가장 유명한 논문 : Diversity is all you need: Learning skills without a reward function https://hugrypiggykim.com/2022/01/27/diayn/ https://lynnn.tistory.com/108 Diversity is all you need: Learning skills without a reward function Abstract 지적인, 또는 똑똑한 생물(intelligent creatures)은 감독관(Supervision)의 도움없이도 이런 저런 시도들을(exploration; 탐험) 통하여 스스로 useful skills를 학습한다. 본 논문에서도 이런 점에서 착안 lynnn..
meta-learning + RL ing https://www.youtube.com/watch?v=hE7eGew4eeg
계층적 강화 학습이란? https://arxiv.org/pdf/2104.00620.pdf TradeR: Practical Deep Hierarchical Reinforcement Learning for TradeExecution 논문을 읽다가 우선적으로 계층적 강화학습 에 대해서 찾아보게 되었다. 계층적 강화 학습이란? 참조 ( https://bluediary8.tistory.com/4 ) Hierarchical Deep Reinforcement Learning (HDQN) 본 포스팅은 기본적은 강화학습인 Q-learning과 DQN(Deep Q-network)에 대해 알고 있으셔야 읽기 수월합니다. Q-learning과 DQN에 대한 내용은 김성교수님의 모두를 위한 RL 강의를 참고하시기 바랍니다. (http bluediar..
[ppo]Proximal policy optimization algorithms 2022.01.18 - [ReinforcementLearning] - TRPO와 PRO 구현 - 연속행동으로 에이전트를 제어하기 위해 폴리시 그래디언트 알고리즘을 로보스쿨이라는 환경이 적용 - 쉬운 구현과 상징성의 이유로 아직까지 제일 유명한 알고리즘. - first-order optimization 만을 이용해 구현이 매우 쉬우며, TRPO만큼의 성능을 지니면서 data effciency 문제와 TRPO의 복잡하고,noise를 포함한 구조의 문제점들을 해결하였다. PPO의 주요 장점은 무엇인가? PPO는 TRPO와 유사하지만 1차 최적화 메서드만 사용해 목적함수를 최적화 한다. PPO는 목표함수가 너무 커지면 목적함수를 정리 Clipping해 폴리시가 너무 큰 스텝을 취하지 않게 한다. PPO가 좋은 ..
[Book][doit_1]강화학습이란 강화학습 Reinforcement Learning 행동에 대한 보상만 주어짐. 인공지능의 방법론인 머신러닝 machine learning의 한종류 머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눔 참고: 탐험과 이용중에서 중요하게 생각하는 요소에 따라 선택하는 알고리즘 가치반복법과 MC학습법 실습에서, 아래의 알고리즘을 사용해도 됨. 탐욕알고리즘 에이전트는 가장 높은 가치 함수 또는 Q 함수를 추구하는 방향으로 해동을 결정함. 탐험을 배제한 이용 랜덤 노이즈 알고리즘 에이전트가 지나는 각 단계마다 가치 함수의 추정치에 무작윗값을 더하는 방식. 이렇게 더한 노이즈로 탐험을 진행 앱실론-탐욕 알고리즘 에이전트는 엡실론 확률을 통해 가장 높은 가치 함수를 추구하지 않는 행동 중에서 하나를 무작위로 선택..
블랙박스 최적화 알고리즘 이해하기 EA: 강화학습 작업에 적용할 수 있는 생물학적 진화에서 영감을 얻은 새로운 블랙박스 알고리즘 EA 는 강화학습과 다른 관점에서 해당 문제를 해결함 강화학습 알고리즘을 설계할 떄 다뤄야 하는 많은 특성은 진화방법에서 필요없음 두가지 방법의 차이는 본질적 최적화 방법과 기본 가정에 있음 ex. EA는 블랙박스 알고리즘이므로 강화학습에서와 같이 미분 가능한 함수를 더 이상 사용 하지 않아도 돼 원하는 함수가 뭐든지 최적화 할 수 있음. 두가지 진화 알고리즘 : 1. 유전자 알고리즘 genetic algorithms 교차 crossover와 돌연변이 mutation를 이용해 부모로 부터 자손을 생성하므로 더 복잡 2. 진화 전략 evolution stategies 이전 세대의 돌연변이를 통해 만들어진 개체군에..