논문 소개 링크 : https://arxiv.org/pdf/1602.01783.pdf github : https://github.com/ikostrikov/pytorch-a3c Main Contributions Experience replay 기반 RL 대신, 비동기 병렬 방식을 이용한 새로운 패러다임 제시 GPU 기반의 학습보다, 병렬 처리 기반 CPU 연산으로 학습 속도, 안정성 개선 1. Intro 요약 Experience replay 기반의 RL은 메모리와 연산이 더 크고, off-policy여서 업데이트 과정도 필요 본 논문에서는 비동기 병렬 방식을 이용해 새로운 패러다임을 제시 프로세스에서 다양한 스펙트럼이 생기고, Q-Learning 과 같은 다양한 off-policy 알고리즘..