stable-baselines3에서는 PPO, A2C, DDPG 등의 강화학습 모델들이 기본적으로 주어진다. 강화학습모델 안에서 내부 모델을 cnn으로 짤지 MLPpolicy를 쓸지 다양한 선택지가 주어지는데 보통은 mlp를 많이 쓰기도 하지만 cnn으로 진행하는 경우도 있다. 기본 제공 Network Stable-baselines3에서는 기본적으로 CnnPolicy, MlpPolicy, MultiInputPolicy를 제공하는데 Multi Input은 안써봐서 생략하겠다. CNN CNN에서는 convolution 시, kernel_size, stride, padding 등의 파라미터 설정값과 네트워크의 레이어에 따라 추출된 특징이 언제든 변할 수 있다. 아래는 stable-baselines3에서 기본적..