
깊은 강화학습이 아타리 게임과 같은 시각 기반 문제에 적용될 때, 픽셀을 직접 행동으로 매핑합니다. 내부적으로, 깊은 신경망은 유용한 정보를 추출하고 그 정보를 바탕으로 결정을 내리는 책임을 지게 됩니다. 이미지 처리와 의사결정을 분리함으로써 각 작업의 복잡성을 더 잘 이해할 수 있으며, 인간이 이해하기 쉽고 일반화가 더 잘되는 작은 정책 표현을 찾는 것이 가능해집니다. 이를 위해 우리는 강화학습에서 정책 근사(policy approximation)를 위한 정책과 컴팩트한 상태 표현을 동시에 하지만 별도로 학습하는 새로운 방법을 제안합니다.상태 표현은 두 가지 새로운 알고리즘인 증가 사전 벡터 양자화(Increasing Dictionary Vector Quantization)와 직접 잔차 희소 코딩(Direct Residuals Sparse Coding) 기반의 인코더에 의해 생성됩니다. 증가 사전 벡터 양자화는 시간이 지남에 따라 사전 크기를 늘릴 수 있어, 개방형 온라인 학습 환경에서 새롭게 나타나는 관찰치를 처리할 수 있습니다. 직접 잔차 희소 코딩은 재구성 오류 최소화를 무시하고 대신 가장 많은 정보 포함을 목표로 관찰치를 인코딩합니다. 인코더는 코드 희소성을 최대화하기 위해 온라인에서 자동으로 학습할 관찰치를 선택합니다.사전 크기가 증가함에 따라, 인코더는 신경망에게 점점 더 큰 입력을 제공하게 됩니다. 이 문제는 실행 중 확률 분포 차원성을 조정하는 지수 자연 진화 전략(Exponential Natural Evolution Strategies) 알고리즘의 변형으로 해결됩니다. 우리는 아타리 게임 중 일부를 사용하여 6~18개 뉴런(게임의 컨트롤에 따라 다름)만으로 구성된 매우 작은 신경망에서 시스템을 테스트했습니다. 이러한 신경망들은 여전히 결과가 유사하거나 때때로 우월한 성능을 보이는 최첨단 기술들보다 두 배 이상 적은 뉴런을 사용하는 경우에도 비해 경쟁력 있는 결과를 달성할 수 있었습니다.