최근 연구들은 동영상 내 행동 인식에 대해 순환 신경망(RNN)의 효과성을 입증하고 있다. 그러나 기존 연구들은 주로 동영상 수준의 카테고리 정보를 활용하여 RNN을 학습시키는 방식을 채택하였으며, 이는 시간에 따른 복잡한 운동 구조를 학습하는 데 한계를 초래할 수 있다. 본 논문에서는 이러한 문제를 해결하기 위해, RNN의 각 타임스텝에서 행동 예측 시에 포즈 관련 특징을 적응적으로 학습할 수 있는 새로운 포즈-주목 메커니즘을 도입한 순환 포즈-주목 네트워크(RPAN)를 제안한다. 구체적으로 본 논문에서 세 가지 주요 기여를 한다. 첫째, 기존의 포즈 관련 행동 인식 연구들과 달리, 본 RPAN은 엔드투엔드 순환 구조를 갖추고 있어 인간 포즈의 공간-시간적 진화를 통합된 프레임워크 내에서 행동 인식에 유용하게 활용할 수 있다. 둘째, 개별 인체 관절 특징을 별도로 학습하는 대신, 의미적으로 관련된 인체 관절 간에 주목 매개변수를 부분적으로 공유함으로써 강건한 인체 부위 특징을 학습한다. 이러한 인체 부위 특징은 인체 부위 풀링 레이어에 입력되어 시간적 행동 모델링을 위한 고도로 구분 가능한 포즈 관련 표현을 구성한다. 셋째, 본 RPAN의 중요한 부가적 산물로 동영상 내 포즈 추정이 가능하며, 이는 행동 동영상의 원시적인 포즈 레이블링에 활용될 수 있다. 제안된 RPAN은 Sub-JHMDB 및 PennAction와 같은 두 가지 대표적인 벤치마크에서 정량적 및 정성적으로 평가되었으며, 실험 결과 RPAN이 이러한 도전적인 데이터셋에서 최근 최상의 기법들을 능가함을 보였다.