시간적 동작 제안(Temporal Action Proposal, TAP)은 정제되지 않은 영상에서 동작 인스턴스의 정확한 후보를 생성하는 것을 목표로 한다. 이 작업에서 맥락 정보가 매우 중요하다는 것이 입증되어 왔다. 본 논문에서는 스크립트 수준과 제안 수준의 맥락을 더욱 깊이 탐색할 수 있도록 새로운 계층적 맥락 네트워크(Hierarchical Context Network, HCN)를 제안한다. 이는 각각 스크립트와 제안의 표현력을 향상시키는 데 사용된다. 먼저, 다양한 동작 인스턴스에 대해 스크립트 수준의 다양한 규모의 맥락이 동일하게 중요한 것은 아님을 지적하고, 이를 해결하기 위해 U-넷 구조에 새로운 게이팅 메커니즘을 도입하여 콘텐츠 적응형 스크립트 수준 맥락을 추출한다. 둘째, 제안 수준 맥락을 효과적으로 활용하기 위해 높은 효율성을 지닌 작업 특화 자기 주의(Self-attention) 모델을 제안한다. 여러 개의 주의 모델을 반복적으로 쌓음으로써, 광범위한 범위에서 제안 수준 맥락을 심층적으로 탐색할 수 있다. 마지막으로, 두 수준의 맥락을 동시에 활용하기 위해 HCN에 세 가지 분기(branch)를 도입하여 로컬에서 글로벌에 이르는 다양한 관점에서 제안을 평가한다. ActivityNet-1.3 및 THUMOS14 데이터셋에서 수행한 실험 결과, HCN은 기존의 TAP 방법들에 비해 상당히 우수한 성능을 보였다. 또한 추가 실험을 통해 기존의 동작 분류기와 결합할 경우, 최신 동작 탐지 성능을 크게 향상시킬 수 있음을 확인하였다.