
시간적 행동 제안 생성은 객체 제안과 유사한 중요한 작업으로, 시간적 행동 제안은 비디오에서 행동이 포함될 가능성이 높은 "클립" 또는 시간 구간을 포착하는 것을 목표로 합니다. 이전 방법들은 슬라이딩 윈도우 순위 매기기와 행동성 점수 그룹화 두 가지로 나눌 수 있습니다. 슬라이딩 윈도우는 비디오의 모든 구간을 균일하게 덮지만, 시간 경계가 부정확합니다. 그룹화 기반 방법은 더 정확한 경계를 가질 수 있지만, 행동성 점수가 낮을 때 일부 제안을 누락시킬 수 있습니다. 이러한 두 방법의 보완적인 특성을 바탕으로, 우리는 새로운 보완적 시간적 행동 제안(Complementary Temporal Action Proposal, CTAP) 생성기를 제안합니다. 구체적으로, 슬라이딩 윈도우 제안에 대해 제안 단위 행동성 신뢰도 추정기(Proposal-level Actionness Trustworthiness Estimator, PATE)를 적용하여 행동이 행동성 점수에 의해 올바르게 감지될 가능성을 나타내는 확률을 생성하며, 높은 점수를 받은 윈도우들을 수집합니다. 수집된 슬라이딩 윈도우와 행동성 제안은 시간 합성 신경망을 통해 제안 순위 매기기와 경계 조정을 거칩니다. CTAP는 THUMOS-14 및 ActivityNet 1.3 데이터셋에서 평균 재현율(Average Recall, AR) 측면에서 기존 최신 방법들보다 크게 우수한 성능을 보입니다. 또한 우리는 기존의 행동 검출기에 CTAP를 적용하여 일관되고 상당한 개선 효과를 입증하였습니다.