GateHUB: Gated History Unit with Background Suppression for Online Action Detection 게이트HUB: 배경 억제 기능을 갖춘 게이티드 히스토리 유닛 온라인 동작 검출을 위한 연구

온라인 동작 검출은 스트리밍 비디오에서 동작이 발생하는 즉시 이를 예측하는 작업입니다. 주요 과제는 모델이 미래에 접근할 수 없으며, 현재까지 관찰된 프레임(즉, 역사)에만 의존하여 예측을 해야 한다는 점입니다. 따라서 현재 프레임 예측에 더 유용한 정보를 제공하는 역사의 일부를 강조하는 것이 중요합니다. 우리는 GateHUB(게이티드 히스토리 유닛 with 배경 억제)를 제안합니다. 이는 역사의 일부를 현재 프레임 예측에 얼마나 유용한지에 따라 강화하거나 억제하기 위한 새로운 위치 안내 게이티드 크로스-어텐션 메커니즘을 포함하고 있습니다. GateHUB는 또한 후속으로 관찰된 프레임이 사용 가능한 경우 역사적 특성을 더욱 유용하게 만드는 Future-augmented History(FaH, 미래 증강 역사)를 제안합니다. 단일 통합 프레임워크에서 GateHUB는 트랜스포머의 장기 시계열 모델링 능력과 순환 모델의 관련 정보를 선택적으로 인코딩하는 능력을 통합합니다. GateHUB는 또한 동작 프레임과 매우 유사하지만 실제 동작이 아닌 배경 프레임의 오류 양성률을 더욱 줄이기 위한 배경 억제 목표를 도입합니다. THUMOS, TVSeries, HDD 등 세 가지 벤치마크 데이터셋에서 광범위한 검증을 통해 GateHUB가 모든 기존 방법보다 현저히 우수하며, 기존 최고 연구보다도 효율적이라는 것을 입증하였습니다. 또한, Flow-free 버전의 GateHUB는 RGB와 광학 흐름 정보 모두가 필요한 모든 기존 방법보다 2.8배 높은 프레임 속도에서 더 높거나 비슷한 정확도를 달성할 수 있었습니다.