Action Recognition
Temporal Action Localization은 컴퓨터 비전 분야의 하위 작업으로, 비디오 스트림 내에서 활동을 감지하고 그 시작과 종료 시간을 출력하는 것을 목표로 합니다. 이 작업은 비디오 분석, 감시, 콘텐츠 검색 등 다양한 응용 프로그램에서 동작이 언제 발생하는지를 정확히 파악하여 중요한 지원을 제공합니다. Temporal Action Proposal Generation과 밀접한 관련이 있으며, 이를 통해 비디오 이해의 정확성과 효율성을 효과적으로 향상시킬 수 있습니다.
ActivityNet-1.2
DeepMetricLearner
ActivityNet-1.3
AVFusion
CrossTask
VideoCLIP
Ego4D MQ test
ActionFormer (SlowFast+Omnivore+EgoVLP)
Ego4D MQ val
EPIC-KITCHENS-100
AdaTAD (verb, VideoMAE-L)
FineAction
VideoMAE V2-g
HACS
RDFA-S6 (InternVideo2-6B)
MEXaction2
S-CNN
MultiTHUMOS
TriDet (VideoMAEv2)
MUSES
TemporalMaxer
THUMOS'14
AVFusion
THUMOS’14
ActionFormer (VideoMAE V2-g features)
THUMOS14
BasicTAD (R50-SlowOnly)