Action Recognition
Temporal Action Localization 是计算机视觉领域的一个子任务,旨在检测视频流中的活动,并输出其开始和结束时间戳。该任务通过精确定位视频中动作的发生时间,为视频分析、监控和内容检索等应用提供了关键支持。与 Temporal Action Proposal Generation 密切相关,能够有效提升视频理解的准确性和效率。
ActivityNet-1.2
DeepMetricLearner
ActivityNet-1.3
AVFusion
CrossTask
VideoCLIP
Ego4D MQ test
ActionFormer (SlowFast+Omnivore+EgoVLP)
Ego4D MQ val
EPIC-KITCHENS-100
AdaTAD (verb, VideoMAE-L)
FineAction
VideoMAE V2-g
HACS
RDFA-S6 (InternVideo2-6B)
MEXaction2
S-CNN
MultiTHUMOS
TriDet (VideoMAEv2)
MUSES
TemporalMaxer
THUMOS'14
AVFusion
THUMOS’14
ActionFormer (VideoMAE V2-g features)
THUMOS14
BasicTAD (R50-SlowOnly)