Action Recognition
La localisation temporelle d'actions est une sous-tâche dans le domaine de la vision par ordinateur qui vise à détecter les activités au sein des flux vidéo et à fournir leurs horodatages de début et de fin. Cette tâche fournit un soutien crucial pour des applications telles que l'analyse vidéo, la surveillance et la recherche de contenu en localisant précisément les moments où les actions se produisent dans une vidéo. Elle est étroitement liée à la génération de propositions temporelles d'actions, ce qui peut efficacement améliorer la précision et l'efficacité de la compréhension vidéo.
ActivityNet-1.2
DeepMetricLearner
ActivityNet-1.3
AVFusion
CrossTask
VideoCLIP
Ego4D MQ test
ActionFormer (SlowFast+Omnivore+EgoVLP)
Ego4D MQ val
EPIC-KITCHENS-100
AdaTAD (verb, VideoMAE-L)
FineAction
VideoMAE V2-g
HACS
RDFA-S6 (InternVideo2-6B)
MEXaction2
S-CNN
MultiTHUMOS
TriDet (VideoMAEv2)
MUSES
TemporalMaxer
THUMOS'14
AVFusion
THUMOS’14
ActionFormer (VideoMAE V2-g features)
THUMOS14
BasicTAD (R50-SlowOnly)