Aktionserkennung
Actionserkennung ist eine Aufgabe im Bereich der Computer Vision, die darauf abzielt, menschliches Verhalten in Videos oder Bildern zu identifizieren und zu klassifizieren. Ihr Ziel ist es, die durchgeführten Aktionen in Videos oder Bildern in vordefinierte Aktionenkategorien einzuordnen, um eine genaue Aktionserkennung und -verstehens zu erreichen. Diese Aufgabe hat für Anwendungen wie Videoüberwachung, Mensch-Computer-Interaktion und Sportanalyse große Bedeutung. Allerdings führt die Herausforderung, große Video-Datensätze aufzubauen, dazu, dass die meisten existierenden Actionserkennungs-Benchmarks relativ klein sind, typischerweise nur etwa 10.000 Videos enthalten.
Something-Something V2
MSNet-R50En (8+16 ensemble, ImageNet pretrained)
UCF101
ResNet50
HMDB-51
VideoMAE V2-g
Something-Something V1
InternVideo
AVA v2.2
VideoMAE (K700 pretrain+finetune, ViT-L, 16x4)
EPIC-KITCHENS-100
Avion (ViT-L)
NTU RGB+D
PoseC3D (RGB + Pose)
NTU RGB+D 120
PoseC3D (RGB + Pose)
Diving-48
ActivityNet
Text4Vis (w/ ViT-L)
AVA v2.1
H2O (2 Hands and Objects)
HandFormer-B/21x8
THUMOS’14
BMN
Sports-1M
ip-CSN-152 (RGB)
HACS
UniFormerV2-L
Charades-Ego
LaViLa (Finetuned, TimeSformer-L)
BAR
HAA500
Volleyball
PoseC3D (Pose Only)
UAV-Human
PMI Sampler
Animal Kingdom
Real Life Violence Situations Dataset
DeVTr
RareAct
Jester (Gesture Recognition)
DirecFormer
UCF-101
R3D-18
IRD
Penn Action
Mimetics
JMRN
ICVL-4
SL-Animals
SEW-Resnet18 (3sets)
miniSports
Okutama-Action
Drone-Action
THUMOS14
UTD-MHAD
RoCoG-v2
Charades
MTL-AQA
C3D-AVG
NEC Drone
N-UCLA
DVANet
EgoGesture
EPIC-KITCHENS-55
HMDB51
MSQNet
DVS128 Gesture
UAV Human
FAR
ActionNet-VE
UCF 101
R2+1D-BERT
Skeleton-Mimetics
VIRAT Ground 2.0
Hockey
UCFSports
KTH
CNN-GRU
Win-Fail Action Understanding
2DCNN+TRN
MECCANO
SlowFast
IndustReal