التعرف على الأفعال
التعرف على الأفعال هو مهمة في مجال رؤية الحاسوب تهدف إلى تحديد تصنيف سلوكيات البشر من خلال مقاطع الفيديو أو الصور. هدفها هو تصنيف الأفعال التي يتم تنفيذها في مقاطع الفيديو أو الصور إلى فئات أفعال محددة مسبقًا، مما يحقق كشفًا دقيقًا وفهمًا للأفعال. تحتل هذه المهمة أهمية كبيرة في التطبيقات مثل مراقبة الفيديو، التفاعل بين الإنسان والحاسوب، وتحليل الرياضات. ومع ذلك، فإن تحدي بناء قواعد بيانات فيديو كبيرة قد أدى إلى أن تكون معظم المعايير الموجودة للتعرف على الأفعال نسبيًا صغيرة، عادة ما تحتوي على حوالي 10 ألف فيديو فقط.
Something-Something V2
MSNet-R50En (8+16 ensemble, ImageNet pretrained)
UCF101
ResNet50
HMDB-51
VideoMAE V2-g
Something-Something V1
InternVideo
AVA v2.2
VideoMAE (K700 pretrain+finetune, ViT-L, 16x4)
EPIC-KITCHENS-100
Avion (ViT-L)
NTU RGB+D
PoseC3D (RGB + Pose)
NTU RGB+D 120
PoseC3D (RGB + Pose)
Diving-48
ActivityNet
Text4Vis (w/ ViT-L)
AVA v2.1
H2O (2 Hands and Objects)
HandFormer-B/21x8
THUMOS’14
BMN
Sports-1M
ip-CSN-152 (RGB)
HACS
UniFormerV2-L
Charades-Ego
LaViLa (Finetuned, TimeSformer-L)
Volleyball
PoseC3D (Pose Only)
BAR
HAA500
UAV-Human
PMI Sampler
Animal Kingdom
Jester (Gesture Recognition)
DirecFormer
RareAct
Real Life Violence Situations Dataset
DeVTr
ICVL-4
IRD
miniSports
UCF-101
R3D-18
Drone-Action
Mimetics
JMRN
Okutama-Action
Penn Action
SL-Animals
SEW-Resnet18 (3sets)
ActionNet-VE
Charades
EgoGesture
EPIC-KITCHENS-55
HMDB51
MSQNet
UTD-MHAD
VIRAT Ground 2.0
DVS128 Gesture
Hockey
IndustReal
KTH
CNN-GRU
MECCANO
SlowFast
MTL-AQA
C3D-AVG
N-UCLA
DVANet
NEC Drone
RoCoG-v2
Skeleton-Mimetics
THUMOS14
UAV Human
FAR
UCF 101
R2+1D-BERT
UCFSports
Win-Fail Action Understanding
2DCNN+TRN