Action Recognition In Videos
التعرف على الأفعال هو مهمة في مجال رؤية الحاسوب تهدف إلى تحديد تصنيف سلوكيات البشر من خلال مقاطع الفيديو أو الصور. هدفها هو تصنيف الأفعال التي يتم تنفيذها في مقاطع الفيديو أو الصور إلى فئات أفعال محددة مسبقًا، مما يحقق كشفًا دقيقًا وفهمًا للأفعال. تحتل هذه المهمة أهمية كبيرة في التطبيقات مثل مراقبة الفيديو، التفاعل بين الإنسان والحاسوب، وتحليل الرياضات. ومع ذلك، فإن تحدي بناء قواعد بيانات فيديو كبيرة قد أدى إلى أن تكون معظم المعايير الموجودة للتعرف على الأفعال نسبيًا صغيرة، عادة ما تحتوي على حوالي 10 ألف فيديو فقط.
ActionNet-VE
ActivityNet
Text4Vis (w/ ViT-L)
Animal Kingdom
AVA v2.1
AVA v2.2
LART (Hiera-H, K700 PT+FT)
BAR
Charades
Charades-Ego
LaViLa (Finetuned, TimeSformer-L)
Diving-48
Drone-Action
DVS128 Gesture
EgoGesture
EPIC-KITCHENS-55
EPIC-KITCHENS-100
Avion (ViT-L)
H2O (2 Hands and Objects)
HandFormer-B/21x8
HAA500
HACS
UniFormerV2-L
HMDB-51
VideoMAE V2-g
HMDB51
MSQNet
Hockey
ICVL-4
IndustReal
IRD
Jester (Gesture Recognition)
DirecFormer
KTH
CNN-GRU
MECCANO
SlowFast
Mimetics
JMRN
miniSports
MTL-AQA
C3D-AVG
N-UCLA
DVANet
NEC Drone
NTU RGB+D
PoseC3D (RGB + Pose)
NTU RGB+D 120
PoseC3D (RGB + Pose)
Okutama-Action
Penn Action
RareAct
Real Life Violence Situations Dataset
DeVTr
RoCoG-v2
Skeleton-Mimetics
SL-Animals
SEW-Resnet18 (3sets)
Something-Something V1
InternVideo
Something-Something V2
MVD (Kinetics400 pretrain, ViT-H, 16 frame)
Sports-1M
ip-CSN-152 (RGB)
THUMOS’14
BMN
THUMOS14
UAV-Human
PMI Sampler
UAV Human
FAR
UCF-101
R3D-18
UCF 101
R2+1D-BERT
UCF101
VideoMAE V2-g
UCFSports
UTD-MHAD
VIRAT Ground 2.0
Volleyball
PoseC3D (Pose Only)
Win-Fail Action Understanding
2DCNN+TRN