التعرف على الأفعال في الفيديوهات
التعرف على الأفعال في الفيديوهات هو مهمة في مجال الرؤية الحاسوبية وتمييز الأنماط، تهدف إلى تحديد تصنيف الأنشطة البشرية في سلاسل الفيديو. تحقق هذه المهمة فهمًا ذكيًا وتحليلًا لمحتوى الفيديو من خلال دراسة الخصائص الديناميكية الزمانية والمكانية للأفعال وربطها بمجموعة محددة مسبقًا من فئات الأفعال، مثل الجري، القفز، أو السباحة. لها قيمة تطبيقية كبيرة في مجالات مثل المراقبة، تحليل الرياضات، والتفاعل بين الإنسان والحاسوب.
Jester (Gesture Recognition)
CPNet Res34, 5 CP
UCF101
PKU-MMD
MMNet
Something-Something V2
Kinetics-400
Florence
Something-Something V1
AVA v2.2
YOWO+LFB*
FS-Something-Something V2-Small
ITANet
FS-Something-Something V2-Full
Sports-1M
THUMOS’14
Single-stream R-C3D (two-way buffer)
ActivityNet
LSTM + Pretrained on YT-8M
AVA v2.1
HMDB-51
Kinetics-600
Florence
miniSports
G-Blend
NTU RGB+D
2D-3D-Softargmax (RGB only)