Action Recognition In Videos
액션 인식은 컴퓨터 비전 분야의 한 과제로, 비디오나 이미지를 통해 인간의 행동을 식별하고 분류하는 것을 목표로 합니다. 이 과제의 목적은 비디오나 이미지에서 수행되는 행동을 사전 정의된 행동 범주로 분류하여 정확한 행동 검출과 이해를 달성하는 것입니다. 이 과제는 비디오 감시, 인간-컴퓨터 상호작용, 스포츠 분석 등 다양한 응용 프로그램에 중요한 가치를 가지고 있습니다. 그러나 대규모 비디오 데이터셋 구축의 어려움으로 인해 대부분의 기존 액션 인식 벤치마크가 비교적 작아, 보통 약 1만 개의 비디오만 포함하고 있습니다.
ActionNet-VE
ActivityNet
Text4Vis (w/ ViT-L)
Animal Kingdom
AVA v2.1
AVA v2.2
LART (Hiera-H, K700 PT+FT)
BAR
Charades
Charades-Ego
LaViLa (Finetuned, TimeSformer-L)
Diving-48
Drone-Action
DVS128 Gesture
EgoGesture
EPIC-KITCHENS-55
EPIC-KITCHENS-100
Avion (ViT-L)
H2O (2 Hands and Objects)
HandFormer-B/21x8
HAA500
HACS
UniFormerV2-L
HMDB-51
VideoMAE V2-g
HMDB51
MSQNet
Hockey
ICVL-4
IndustReal
IRD
Jester (Gesture Recognition)
DirecFormer
KTH
CNN-GRU
MECCANO
SlowFast
Mimetics
JMRN
miniSports
MTL-AQA
C3D-AVG
N-UCLA
DVANet
NEC Drone
NTU RGB+D
PoseC3D (RGB + Pose)
NTU RGB+D 120
PoseC3D (RGB + Pose)
Okutama-Action
Penn Action
RareAct
Real Life Violence Situations Dataset
DeVTr
RoCoG-v2
Skeleton-Mimetics
SL-Animals
SEW-Resnet18 (3sets)
Something-Something V1
InternVideo
Something-Something V2
MVD (Kinetics400 pretrain, ViT-H, 16 frame)
Sports-1M
ip-CSN-152 (RGB)
THUMOS’14
BMN
THUMOS14
UAV-Human
PMI Sampler
UAV Human
FAR
UCF-101
R3D-18
UCF 101
R2+1D-BERT
UCF101
VideoMAE V2-g
UCFSports
UTD-MHAD
VIRAT Ground 2.0
Volleyball
PoseC3D (Pose Only)
Win-Fail Action Understanding
2DCNN+TRN