행동 인식
액션 인식은 컴퓨터 비전 분야의 한 과제로, 비디오나 이미지를 통해 인간의 행동을 식별하고 분류하는 것을 목표로 합니다. 이 과제의 목적은 비디오나 이미지에서 수행되는 행동을 사전 정의된 행동 범주로 분류하여 정확한 행동 검출과 이해를 달성하는 것입니다. 이 과제는 비디오 감시, 인간-컴퓨터 상호작용, 스포츠 분석 등 다양한 응용 프로그램에 중요한 가치를 가지고 있습니다. 그러나 대규모 비디오 데이터셋 구축의 어려움으로 인해 대부분의 기존 액션 인식 벤치마크가 비교적 작아, 보통 약 1만 개의 비디오만 포함하고 있습니다.
Something-Something V2
MSNet-R50En (8+16 ensemble, ImageNet pretrained)
UCF101
ResNet50
HMDB-51
VideoMAE V2-g
Something-Something V1
InternVideo
AVA v2.2
VideoMAE (K700 pretrain+finetune, ViT-L, 16x4)
EPIC-KITCHENS-100
Avion (ViT-L)
NTU RGB+D
PoseC3D (RGB + Pose)
NTU RGB+D 120
PoseC3D (RGB + Pose)
Diving-48
ActivityNet
Text4Vis (w/ ViT-L)
AVA v2.1
H2O (2 Hands and Objects)
HandFormer-B/21x8
THUMOS’14
BMN
Sports-1M
ip-CSN-152 (RGB)
HACS
UniFormerV2-L
Charades-Ego
LaViLa (Finetuned, TimeSformer-L)
Volleyball
PoseC3D (Pose Only)
BAR
HAA500
UAV-Human
PMI Sampler
Animal Kingdom
Jester (Gesture Recognition)
DirecFormer
RareAct
Real Life Violence Situations Dataset
DeVTr
ICVL-4
IRD
miniSports
UCF-101
R3D-18
Drone-Action
Mimetics
JMRN
Okutama-Action
Penn Action
SL-Animals
SEW-Resnet18 (3sets)
ActionNet-VE
Charades
EgoGesture
EPIC-KITCHENS-55
HMDB51
MSQNet
UTD-MHAD
VIRAT Ground 2.0
DVS128 Gesture
Hockey
IndustReal
KTH
CNN-GRU
MECCANO
SlowFast
MTL-AQA
C3D-AVG
N-UCLA
DVANet
NEC Drone
RoCoG-v2
Skeleton-Mimetics
THUMOS14
UAV Human
FAR
UCF 101
R2+1D-BERT
UCFSports
Win-Fail Action Understanding
2DCNN+TRN