アクション分類
アクション分類は、コンピュータビジョンの重要なサブタスクであり、ビデオ中のヒューマンアクションを認識し、分類することに焦点を当てています。このタスクは、ビデオシーケンス内の動的特徴を分析することで、異なる種類のアクションを事前に定義されたカテゴリに正確に分類することを目指しており、ヒューマンアクティビティの自動理解を実現します。その応用価値は広範で、知能監視、人間とコンピュータの相互作用、スポーツ分析など、さまざまな分野で活用され、システムの知能レベルとユーザーエクスペリエンスを大幅に向上させることができます。
Kinetics-400
MTV-H (WTS 60M)
Kinetics-600
MViT-B-24, 32x3
Charades
TokenLearner
Kinetics-700
MoViNet-A6
Toyota Smarthome dataset
π-ViT
AViD
TokenLearner
Moments in Time
ActivityNet-1.2
W-TALC
Kinetics-700-2020
ALIP-ViT B/32 LAION30M
THUMOS’14
3C-Net
WiGesture
Kinetics-Sounds
MIT
InternVideo2-6B
TTStroke-21 ME22
RGB and PRGB
ActivityNet
UniFormerV2-L
BABEL
2s-AGCN
CelebV-HQ
Diving-48
DualPath w/ ViT-B/16
HMDB51
Jester test
MiniKinetics
MARS+RGB+Flow (16 frames)
Something-Something V2
AdaMAE
THUMOS'14
3C-Net
TTStroke-21 ME21
UCF101
Ours
YouCook2
VideoBERT (cross modal)