Action Classification
コンピュータビジョンは、機械が画像や動画を解釈し理解する技術です。その目的は、人間の視覚システムを模倣することで複雑なシーンの自動認識と分析を達成することです。この技術は医療画像診断、自動運転、セキュリティ監視などの分野で広く応用され、効率性と精度を大幅に向上させ、知能社会の発展に貢献しています。
ActivityNet
UniFormerV2-L
ActivityNet-1.2
W-TALC
AViD
TokenLearner
BABEL
2s-AGCN
CelebV-HQ
Charades
TokenLearner
Diving-48
DualPath w/ ViT-B/16
HMDB51
Jester test
Kinetics-400
InternVideo
Kinetics-600
MViT-L (train from scratch)
Kinetics-700
Kinetics-700-2020
ALIP-ViT B/32 LAION30M
Kinetics-Sounds
MiniKinetics
MARS+RGB+Flow (16 frames)
MIT
InternVideo2-6B
Moments in Time
Something-Something V2
AdaMAE
THUMOS'14
3C-Net
THUMOS’14
3C-Net
Toyota Smarthome dataset
π-ViT
TTStroke-21 ME22
RGB and PRGB
TTStroke-21 ME21
UCF101
Ours
WiGesture
YouCook2
VideoBERT (cross modal)
MoViNet-A6