Action Recognition
コンピュータビジョンは、機械が画像や動画を解釈し理解する技術です。この技術の目的は、人間の視覚システムを模倣することで複雑なシーンの自動認識と分析を達成することです。コンピュータビジョンは医療画像診断、自動運転、セキュリティ監視などの分野で広く応用され、効率性和正確性を大幅に向上させ、知能社会の発展に貢献しています。
ActivityNet-1.2
DeepMetricLearner
ActivityNet-1.3
AVFusion
CrossTask
VideoCLIP
Ego4D MQ test
ActionFormer (SlowFast+Omnivore+EgoVLP)
Ego4D MQ val
EPIC-KITCHENS-100
AdaTAD (verb, VideoMAE-L)
FineAction
VideoMAE V2-g
HACS
RDFA-S6 (InternVideo2-6B)
MEXaction2
S-CNN
MultiTHUMOS
TriDet (VideoMAEv2)
MUSES
TemporalMaxer
THUMOS'14
AVFusion
THUMOS’14
ActionFormer (VideoMAE V2-g features)
THUMOS14
BasicTAD (R50-SlowOnly)