
要約
ビデオ内の人的行動の認識には空間的および時間的理解が必要です。既存の行動認識モデルの多くは、ビデオのバランスの取れた空間的・時間的理解に欠けています。本研究では、RGB入力のみを使用してビデオのバランスの取れた空間的・時間的理解を達成する新しい二ストリームアーキテクチャである「空間と時間におけるクロスアテンション(CAST)」を提案します。提案したボトルネッククロスアテンション機構により、空間的専門モデルと時間的専門モデルが情報を交換し、相乗的な予測を行うことが可能となり、性能向上につながります。私たちは異なる特性を持つ公開ベンチマークデータセット(EPIC-KITCHENS-100、Something-Something-V2、Kinetics-400)で広範な実験を行い、提案手法の有効性を検証しました。これらのデータセットにおいて、私たちの手法は一貫して良好な性能を示していますが、既存手法の性能はデータセット特性によって変動することが確認されました。