
要約
複数人物シーンにおけるグループ活動の認識には、アクター間の関係をモデル化することが重要です。本論文では、深層学習モデルを使用して効率的に判別的なアクター間の関係を学習することを目指しています。この目的のために、外見と位置の両方の関係を同時に捉える柔軟で効率的なアクターリレーショングラフ(ARG)の構築を提案します。グラフ畳み込みネットワークのおかげで、ARGの接続はグループ活動ビデオからエンドツーエンドで自動的に学習でき、標準的な行列演算によってARG上の推論が効率的に行えます。さらに、実践的には、より効果的なビデオでのモデリングのためにARGを疎にする2つの変種を考え出しました:空間局所化されたARGと時間ランダム化されたARGです。私たちは、2つの標準的なグループ活動認識データセットであるバレーボールデータセットと集合活動データセットで広範な実験を行いました。これらのデータセットにおいて最先端の性能が達成されました。また、学習したアクターグラフと関係特徴量を可視化し、提案されたARGがグループ活動認識に必要な判別的な関係情報を捉えることができることを示しています。