Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos 長い動画における行動評価のためのハイブリッド動的-静的情報認識注意ネットワーク

行動品質評価の目的はスポーツ動画にスコアをつけることです。しかし、既存の多くの研究では動画の動的な情報(すなわち、動きの情報)にのみ焦点を当て、選手が動画で行っている具体的な姿勢を無視しています。これは長時間の動画における行動評価において重要な要素です。本研究では、長時間の動画での行動評価のために新しいハイブリッド動的-静的情報認識注意ネットワーク(ACTION-NET: Hybrid dynAmic-static Context-aware attenTION NETwork)を提案します。より差別的な動画表現を学習するために、我々は動画の動的信息だけでなく、特定のフレームで検出された選手の静的な姿勢にも注目します。これらの姿勢は特定の瞬間における行動品質を表し、提案するハイブリッド動的-静的アーキテクチャによって補完されます。さらに、時系列インスタンスごとのグラフ畳み込みネットワークユニットと注意ユニットから構成されるコンテキスト認識型注意モジュールを使用して、両ストリームからより堅牢な特徴量を抽出します。前者はインスタンス間の関係を探求し、後者は各インスタンスに適切な重み付けを行うためです。最後に、両ストリームの特徴量を結合し、専門家が提供した真値スコアによる監督のもと最終的な動画画像スコアを回帰します。また、長時間の動画における行動品質評価の評価のために新しいリズム体操データセットを収集および注釈しました。このデータセットには4種類の異なる体操演技が含まれています。広範な実験結果により、提案手法の有効性が確認され、関連する手法よりも優れた性能であることが示されました。コードとデータセットは \url{https://github.com/lingan1996/ACTION-NET} で公開されています。