
要約
本論文の目的は、行動の空間時間的範囲を検出することである。RGBとフローに基づく二ストリーム検出ネットワークは、最先端の精度を達成する一方で、大きなモデルサイズと重い計算量を必要とする。我々は、RGBと光学フローを単一の二つ一体型ストリームネットワークに埋め込む新たなレイヤーを提案する。モーション条件層はフローアイから運動情報を抽出し、この情報がモーション調節層によって利用されて低レベルのRGB特徴を調節するための変換パラメータを生成する。本手法は既存の外観ベースまたは二ストリーム行動検出ネットワークに容易に埋め込み可能であり、エンドツーエンドで学習できる。実験結果は、モーション条件を利用してRGB特徴を調節することで検出精度が向上することを示している。最先端の二ストリーム手法の半分以下の計算量とパラメータ数で、我々の二つ一体型ストリームはUCF101-24、UCFSportsおよびJ-HMDBにおいて優れた結果を達成している。注:「フローアイ」(flow images)や「モーション条件層」(motion condition layer)、「モーション調節層」(motion modulation layer)などの用語は専門的な表現であり、一般的な日本語ではあまり使用されないため、括弧内に原文を記載しました。