
要約
近年の動画行動認識分野における多数の研究では、空間的特徴と時間的特徴を統合する二重ストリームモデル(two-stream model)が、最先端の性能を達成するために不可欠であることが示されている。本論文では、各フレームから推定された人体ポーズに基づく新たなストリームを導入することの利点を示す。具体的には、RGB入力フレーム上にポーズをレンダリングすることで、このポーズストリームを構成している。一見すると、人体ポーズはRGBピクセル値によって完全に決定されるため、この追加ストリームは冗長に思えるかもしれない。しかし、我々は(やや驚きではあるが)この単純かつ柔軟な追加が、補完的な性能向上をもたらすことを示している。この知見を基に、我々は新しいモデル、PERF-Net(Pose Empowered RGB-Flow Netの略)を提案する。このモデルは、従来のRGBストリームおよび光-flowストリームに加え、新たに導入したポーズストリームを蒸留(distillation)技術を用いて統合している。その結果、複数の人物行動認識データセットにおいて、最先端のモデルを大きく上回る性能を達成した。さらに、推論時における光-flowやポーズの明示的な計算を必要としない点も特徴である。提案するポーズストリームは、2020年のActivityNet Kinetics Challengeの優勝解法にも採用されている。