
要約
自己注意(self-attention)に基づくTransformerモデルは、画像分類や物体検出において優れた成果を示しており、近年では動画理解にも応用されつつある。この成功に触発され、本研究ではTransformerネットワークを動画内の時間的アクション局所化(temporal action localization)に適用する可能性を検討する。その目的の下で、本稿ではActionFormerを提案する。ActionFormerは、アクション提案(action proposals)や事前に定義されたアンカー窓(anchor windows)に依存せずに、一回の推論で時間的にアクションを特定し、そのカテゴリを識別する、シンプルでありながら強力なモデルである。ActionFormerはマルチスケールの特徴表現と局所的自己注意(local self-attention)を組み合わせ、軽量なデコーダを用いて時間軸上の各瞬間を分類し、対応するアクションの境界を推定する。本研究では、このような統合的な設計が従来手法に比べて顕著な性能向上をもたらすことを示す。装飾的な技術を一切用いずに、THUMOS14においてtIoU=0.5の条件下で71.0%のmAPを達成し、最も優れた既存モデルを14.1ポイントの絶対的な差で上回った。さらに、ActivityNet 1.3(平均mAP 36.6%)およびEPIC-Kitchens 100(既存手法比で平均mAP +13.5%)においても優れた結果を示した。本研究のコードは、http://github.com/happyharrycn/actionformer_release にて公開されている。