17日前
DSANet:動的セグメント集約ネットワークによるビデオレベル表現学習
Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi

要約
長距離および短距離の時系列モデリングは、動画認識において補完的かつ重要な側面である。現在の最先端技術の多くは、短距離の空間時系列モデリングに注力し、複数のスニペットレベルの予測を平均することで最終的な動画レベルの予測を生成している。その結果、動画が時間軸に沿ってどのように進化するかという空間時系列特徴を考慮した動画レベルの予測が得られないという課題がある。本論文では、スニペット間の関係を捉えるための新しいダイナミックセグメントアグリゲーション(Dynamic Segment Aggregation: DSA)モジュールを提案する。具体的には、隣接するスニペット間の長距離時系列情報を適応的に集約するため、畳み込み演算に用いる動的カーネルを生成することを試みている。DSAモジュールは効率的かつプラグアンドプレイ型であり、既存のクリップベースのモデル(例:TSM、I3D)と組み合わせて、最小限のオーバーヘッドで強力な長距離モデリングを実現できる。最終的な動画アーキテクチャは「DSANet」として命名された。我々は、Mini-Kinetics-200、Kinetics-400、Something-Something V1、ActivityNetといった複数の動画認識ベンチマークにおいて広範な実験を行い、その優位性を示した。提案するDSAモジュールは、さまざまな動画認識モデルに顕著な性能向上をもたらすことが確認された。例えば、I3D ResNet-50にDSAモジュールを導入した場合、Kinetics-400データセットにおけるトップ-1精度が74.9%から78.2%まで向上した。コードは https://github.com/whwu95/DSANet で公開されている。