11日前

PDAN:行動検出のためのピラミッド拡張アテンションネットワーク

{Francois Bremond, Gianpiero Francesca, Lorenzo Garattoni, Luca Minciullo, Srijan Das, Rui Dai}
PDAN:行動検出のためのピラミッド拡張アテンションネットワーク
要約

長時間にわたり複雑な時系列情報を扱うことは、行動検出タスクにおける重要な課題である。この課題は、未トリム動画において行動が密に分布している状況下でさらに顕著になる。従来の行動検出手法は、長時間の動画における重要な時系列情報を適切に選択することができない。この問題に対処するため、本研究では「拡張注意層(Dilated Attention Layer: DAL)」を提案する。従来の時系列畳み込み層と比較して、DALはカーネル内の局所フレームに注目重みを割り当てることで、時間的にわたるより優れた局所表現を学習可能となる。さらに、DALを基盤にした「ピラミッド拡張注意ネットワーク(Pyramid Dilated Attention Network: PDAN)」を導入する。異なる拡張率を持つ複数のDALを活用することで、低・高の時間的受容野レベルにおける局所セグメントに注目しつつ、短期的および長期的な時系列関係を同時にモデル化することが可能となる。この特性により、PDANは長時間の未トリム動画における異なる行動インスタンス間の複雑な時系列関係を効果的に処理できる。本手法の有効性および堅牢性を検証するため、マルチラベルで密にアノテーションされた3つのデータセット(MultiTHUMOS、Charades、Toyota Smarthome Untrimmed(TSU))上で評価を行った。その結果、PDANはこれらのすべてのデータセットにおいて、従来の最先端手法を上回る性能を達成した。