HyperAIHyperAI

Command Palette

Search for a command to run...

PDAN:行動検出のためのピラミッド拡張アテンションネットワーク

Francois Bremond Gianpiero Francesca Lorenzo Garattoni Luca Minciullo Srijan Das Rui Dai

概要

長時間にわたり複雑な時系列情報を扱うことは、行動検出タスクにおける重要な課題である。この課題は、未トリム動画において行動が密に分布している状況下でさらに顕著になる。従来の行動検出手法は、長時間の動画における重要な時系列情報を適切に選択することができない。この問題に対処するため、本研究では「拡張注意層(Dilated Attention Layer: DAL)」を提案する。従来の時系列畳み込み層と比較して、DALはカーネル内の局所フレームに注目重みを割り当てることで、時間的にわたるより優れた局所表現を学習可能となる。さらに、DALを基盤にした「ピラミッド拡張注意ネットワーク(Pyramid Dilated Attention Network: PDAN)」を導入する。異なる拡張率を持つ複数のDALを活用することで、低・高の時間的受容野レベルにおける局所セグメントに注目しつつ、短期的および長期的な時系列関係を同時にモデル化することが可能となる。この特性により、PDANは長時間の未トリム動画における異なる行動インスタンス間の複雑な時系列関係を効果的に処理できる。本手法の有効性および堅牢性を検証するため、マルチラベルで密にアノテーションされた3つのデータセット(MultiTHUMOS、Charades、Toyota Smarthome Untrimmed(TSU))上で評価を行った。その結果、PDANはこれらのすべてのデータセットにおいて、従来の最先端手法を上回る性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています