17日前

AssembleNet++:Attention接続を用いたモダリティ表現の統合

Michael S. Ryoo, AJ Piergiovanni, Juhana Kangaspunta, Anelia Angelova
AssembleNet++:Attention接続を用いたモダリティ表現の統合
要約

我々は、以下の2つの機能を備えた強力な動画モデルのファミリーを構築した:(i) 語義的オブジェクト情報と生の外観・運動特徴間の相互作用を学習できること、(ii) ネットワーク内の各畳み込みブロックにおける特徴の重要度をより適切に学習するために、アテンションを導入できること。新たなネットワーク構成要素として、別のブロックまたは入力モダリティを用いて動的にアテンション重みを学習する「ピアアテンション(peer-attention)」を提案した。事前学習を用いなくても、標準的な公開アクティビティ認識データセット(連続動画)において、従来の手法を上回り、新たなSOTA(State-of-the-art)を達成した。また、オブジェクトモダリティからのニューラル接続の導入およびピアアテンションの使用が、既存のさまざまなアーキテクチャに対して一般に有効であり、性能向上をもたらすことを確認した。本モデルは明示的に「AssembleNet++」と命名した。コードは以下のURLで公開される予定である:https://sites.google.com/corp/view/assemblenet/