4ヶ月前

協調的なクロスストリームネットワークによる判別的動作表現

Jingran Zhang; Fumin Shen; Xing Xu; Heng Tao Shen
協調的なクロスストリームネットワークによる判別的動作表現
要約

空間と時間のストリームモデルは、ビデオアクション認識において大きな成功を収めています。既存の多くの研究では、効果的な特徴量融合手法の設計に重点が置かれており、通常は二つのストリームモデルを別々に訓練しています。しかし、異なるストリーム間での識別性の確保や補完情報の探索は困難です。本研究では、複数の異なるモダリティにおける共通情報を調査する新しい協調クロスストリームネットワークを提案します。このネットワークは、エンドツーエンド学習によって空間と時間のストリームネットワークからの特徴量抽出を達成します。接続ブロックから異なるモダリティの補完情報を抽出し、異なるストリーム特徴量間の相関関係を探ります。さらに、従来のConvNet(深層分離可能な特徴量を単一のクロスエントロピー損失で学習する)とは異なり、提案されたモデルはモダリティランキング制約とクロスエントロピー損失を同時に最適化することで、深層学習された特徴量の識別力を向上させるとともに、望ましくないモダリティ間の一貫性を低減します。モダリティランキング制約は、同一モダリティ内の識別埋め込みと異なるモダリティ間の三つ組制約から構成され、同一モダリティ内および異なるモダリティ間での特徴量変動を両方とも低減します。3つのベンチマークデータセットでの実験結果から、外観と運動の特徴量抽出を協調させることにより、本方法は既存の結果と比較して最先端または競合する性能を達成できることが示されました。