11日前
D2-Net:識別的埋め込みとノイズ除去された活性化を用いた弱教師付き行動定位
Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao

要約
本研究は、動画レベルのラベル(弱教師あり)を用いて行動の時系列的位置特定を行うためのフレームワーク「D2-Net」を提案する。本研究の主な貢献は、弱教師付き学習によって引き起こされる前景・背景ノイズに対して、潜在表現の識別性と出力時系列クラス活性化のロバスト性を同時に向上させる新たな損失関数の導入である。提案手法は、時系列行動位置特定の性能向上を目的として、識別性を高める損失項とノイズ除去を目的とする損失項の2つから構成される。識別性損失項は分類損失を組み込み、トップダウン型の注目メカニズムを用いて、潜在的な前景・背景表現間の分離性を強化する。一方、ノイズ除去損失項はボトムアップ型の注目メカニズムを用いて、動画内および動画間の相互情報量を同時に最大化することで、クラス活性化における前景・背景ノイズを明示的に抑制する。その結果、前景領域の活性化が強調され、背景領域の活性化が抑制されるため、よりロバストな予測が実現される。本手法はTHUMOS14やActivityNet1.2を含む複数のベンチマーク上で包括的な実験を実施した結果、既存手法と比較して優れた性能を示し、THUMOS14におけるIoU=0.5でのmAPにおいて最大2.3%の向上を達成した。ソースコードは以下のURLから公開されている:https://github.com/naraysa/D2-Net