BSN++: 補完境界回帰とスケールバランス関係モデリングを用いた時系列アクション提案生成

未編集された動画から人間の行動提案を生成することは、幅広い応用を持つ重要な課題であるが、その難易度は高い。現在の手法では、提案の検索に使用される信頼度スコアの品質が低く、境界位置がノイズに影響を受けやすいという問題がある。本論文では、時間的な提案生成のために補完的な境界回帰器と関係モデリングを活用する新しいフレームワークBSN++を提案する。まず、開始および終了境界分類器の補完的な特性に基づいて新たな境界回帰器を提案する。具体的には、豊富なコンテキストを捉えるためにネストされたスキップ接続を持つU字型アーキテクチャを利用し、境界精度向上のために双方向境界マッチングメカニズムを導入する。次に、従来の手法で無視されていた提案間の関係性に対処するために、位置とチャンネルの観点から2つの自己注意モジュールを含む提案関係ブロックを開発する。さらに、肯定的/否定的提案や時間的持続期間におけるデータの不均衡問題が避けられず、これがモデル性能に悪影響を与えることを確認した。この問題を緩和するために、スケールバランス再サンプリング戦略を導入する。ActivityNet-1.3とTHUMOS14という2つの主要ベンチマークでの詳細な実験により、BSN++が最先端の性能を達成していることが示された。予想通り、提議されたBSN++はCVPR19 - ActivityNetチャレンジリーダーボードにおいて時間的行動局所化タスクで1位となった。注:「CVPR19」は「Computer Vision and Pattern Recognition 2019」(2019年のコンピュータビジョンとパターン認識会議)を指します。「ActivityNet-1.3」と「THUMOS14」はそれぞれ動画分析用データセットのバージョン名です。