7日前

不確実性モデリングを用いた弱教師付き時系列行動局所化

Pilhyeon Lee, Jinglu Wang, Yan Lu, Hyeran Byun
不確実性モデリングを用いた弱教師付き時系列行動局所化
要約

弱教師付き時系列行動局所化(Weakly-supervised temporal action localization)は、ビデオ全体のラベル(ビデオレベルラベル)のみを用いて、行動クラスに対応する時系列区間を検出するタスクを目的としている。この目的を達成するためには、行動クラスに属するフレームと背景フレーム(どの行動クラスにも属さないフレーム)を明確に分離することが不可欠である。本論文では、背景フレームに対して新たな視点を提示する。すなわち、背景フレームはその一貫性の欠如により、分布外(out-of-distribution)のサンプルとしてモデル化できると捉える。この観点に基づき、各フレームが分布外である確率(すなわち不確実性)を推定することで背景フレームを検出可能となるが、フレームレベルのラベルが存在しないため、不確実性を直接学習することは現実的ではない。本研究では、この不確実性学習を弱教師付き設定で実現するために、複数インスタンス学習(Multiple Instance Learning, MIL)の枠組みを活用する。さらに、背景フレームの識別性能を向上させるために、背景エントロピー損失(background entropy loss)を導入する。この損失は、すべての行動クラスにわたって行動(in-distribution)確率が均一に分布するよう促すことで、背景フレームの特徴をより明確に分離することを目的としている。実験結果から、本手法による不確実性モデリングが背景フレームの干渉を効果的に軽減し、追加の構造やハイパーパラメータ調整なしに顕著な性能向上をもたらすことが示された。THUMOS'14およびActivityNet(1.2および1.3)のベンチマークにおいて、本モデルは最先端手法を大きく上回る性能を達成した。コードは以下のGitHubリポジトリで公開されている:https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling。

不確実性モデリングを用いた弱教師付き時系列行動局所化 | 最新論文 | HyperAI超神経