SSMTL++:動画異常検出のための自己教師付きマルチタスク学習の再検討

最近の文献において、動画異常検出を目的とした自己教師付きマルチタスク学習(SSMTL)フレームワークが提案された。その高い精度に加え、本手法は多くの研究者からの注目を集めている。本研究では、この自己教師付きマルチタスク学習フレームワークを再検討し、元の手法に対するいくつかの改良を提案する。まず、光学フローを用いた高運動領域の検出や背景差分法に基づく検出など、さまざまな異常検出手法を検討する。その理由として、現在使用されている事前学習済みYOLOv3は最適ではないと捉えており、特に運動中の物体や未知クラスの物体は検出されないという問題があると考える。次に、最近の視覚変換器(Vision Transformer)の成功に触発され、3D畳み込みバックボーンを現代化するため、マルチヘッド自己注意(multi-head self-attention)モジュールを導入する。これにより、2Dおよび3D畳み込み型視覚変換器(Convolutional Vision Transformer: CvT)ブロックを併用する新たなアーキテクチャを提案する。さらに、モデル性能のさらなる向上を目指し、知識蒸留を用いたセグメンテーションマップ予測、ジグソーパズルの解法、知識蒸留を用いたボディポーズ推定、マスクされた領域の予測(インペイント)および疑似異常を用いた敵対学習など、追加の自己教師付き学習タスクを検討する。導入した各変更の性能への影響を実験により評価した。より有望なフレームワーク構成として、SSMTL++v1およびSSMTL++v2を同定した後、初期実験をより多くのデータセットへ拡張し、性能向上がすべてのデータセットにおいて一貫して確認された。特にAvenue、ShanghaiTech、UBnormalデータセットにおいて、本手法は従来の最先端性能を大きく上回る結果を達成し、異常検出分野における性能の新たな基準を提示した。