OLED:異常検出のための敵対的コンテキストマスキングを備えた1クラス学習エンコーダデコーダネットワーク

新奇検出(Novelty detection)とは、対象クラスの分布に属さないサンプルを識別するタスクである。学習段階では新奇クラスが存在しないため、従来の分類アプローチを適用できない。深層自動符号化器(deep autoencoders)は、多くの非監督型新奇検出手法の基盤として広く用いられている。特に、ランダムにマスクされた画像から元の画像を再構成することで、より効果的な表現を学習できる点から、コンテキスト自動符号化器(context autoencoders)は新奇検出タスクにおいて優れた成果を上げている。しかし、コンテキスト自動符号化器の大きな欠点として、ランダムなマスクが入力画像の重要な構造を一貫してカバーできないことが挙げられ、特に新奇検出タスクにおいては最適でない表現が得られてしまう。本論文では、入力マスクの最適化を図るため、2つの競合するネットワークから構成されるフレームワークを提案する。1つはマスクモジュール(Mask Module)であり、畳み込み自動符号化器として設計され、画像の最も重要な部分をカバーする最適なマスクを学習する。もう1つは再構成器(Reconstructor)であり、畳み込みエンコーダ-デコーダ構造を持ち、マスクされた画像から元の画像を再構成することを目的とする。これらのネットワークは敵対的(adversarial)な学習により訓練される。具体的には、マスクモジュールが再構成器に与えられる画像に対してマスクを生成し、再構成器はそのマスク付き画像から元の画像を再構成しようと試みる。このプロセスにおいて、マスクモジュールは再構成器が最小化しようとする再構成誤差を最大化するように学習する。新奇検出に適用した場合、本手法はコンテキスト自動符号化器と比較して意味的に豊かな表現を学習し、より最適なマスクによりテスト時の新奇検出性能を向上させる。MNISTおよびCIFAR-10画像データセットを用いた新奇検出実験の結果、本手法は最先端の手法を上回る性能を示した。さらに、UCSD動画データセットを用いた新奇検出実験においても、本手法は最新の成果を達成した。