
要約
近年、従来の手法に比べて優れた性能を発揮するため、深層学習モデルを用いた異常検出(Anomaly Detection, AD)の応用が広く進展している。画像における異常検出を目的とした最近の深層学習手法は、エンド・トゥ・エンドの自己教師あり学習設定下で、正常なデータのより優れた特徴を学習することができる。これらの手法は、視覚データに適用された異なる変換処理を区別するモデルを学習し、その出力を利用して異常度スコアを算出する。本研究では、テキストシーケンスに対して新たな前処理タスク(pretext task)を導入することで、このアプローチをテキストにおける異常検出に適用した。我々は、トークンレベルとシーケンスレベルの2つの独立的かつ補完的な自己教師信号を強制的に導入することで、エンド・トゥ・エンドでDATEモデルを学習する。この新しいタスク定式化に基づき、20NewsgroupsおよびAG Newsデータセットにおいて、定量的・定性的な優れた結果を示した。半教師あり設定では、最先端手法をそれぞれ+13.5%および+6.9%(AUROC)上回り、無教師設定では、他の手法が0%の外れ値を含む場合と比較して、訓練データの10%が外れ値で汚染された状況でも、すべての既存手法を上回った。