要約
医療分野で生成される時系列データの量は急速に増加しており、そのデータを分析し、異常を検出するとともに有意義な知見を提供するための手法の需要も高まっている。しかし、現時点で入手可能なデータの多くはラベルなしであり、この状況下での異常検出は研究者および実務家にとって大きな課題となっている。近年、深層生成モデルを用いた教師なし表現学習が、大規模なラベル付きデータセットを必要とせずにデータの表現を学習する手法として注目されている。その成功に触発され、本研究では時系列データにおける異常検出のための教師なしフレームワークを提案する。本手法では、表現学習と異常検出の両プロセスが完全に教師なしで実行可能であり、さらに学習データに異常データが含まれていても問題ない。まず、変分再帰オートエンコーダ(Variational Recurrent Autoencoder)を用いて時系列データの表現を学習する。その後、得られた表現を基に、クラスタリングとワッサーシュタイン距離(Wasserstein distance)を用いて異常な時系列を検出する。公開されているECG5000心電図データセットを用いた実験結果から、本手法が完全に教師なしの状態で異常な心拍を検出可能であり、構造的かつ表現力豊かなデータ表現を提供できることを示した。さらに、本アプローチは、このデータセットにおいて従来の教師ありおよび教師なし手法を上回る性能を達成した。