要約
ストリーミング型時系列データの可用性は、著しい増加を見せている。主に接続されたリアルタイムデータソースの普及に伴い、こうしたデータは技術的な課題と同時に、新たな機会ももたらしている。ストリーミング分析における基本的な機能の一つは、各ストリームを教師なしの方法でモデル化し、リアルタイムで異常な行動を検出することである。早期の異常検出は極めて価値があるが、実際の現場では信頼性の高い実行が難しい場合が多い。アプリケーション上の制約により、システムはバッチ処理ではなくリアルタイムでデータを処理しなければならない。また、ストリーミングデータは本質的にコンセプトドリフト(概念の変化)を示すため、継続的に学習可能なアルゴリズムが求められる。さらに、実際には多数の独立したストリームが存在するため、異常検出器は完全に自動化されている必要がある。本論文では、こうした要件を満たす新たな異常検出アルゴリズムを提案する。本手法は、階層的時系列記憶(Hierarchical Temporal Memory: HTM)と呼ばれるオンラインシーケンスメモリアルゴリズムに基づいている。また、ラベル付き異常を含む実世界のデータストリームを収録した「Numenta異常検出ベンチマーク(Numenta Anomaly Benchmark: NAB)」を用いた実験結果も提示する。NABは、同種のベンチマークとして初のものであり、ストリーミングデータに対する異常検出アルゴリズムの検証を可能にする、制御されたオープンソース環境を提供する。本研究では、このベンチマーク上で幅広いアルゴリズムの性能を評価し、分析結果を提示するとともに、ストリーミング分析という新興分野における今後の課題についても議論する。