
要約
現実世界の多くのタスクはデータの制限に直面している:ある場合にはデータが極めて限られている一方、他の場合にはプライバシー保護規制(例:GDPR)によってデータが制限されている。本研究では、時系列データに特有の制限に着目し、実際のデータに代わって利用可能な合成時系列データを生成できるモデルを提示する。合成時系列データを生成するモデルには、2つの目的が求められる。1)実際の時系列の段階的条件分布を正確に捉えること、2)実際の時系列全体の同時分布を忠実にモデル化することである。最大尤度推定(MLE)に基づく自己回帰モデルは、過去の予測値をフィードバックして将来の予測に利用するシステムで用いることができるが、このようなモデルでは時間の経過とともに誤差が蓄積するという問題がある。さらに、初期値として妥当な値が必要となるため、MLEに基づくモデルは本質的に生成モデルとは言えない。多くの下流タスクでは時系列の条件分布を学習する必要があるため、生成モデルから得られる合成データは、上記の1)を満たすとともに、2)の性能も発揮しなければならない。本研究では、Transformerアーキテクチャを活用してこれらの要件を満たすTsT-GANというフレームワークを提案し、5つのデータセットにおいて5つの最先端モデルと比較してその性能を評価した。その結果、TsT-GANはすべてのデータセットにおいてより高い予測性能を達成したことが示された。