要約
時空間予測は、複雑な動的運動および外観の変化に起因して困難である。従来の手法は、予測過程において空間的外観を記憶するため、標準的なConvLSTMに追加のセルを組み込むことに注力している。しかし、これらのモデルは空間依存性を捉えるために常に畳み込み層に依存しており、局所的かつ非効率的である。一方で、長距離の空間依存性は空間応用において極めて重要である。本研究では、グローバルかつローカルな依存性を両方持つ空間特徴を抽出するため、ConvLSTMに自己注意機構(self-attention mechanism)を導入する。具体的には、空間的および時系列的領域における長距離依存性を持つ特徴を記憶するための新規な自己注意記憶(Self-Attention Memory: SAM)を提案する。SAMは自己注意機構に基づき、入力自身および記憶特徴のすべての位置にわたる特徴を、ペアワイズ類似度スコアを用いて集約することで、新たな特徴を生成する。さらに、追加の記憶は、集約された特徴に対するゲーティング機構と、前時刻の記憶を用いたハイウェイ構造(highway)によって更新される。これにより、SAMを用いることで、長距離の時空間依存性を持つ特徴を効果的に抽出できる。さらに、このSAMを標準的なConvLSTMに統合し、時空間予測に適した自己注意ConvLSTM(SA-ConvLSTM)を構築する。実験では、MovingMNISTおよびKTHデータセットにおけるフレーム予測、およびTexiBJデータセットにおける交通流予測にSA-ConvLSTMを適用した。その結果、従来の最先端手法と比較して、パラメータ数が少なく、時間効率がより高い性能を達成し、両データセットにおいて最先端の結果を実現した。