9日前

SwinLSTM:Swin TransformerとLSTMを活用した時空間予測精度の向上

{RongNian Tang, Pu Zhang, Chuang Li, Song Tang}
SwinLSTM:Swin TransformerとLSTMを活用した時空間予測精度の向上
要約

時空間依存性を捉えるための代表的なアプローチとして、CNNとRNNを統合する手法が広く用いられている。しかし、CNNが局所的な空間情報を学習する性質は、時空間依存性を効率的に捉えることを妨げ、結果として予測精度の向上が制限される。本論文では、Swin Transformerブロックと簡略化されたLSTMを統合した新たな再帰セル、SwinLSTMを提案する。これは、ConvLSTMにおける畳み込み構造を自己注意(self-attention)メカニズムに置き換える拡張である。さらに、SwinLSTMセルをコアとする時空間予測用ネットワークを構築した。特段の特殊なテクニックを用いないにもかかわらず、SwinLSTMはMoving MNIST、Human3.6m、TaxiBJ、KTHの各データセットにおいて、最先端の手法を上回る性能を示した。特に、ConvLSTMと比較して予測精度が顕著に向上している。得られた競争力のある実験結果から、モデルがグローバルな空間依存性を学習することが、時空間依存性を捉える上でより効果的であることが示された。本研究が、時空間予測精度の向上を促進する堅実なベースラインとして機能することを期待する。コードは公開されており、https://github.com/SongTang-x/SwinLSTM にて入手可能である。