iTransformer:逆転Transformerは時系列予測に有効である

近年、線形予測モデルの急成長により、Transformerを基盤とする予測モデルに対するアーキテクチャの改良への情熱が疑問視されつつある。これらの予測モデルは、時系列データの時間的トークン(temporal tokens)間のグローバルな依存関係を、同一時刻における複数変数(variates)から構成される各トークンを用いてTransformerでモデル化する。しかし、大きなラックバック窓(lookback window)を扱う際、Transformerは性能の低下と計算量の爆発という課題に直面する。さらに、各時間的トークンに対する埋め込みは、潜在的な遅延イベントや異なる物理的測定値を表す複数の変数を統合しているため、変数中心の表現(variate-centric representations)の学習が困難となり、意味のない注意マップ(attention maps)を生成する可能性がある。本研究では、Transformerの各構成要素が果たす有効な役割を再評価し、基本的な構成要素に一切の変更を加えずにTransformerアーキテクチャを再利用するアプローチを提案する。我々は、iTransformerを提案する。このモデルは、次元を反転させた上で、単にアテンション機構とフィードフォワードネットワーク(feed-forward network)を適用するというシンプルな設計である。具体的には、個々の時系列の時刻点が変数トークン(variate tokens)に埋め込まれ、アテンション機構によって複数変数間の相関関係を捉える。一方、フィードフォワードネットワークは各変数トークンに対して独立して適用され、非線形な表現を学習する。iTransformerは、実世界で困難な複数のデータセットにおいて、最先端の性能を達成した。これにより、Transformerファミリーは、異なる変数間での汎化能力の向上、任意のラックバック窓の効率的利用、さらには全体的な性能の向上という利点を獲得し、時系列予測の基本的バックボーンとして優れた代替手段としての地位を確立した。コードは以下のリポジトリで公開されている:https://github.com/thuml/iTransformer。