11日前

TSMixer:多変量時系列予測のための軽量MLP-Mixerモデル

Vijay Ekambaram, Arindam Jati, Nam Nguyen, Phanwadee Sinthong, Jayant Kalagnanam
TSMixer:多変量時系列予測のための軽量MLP-Mixerモデル
要約

時系列予測において、Transformerは長距離依存関係を効果的に捉える能力から注目を集めている。しかし、その高いメモリおよび計算リソースの要件は、長期予測において重大なボトルネックとなっている。これを解決するため、我々はTSMixerを提案する。TSMixerは、パッチ化された時系列データに対する多変量予測および表現学習を目的とした、マルチレイヤーパーセプトロン(MLP)モジュールのみで構成される軽量ニューラルアーキテクチャである。コンピュータビジョン分野におけるMLP-Mixerの成功に着想を得て、これを時系列データに適応した。これにより、時系列特有の課題に対処しつつ、精度を向上させる検証済みの構成要素を導入した。特に、MLP-Mixerのバックボーンにオンライン再調整ヘッド(online reconciliation heads)を接続する新しい設計アプローチを提案し、時系列データに特有の性質(階層構造やチャネル間相関など)を明示的にモデル化できるようにした。また、ノイズを含むチャネル間相互作用を効果的に処理し、多様なデータセット間での一般化性能を高めるために、新しいハイブリッドチャネルモデリングと単純なゲーティング機構を導入した。これらの軽量な構成要素を組み込むことで、単純なMLP構造の学習能力を大幅に強化し、計算コストを最小限に抑えながら、複雑なTransformerモデルを上回る性能を達成した。さらに、TSMixerのモジュール設計により、教師あり学習およびマスクされた自己教師学習(masked self-supervised learning)の両方と互換性が確保されており、時系列用フォンドエーションモデル(Foundation Models)の有望な構成要素としての可能性を秘めている。TSMixerは、最先端のMLPおよびTransformerモデルに対して、8~60%の顕著な性能向上を達成した。また、最新のPatch-Transformerモデルと比較しても1~2%の優位性を示しつつ、メモリ使用量と実行時間において2~3倍の削減を実現した。本モデルのソースコードは、HuggingFace上で公式に公開されており、PatchTSMixerとして利用可能である。モデルページ:https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixer例題ノートブック:https://github.com/ibm/tsfm/#notebooks-links

TSMixer:多変量時系列予測のための軽量MLP-Mixerモデル | 最新論文 | HyperAI超神経