15日前
時系列は64語に値する:Transformersを用いた長期予測
Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong, Jayant Kalagnanam

要約
我々は、多変量時系列予測および自己教師付き表現学習を目的とした、Transformerベースのモデルの効率的な設計を提案する。本手法は以下の2つの主要構成要素に基づいている:(i) 時系列をサブ系列レベルのパッチに分割し、それらをTransformerの入力トークンとして用いること;(ii) 各チャネルが単一の単変量時系列を含み、すべての時系列間で同じ埋め込み(embedding)およびTransformerの重みを共有するチャネル独立性の設計。パッチ化のアプローチは、以下の3つの利点を自然にもたらす:まず、埋め込みにおいて局所的な意味情報が保持される;次に、同じ遅延期間(look-back window)を設定した場合、アテンションマップの計算量およびメモリ使用量が二次的に削減される;さらに、より長い履歴に注目する能力が得られる。本研究で提案するチャネル独立型パッチ時系列Transformer(PatchTST)は、最先端(SOTA)のTransformerベースモデルと比較して、長期予測精度を著しく向上させることができる。また、本モデルを自己教師付き事前学習タスクに適用した結果、大規模データセットにおける教師あり学習を上回る微調整(fine-tuning)性能を達成した。さらに、あるデータセットでマスクされた表現を事前学習して得た特徴を他のデータセットに転移(transfer)する手法も検証し、SOTAの予測精度を実現した。コードは以下のGitHubリポジトリで公開されている:https://github.com/yuqinie98/PatchTST。