
要約
本稿では、従来のアテンションを適用する前に、入力に依存する動的(ダイナミック)な2次無限インパルス応答(IIR)フィルタを用いた新たな層を提案する。入力シーケンスはチャンクに分割され、因果性を維持するために、これらのフィルタの係数は以前のチャンクに基づいて決定される。比較的低次のフィルタであるにもかかわらず、因果的で適応可能なフィルタは、関連するシーケンス要素に注目することを示している。この新層は制御理論に基づいており、対角状態空間層(diagonal state-space layers)を一般化することを示している。提案層は、パラメータ数が従来の最先端ネットワークの一部に過ぎず、入力サイズに対して二次未満の時間計算量を実現しつつ、性能においても同程度の結果を達成している。この層は、Heyna、GPT2、Megaといった既存の層と比較して、パラメータ数の点で優れており、複数の長距離シーケンス問題においても高い性能を達成している。