11日前

Transformerにおける位置情報を符号化するための連続的力学モデルによる学習

Xuanqing Liu, Hsiang-Fu Yu, Inderjit Dhillon, Cho-Jui Hsieh
Transformerにおける位置情報を符号化するための連続的力学モデルによる学習
要約

我々は、再帰型でないモデル(例えばTransformerモデルなど)向けに位置情報の符号化を学習する新たな手法を提案する。RNNやLSTMとは異なり、再帰型でないモデルは入力トークンを逐次的に読み込むことによって内在的な誘導的バイアス(inductive bias)を有しているが、それに対して再帰型でないモデルは位置情報に対してやや鈍感である。その主な理由は、入力ユニット間の位置情報が本質的に符号化されていないため、すなわちモデルが置換同値(permutation equivalent)であるということにある。この問題を補うために、従来のすべてのモデルは入力層に正弦波符号化(sinusoidal encoding)または位置埋め込み(position embedding)層を搭載している。しかし、このアプローチには明確な限界がある。正弦波符号化は手動で設計されており、学習可能なパラメータを含まないため柔軟性に欠け、一方位置埋め込みは入力シーケンスの最大長を制限する。したがって、異なるデータセットやアーキテクチャに適応できる学習可能なパラメータを含む新しい位置符号化層の設計が望まれる。同時に、入力の長さが変動する場合にもその符号化が外挿(extrapolation)可能であることが望ましい。本研究で提案する解決策では、最近のNeural ODE(神経微分方程式)アプローチを活用する。これは、ResNetの柔軟な連続版と見なすことができる。このモデルは多様な動的システムを表現可能である。本手法では、位置インデックスに沿った符号化結果の変化を、このような動的システムによってモデル化することで、従来の手法の限界を克服する。我々は、様々なニューラル機械翻訳および言語理解タスクにおいて新規位置層の性能を評価した結果、ベースラインに対して一貫した性能向上が確認された。

Transformerにおける位置情報を符号化するための連続的力学モデルによる学習 | 最新論文 | HyperAI超神経