15日前

時刻を意識した大カーネル畳み込み

Vasileios Lioutas, Yuhong Guo
時刻を意識した大カーネル畳み込み
要約

これまでの最先端のシーケンスモデリングアーキテクチャの多くは、言語ベースのタスク向けに生成モデルを構築する際にアテンション機構を用いている。これらのモデルの一部は、利用可能なすべてのシーケンストークンを用いてアテンション分布を生成するため、時間計算量は $O(n^2)$ となる。一方で、サイズ $k$ のソフトマックス正規化カーネルを用いた深層可変畳み込み(depthwise convolutions)を活用することで、制限された窓サイズの自己アテンションと同様の効果を得られ、時間計算量は $O(k \cdot n)$ となる。本論文では、固定サイズのカーネル行列ではなく、和演算に用いるカーネルサイズを学習によって予測する新しい適応型畳み込み演算である「タイムアウェア・ラージカーネル(TaLK)畳み込み」を提案する。この手法により、時間計算量は $O(n)$ にまで低減され、シーケンスエンコーディングプロセスがトークン数に対して線形となる。我々は、大規模な標準的な機械翻訳、要約(抽象的要約)、言語モデリングデータセットにおいて提案手法を評価し、従来のアテンションや畳み込みベースのアプローチに比べ、効率的な改善を実現できることを示した。

時刻を意識した大カーネル畳み込み | 最新論文 | HyperAI超神経