9日前
Cluster-Former:長距離依存関係符号化のためのクラスタリングベースのスパースTransformer
Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi Sun, Yu Cheng, Jingjing Liu

要約
Transformerは深層学習分野において広く普及している。その成功を決定づけた主な要因の一つは、自己注意(self-attention)機構であり、これにより入力トークン間の完全な接続的文脈符号化が可能となる。しかし、短いシーケンスのモデリングにおいては有効である一方で、極めて長い範囲の依存関係を扱う際には、自己注意機構はシーケンス長に応じて計算量が二次的に増大するという課題を抱えている。そのため、長大なシーケンスを処理する場合、Transformerはしばしばスライディングウィンドウを用いてシーケンスをチャンクに分割して符号化する。本論文では、チャンク化されたシーケンス間での注意機構を実現する新しいクラスタリングベースのスパースTransformer、Cluster-Formerを提案する。本手法は、局所的なシーケンス情報を符号化する「スライディングウィンドウ層」と、グローバルな文脈を捉える「Cluster-Former層」という二種類の特徴的なTransformer層を軸に構成されており、これらは局所情報とグローバル文脈を共同かつ反復的に符号化する。この新規なアーキテクチャにより、局所的なウィンドウを超えた情報統合が可能となり、長距離依存関係に依存する質問応答(QA)タスクにおいて特に効果を発揮する。実験の結果、Cluster-Formerは複数の主要なQAベンチマークにおいて最先端の性能を達成した。