HyperAIHyperAI

Command Palette

Search for a command to run...

Cluster-Former:長距離依存関係符号化のためのクラスタリングベースのスパースTransformer

Shuohang Wang Luowei Zhou Zhe Gan Yen-Chun Chen Yuwei Fang Siqi Sun Yu Cheng Jingjing Liu

概要

Transformerは深層学習分野において広く普及している。その成功を決定づけた主な要因の一つは、自己注意(self-attention)機構であり、これにより入力トークン間の完全な接続的文脈符号化が可能となる。しかし、短いシーケンスのモデリングにおいては有効である一方で、極めて長い範囲の依存関係を扱う際には、自己注意機構はシーケンス長に応じて計算量が二次的に増大するという課題を抱えている。そのため、長大なシーケンスを処理する場合、Transformerはしばしばスライディングウィンドウを用いてシーケンスをチャンクに分割して符号化する。本論文では、チャンク化されたシーケンス間での注意機構を実現する新しいクラスタリングベースのスパースTransformer、Cluster-Formerを提案する。本手法は、局所的なシーケンス情報を符号化する「スライディングウィンドウ層」と、グローバルな文脈を捉える「Cluster-Former層」という二種類の特徴的なTransformer層を軸に構成されており、これらは局所情報とグローバル文脈を共同かつ反復的に符号化する。この新規なアーキテクチャにより、局所的なウィンドウを超えた情報統合が可能となり、長距離依存関係に依存する質問応答(QA)タスクにおいて特に効果を発揮する。実験の結果、Cluster-Formerは複数の主要なQAベンチマークにおいて最先端の性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています