11日前

アテンションは行列分解よりも優れているか?

Zhengyang Geng, Meng-Hao Guo, Hongxu Chen, Xia Li, Ke Wei, Zhouchen Lin
アテンションは行列分解よりも優れているか?
要約

現代の深層学習の核となる要素であるアテンション機構、特に自己アテンション(self-attention)は、グローバルな相関関係を発見する上で極めて重要な役割を果たしている。しかし、グローバルな文脈をモデル化する際に、手作業で設計されたアテンション機構は本当に代替不可能なのか?本研究の興味深い発見は、長距離依存関係の符号化において、20年前に開発された行列分解(Matrix Decomposition: MD)モデルは、性能と計算コストの両面で自己アテンションを上回っていることである。本研究では、グローバル文脈の問題を低ランク回復(low-rank recovery)問題として定式化し、その最適化アルゴリズムがグローバル情報ブロックの設計に役立つことを示した。この洞察に基づき、本論文では「ハンバーガー(Hamburgers)」と名付けられた一連の新規アーキテクチャを提案する。これらのハンバーガーでは、入力表現を低ランクの部分行列に分解し、再構成することで低ランク埋め込みを生成するために、MDの最適化アルゴリズムを活用している。異なるMDを用いたハンバーガーは、MD経由の勾配逆伝播において適切な処理を行うことで、人気のあるグローバル文脈モジュールである自己アテンションと比較しても優れた性能を発揮する。視覚タスク、特にグローバル文脈の学習が極めて重要なセマンティックセグメンテーションや画像生成において、広範な実験を実施した結果、自己アテンションおよびその変種と比較して顕著な性能向上が確認された。

アテンションは行列分解よりも優れているか? | 最新論文 | HyperAI超神経