大規模なTransformerベースモデル向けの異常値効率的なHopfield層

本稿では、巨大なTransformerベースのモデルにおける外れ値への非効率性問題に対処するため、外れ値に強い現代型ホップフィールドモデル(以下、$\mathrm{OutEffHop}$)を提案する。本研究の主な貢献は、外れ値に強い連想記憶の検索を可能にする新たな連想記憶モデルの構築である。興味深いことに、この記憶モデルは、外れ値に強いアテンション機構(${\rm Softmax}_1$)のモデルベース解釈を示しており、実際には$\mathrm{OutEffHop}$の記憶検索プロセスの近似として機能している。手法論的に、これにより従来のアテンション機構に対する強力な代替手段として、外れ値に強いホップフィールド層を導入可能となり、量子化後の性能において優れた結果を達成する。理論的には、$\mathrm{OutEffHop}$は標準的な現代型ホップフィールドモデルが有する望ましい性質(固定点収束性、指数的記憶容量)を維持するとともに、さらに改善を実現している。実証的にも、BERT、OPT、ViT、STanHop-Netを含む大規模なTransformerベースおよびホップフィールドベースのモデルにおいて、最先端手法($\mathtt{Clipped_Softmax}$、$\mathtt{Gated_Attention}$)と比較して本モデルの有効性を検証した。特に、4つのモデル全体で平均尖度(kurtosis)を平均22%以上、最大無限大ノルム(infinity norm)を26%以上削減することに成功した。コードは \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub} にて公開中であり、モデルは \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub} で入手可能。今後の更新情報は \href{https://arxiv.org/abs/2404.03828}{arXiv} にて提供される。