HyperAIHyperAI

Command Palette

Search for a command to run...

大規模なTransformerベースモデル向けの異常値効率的なHopfield層

Jerry Yao-Chieh Hu Pei-Hsuan Chang Robin Luo Hong-Yu Chen Weijian Li Wei-Po Wang Han Liu

概要

本稿では、巨大なTransformerベースのモデルにおける外れ値への非効率性問題に対処するため、外れ値に強い現代型ホップフィールドモデル(以下、OutEffHop\mathrm{OutEffHop}OutEffHop)を提案する。本研究の主な貢献は、外れ値に強い連想記憶の検索を可能にする新たな連想記憶モデルの構築である。興味深いことに、この記憶モデルは、外れ値に強いアテンション機構(Softmax1{\rm Softmax}_1Softmax1)のモデルベース解釈を示しており、実際にはOutEffHop\mathrm{OutEffHop}OutEffHopの記憶検索プロセスの近似として機能している。手法論的に、これにより従来のアテンション機構に対する強力な代替手段として、外れ値に強いホップフィールド層を導入可能となり、量子化後の性能において優れた結果を達成する。理論的には、OutEffHop\mathrm{OutEffHop}OutEffHopは標準的な現代型ホップフィールドモデルが有する望ましい性質(固定点収束性、指数的記憶容量)を維持するとともに、さらに改善を実現している。実証的にも、BERT、OPT、ViT、STanHop-Netを含む大規模なTransformerベースおよびホップフィールドベースのモデルにおいて、最先端手法(ClippedSoftmax\mathtt{Clipped_Softmax}ClippedSoftmaxGatedAttention\mathtt{Gated_Attention}GatedAttention)と比較して本モデルの有効性を検証した。特に、4つのモデル全体で平均尖度(kurtosis)を平均22%以上、最大無限大ノルム(infinity norm)を26%以上削減することに成功した。コードは \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub} にて公開中であり、モデルは \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub} で入手可能。今後の更新情報は \href{https://arxiv.org/abs/2404.03828}{arXiv} にて提供される。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
大規模なTransformerベースモデル向けの異常値効率的なHopfield層 | 記事 | HyperAI超神経