16일 전

대규모 트랜스포머 기반 모델을 위한 아웃라이어 효율적인 호프필드 레이어

Jerry Yao-Chieh Hu, Pei-Hsuan Chang, Robin Luo, Hong-Yu Chen, Weijian Li, Wei-Po Wang, Han Liu
대규모 트랜스포머 기반 모델을 위한 아웃라이어 효율적인 호프필드 레이어
초록

우리는 거 outlier 효율성을 개선한 현대형 호프필드 모델(이하 $\mathrm{OutEffHop}$)을 제안하고, 거대한 트랜스포머 기반 모델 학습 시 발생하는 outlier 비효율성 문제를 해결하기 위해 이를 활용한다. 본 연구의 주요 기여는 \textit{outlier 효율성}을 보장하는 새로운 연상 메모리 모델을 제안한 점이다. 흥미롭게도, 이 메모리 모델은 outlier 효율적인 어텐션 메커니즘(${\rm Softmax}_1$)에 대한 모델 기반 해석을 제공한다. 즉, $\mathrm{OutEffHop}$의 메모리 검색 과정을 근사하는 방식으로 작동한다. 방법론적으로, 기존 어텐션 메커니즘의 강력한 대안으로 새로운 outlier 효율적 호프필드 레이어를 도입할 수 있으며, 특히 양자화 이후 성능에서 뛰어난 성능을 보인다. 이론적으로, Outlier-Efficient Modern Hopfield 모델은 기존 현대형 호프필드 모델의 바람직한 특성(고정점 수렴성, 지수적 저장 용량 등)을 유지하면서 이를 개선한다. 실험적으로, 제안된 모델이 BERT, OPT, ViT, STanHop-Net 등 다양한 대규모 트랜스포머 기반 및 호프필드 기반 모델에서 효과적임을 입증하였으며, $\mathtt{Clipped_Softmax}$ 및 $\mathtt{Gated_Attention}$과 같은 최첨단 기법과의 비교를 통해 성능을 검증하였다. 특히, 네 가지 모델에서 평균 초과첨도(kurtosis)는 평균 22\% 이상, 최대 무한대 노름(infinity norm)은 26\% 이상 감소하는 성과를 달성하였다. 코드는 \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub}에서 제공되며, 모델은 \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}에서 확인할 수 있다. 향후 업데이트는 \href{https://arxiv.org/abs/2404.03828}{arXiv}에서 확인 가능하다.

대규모 트랜스포머 기반 모델을 위한 아웃라이어 효율적인 호프필드 레이어 | 최신 연구 논문 | HyperAI초신경