HyperAI

초록

우리는 트랜스포머 모델 내에서 어텐션을 희소화하기 위한 새로운 방법을 제안한다. 이 방법은 학습 과정에서 입력 데이터의 가장 정보가 풍부한 토큰 표현들을 자동으로 선택함으로써, 입력의 작업 특화 부분에 집중할 수 있도록 한다. 강력한 학습 가능한 top- $k$ 연산자 덕분에 시간 및 메모리 복잡도를 이차원에서 부분선형으로 감소시켰다. 도전적인 긴 문서 요약 작업에 대한 실험 결과, 단순한 기준 모델조차 현재의 최고 성능(SOTA) 수준과 유사한 성능을 보였으며, 학습 가능한 풀링을 도입함으로써 그 우수한 품질을 유지하면서도 훈련 시 1.8배 빠르고, 추론 시 4.5배 빠르며, 디코더 내에서 최대 13배 더 계산 효율적인 성능을 달성할 수 있었다.

벤치마크

벤치마크	방법론	지표
document-summarization-on-arxiv	DeepPyramidion	ROUGE-1: 47.15
document-summarization-on-arxiv-summarization	DeepPyramidion	Rouge-2: 19.99
text-summarization-on-arxiv	DeepPyramidion	ROUGE-1: 47.15 ROUGE-2: 19.99
text-summarization-on-arxiv	Blockwise(baseline)	ROUGE-1: 46.85 ROUGE-2: 19.39

학습 가능한 표현 풀링을 통한 트랜스포머 모델의 희소화

{Anonymous}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters

Command Palette

학습 가능한 표현 풀링을 통한 트랜스포머 모델의 희소화

{Anonymous}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters