Command Palette
Search for a command to run...
{Anonymous}
초록
우리는 트랜스포머 모델 내에서 어텐션을 희소화하기 위한 새로운 방법을 제안한다. 이 방법은 학습 과정에서 입력 데이터의 가장 정보가 풍부한 토큰 표현들을 자동으로 선택함으로써, 입력의 작업 특화 부분에 집중할 수 있도록 한다. 강력한 학습 가능한 top-k 연산자 덕분에 시간 및 메모리 복잡도를 이차원에서 부분선형으로 감소시켰다. 도전적인 긴 문서 요약 작업에 대한 실험 결과, 단순한 기준 모델조차 현재의 최고 성능(SOTA) 수준과 유사한 성능을 보였으며, 학습 가능한 풀링을 도입함으로써 그 우수한 품질을 유지하면서도 훈련 시 1.8배 빠르고, 추론 시 4.5배 빠르며, 디코더 내에서 최대 13배 더 계산 효율적인 성능을 달성할 수 있었다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| document-summarization-on-arxiv | DeepPyramidion | ROUGE-1: 47.15 |
| document-summarization-on-arxiv-summarization | DeepPyramidion | Rouge-2: 19.99 |
| text-summarization-on-arxiv | DeepPyramidion | ROUGE-1: 47.15 ROUGE-2: 19.99 |
| text-summarization-on-arxiv | Blockwise(baseline) | ROUGE-1: 46.85 ROUGE-2: 19.39 |