Command Palette

Search for a command to run...

4달 전

학습 가능한 표현 풀링을 통한 트랜스포머 모델의 희소화

{Anonymous}

초록

우리는 트랜스포머 모델 내에서 어텐션을 희소화하기 위한 새로운 방법을 제안한다. 이 방법은 학습 과정에서 입력 데이터의 가장 정보가 풍부한 토큰 표현들을 자동으로 선택함으로써, 입력의 작업 특화 부분에 집중할 수 있도록 한다. 강력한 학습 가능한 top-kkk 연산자 덕분에 시간 및 메모리 복잡도를 이차원에서 부분선형으로 감소시켰다. 도전적인 긴 문서 요약 작업에 대한 실험 결과, 단순한 기준 모델조차 현재의 최고 성능(SOTA) 수준과 유사한 성능을 보였으며, 학습 가능한 풀링을 도입함으로써 그 우수한 품질을 유지하면서도 훈련 시 1.8배 빠르고, 추론 시 4.5배 빠르며, 디코더 내에서 최대 13배 더 계산 효율적인 성능을 달성할 수 있었다.

벤치마크

벤치마크방법론지표
document-summarization-on-arxivDeepPyramidion
ROUGE-1: 47.15
document-summarization-on-arxiv-summarizationDeepPyramidion
Rouge-2: 19.99
text-summarization-on-arxivDeepPyramidion
ROUGE-1: 47.15
ROUGE-2: 19.99
text-summarization-on-arxivBlockwise(baseline)
ROUGE-1: 46.85
ROUGE-2: 19.39

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
학습 가능한 표현 풀링을 통한 트랜스포머 모델의 희소화 | 연구 논문 | HyperAI초신경