한 달 전
가벼운 동적 컨볼루션을 사용하여 주의력을 줄이기
Felix Wu; Angela Fan; Alexei Baevski; Yann N. Dauphin; Michael Auli

초록
셀프 어텐션은 언어와 이미지에 대한 생성 모델을 구축하는 데 유용한 메커니즘입니다. 이 메커니즘은 각 요소를 현재 시간 단계와 비교하여 문맥 요소의 중요성을 결정합니다. 본 논문에서는 매우 경량화된 컨볼루션이 최고로 보고된 셀프 어텐션 결과와 경쟁할 수 있음을 보여줍니다. 또한, 셀프 어텐션보다 간단하고 효율적인 동적 컨볼루션을 소개합니다. 우리는 현재 시간 단계에만 기반하여 별도의 컨볼루션 커널을 예측하여 문맥 요소의 중요성을 결정합니다. 이 접근 방식이 필요한 연산 횟수는 입력 길이에 선형적으로 비례하지만, 셀프 어텐션은 이차적으로 증가합니다. 대규모 기계 번역, 언어 모델링 및 추상적 요약 실험에서 동적 컨볼루션이 강력한 셀프 어텐션 모델보다 우수함을 확인할 수 있었습니다. WMT'14 영어-독일어 테스트 세트에서 동적 컨볼루션은 29.7 BLEU 점수를 달성하며 새로운 최고 성능을 기록하였습니다.