
초록
컨벌루션은 오직 국소적으로만 작동하기 때문에 전역적인 상호작용을 모델링하지 못합니다.그러나 자기 주의 메커니즘(self-attention)은 시퀀스 내의 장거리 의존성을 포착하는 표현을 학습할 수 있습니다.우리는 컨벌루션과 자기 주의 메커니즘을 결합한 음성 초해상도 네트워크 아키텍처를 제안합니다.주의 기반 특징별 선형 변조(Attention-based Feature-Wise Linear Modulation, AFiLM)는 순환 신경망 대신 자기 주의 메커니즘을 사용하여 컨벌루셔널 모델의 활성화를 조절합니다.다양한 실험 결과가 보여주듯이, 우리의 모델은 표준 벤치마크에서 기존 접근 방식들을 능가하며,또한 더 많은 병렬 처리가 가능하여 훈련 속도가 크게 빨라집니다.