2달 전

상대 위치 표현을 사용한 자기 주의 (Self-Attention with Relative Position Representations)

Peter Shaw; Jakob Uszkoreit; Ashish Vaswani
상대 위치 표현을 사용한 자기 주의 (Self-Attention with Relative Position Representations)
초록

Vaswani 등 (2017)이 제안한 Transformer는 주의 메커니즘(attention mechanism)에 완전히 의존하여 기계 번역에서 최고 수준의 성과를 달성하였습니다. 순환 신경망(recurrent neural networks)과 합성곱 신경망(convolutional neural networks)과는 달리, 이 모델은 구조적으로 상대적 위치 정보나 절대적 위치 정보를 명시적으로 모델링하지 않습니다. 대신, 입력 데이터에 절대적 위치 표현을 추가해야 합니다. 본 연구에서는 이를 대체하는 접근 방식을 제시하며, 자기 주의 메커니즘(self-attention mechanism)을 확장하여 시퀀스 요소 간의 상대적 위치나 거리를 효율적으로 고려할 수 있도록 합니다. WMT 2014 영어-독일어 및 영어-프랑스어 번역 과제에서 이 접근 방식은 각각 1.3 BLEU와 0.3 BLEU 점수 향상을 가져왔습니다. 특히, 상대적 위치 표현과 절대적 위치 표현을 결합한 경우 번역 품질에 더 큰 개선이 이루어지지 않았음을 관찰하였습니다. 우리는 본 방법의 효율적인 구현을 설명하고, 이를 임의의 그래프 라벨링된 입력에 일반화될 수 있는 관계 인식형 자기 주의 메커니즘(relation-aware self-attention mechanisms)의 한 예로 제시합니다.

상대 위치 표현을 사용한 자기 주의 (Self-Attention with Relative Position Representations) | 최신 연구 논문 | HyperAI초신경