
초록
최근 연구에 따르면, 트랜스포머(Transformer) 모델 내의 어텐션 헤드들은 서로 동등하지 않음을 확인할 수 있다. 이 현상은 다중 헤드 어텐션의 훈련 불균형과 모델이 특정 헤드에 과도하게 의존하는 것과 관련이 있다고 본다. 이 문제를 해결하기 위해 우리는 두 가지 방식으로 간단한 마스킹 기법인 HeadMask를 제안한다. 실험 결과, 다양한 언어 쌍에 대해 번역 성능 향상이 확인되었으며, 후속 실험적 분석을 통해 우리의 가정이 타당함을 입증하고, 제안한 방법의 효과성을 확인할 수 있었다.