2달 전
강화된 자기 주의 네트워크: 시퀀스 모델링을 위한 하드 및 소프트 주의의 하이브리드
Tao Shen; Tianyi Zhou; Guodong Long; Jing Jiang; Sen Wang; Chengqi Zhang

초록
많은 자연어 처리 작업은 문장 내의 몇 개 토큰 사이의 희소한 의존 관계에만 의존합니다. 소프트 어텐션 메커니즘은 모든 두 토큰 간의 소프트 확률을 통해 국부적/전역적 의존성을 모델링하는 데 유망한 성능을 보이지만, 긴 문장에 적용할 때 효과적이거나 효율적이지 않습니다. 반면 하드 어텐션 메커니즘은 토큰의 부분 집합을 직접 선택하지만, 조합적 특성 때문에 학습이 어렵고 비효율적입니다. 본 논문에서는 이러한 상호 이점을 위해 소프트와 하드 어텐션을 하나의 컨텍스트 융합 모델인 "강화된 자기 어텐션 (ReSA)"에 통합하였습니다. ReSA에서 하드 어텐션이 시퀀스를 자르면, 소프트 자기 어텐션이 이를 처리하며, 소프트 어텐션은 보상 신호를 반환하여 하드 어텐션의 학습을 촉진합니다. 이를 위해 우리는 "강화된 시퀀스 샘플링 (RSS)"이라는 새로운 하드 어텐션을 개발하였습니다. RSS는 토큰을 병렬로 선택하고 정책 경사를 통해 학습됩니다. 두 개의 RSS 모듈을 사용하여 ReSA는 각 선택된 토큰 쌍 간의 희소한 의존 관계를 효율적으로 추출합니다. 마지막으로, RNN/CNN 없이 작동하는 문장 인코딩 모델인 "강화된 자기 어텐션 네트워크 (ReSAN)"를 제안합니다. 이 모델은 ReSA만으로 구성되며, 스탠퍼드 자연어 추론(SNLI) 데이터셋과 구조적 지식 포함 문장(SICK) 데이터셋에서 최고 수준의 성능을 달성하였습니다.