2달 전

다층 주의 메커니즘을 활용한 기계 이해를 위한 위상 전도체

Rui Liu; Wei Wei; Weiguang Mao; Maria Chikina
다층 주의 메커니즘을 활용한 기계 이해를 위한 위상 전도체
초록

주목 모델은 질문 인식 패시지 주목 모델과 자기 일치 주목 모델을 통해 기계 이해 등 자연어 처리(NLP) 작업을 개선하기 위해 집중적으로 연구되어 왔습니다. 본 연구에서는 주목 모델에 대해 두 가지 의미 있는 방법으로 페이즈 컨덕터(PhaseCond)를 제안합니다. 첫째, PhaseCond는 다층 주목 모델의 구조로, 각각 패시지 표현을 생성하는 주목 레이어 스택과 정보 흐름을 조절하는 내부 또는 외부 융합 레이어 스택으로 구성된 여러 단계를 포함합니다. 둘째, 우리는 PhaseCond를 위해 점곱 주의 함수를 확장하고 개선했습니다. 이는 서로 다른 관점에서 여러 질문 및 패시지 임베딩 레이어를 동시에 인코딩함으로써 이루어집니다. 우리는 SQuAD 데이터셋에서 제안된 모델인 PhaseCond의 효과성을 입증하였으며, 이 모델이 최신 단일층 및 다층 주목 모델보다 크게 우수한 성능을 보임을 보여주었습니다. 또한 상세한 정성적 분석과 시각화된 예제를 통해 다층 주목 모델을 통한 동적 변화를 새로운 발견으로 깊게 탐구하였습니다.