4달 전

다양한 그래프를 상대 위치 라벨을 사용하여 엔티티 인식 자기 주의 메커니즘으로 통합하는 읽기 이해 모델

Shima Foolad; Kourosh Kiani
다양한 그래프를 상대 위치 라벨을 사용하여 엔티티 인식 자기 주의 메커니즘으로 통합하는 읽기 이해 모델
초록

트랜스포머 모델이 기계 독해 이해 작업에서 상당한 진전을 이루었음에도 불구하고, 입력 시퀀스에 명시적인 지식이 부족하여 복잡한 추론 작업을 처리하는 데 여전히 한계가 있습니다. 이러한 제한을 해결하기 위해 최근 많은 연구에서는 외부 지식을 모델에 주입하는 방법을 제안하였습니다. 그러나 관련 외부 지식의 선택, 그 가용성 보장, 그리고 추가적인 처리 단계가 여전히 어려움으로 남아 있습니다. 본 논문에서는 외부 지식에 의존하지 않고 이질 그래프에서 유도된 추론 지식을 트랜스포머 아키텍처에 통합하는 새로운 주의 패턴을 소개합니다. 제안된 주의 패턴은 세 가지 핵심 요소로 구성됩니다: 글로벌-로컬 주의(attention)를 위한 단어 토큰(word tokens), 그래프 주의를 위한 엔티티 토큰(entity tokens) (그래프에서 연결된 토큰보다 연결되지 않은 토큰에 더 강한 주의를 나타내며), 그리고 각 엔티티 토큰과 단어 토큰 사이의 관계 유형 고려입니다. 이는 관계가 존재할 경우 두 토큰 간의 최적화된 주의를 생성합니다. 이 패턴은 특수 상대 위치 라벨(relative position labels)과 결합되어 LUKE의 엔티티 인지 자기-주의 메커니즘(entity-aware self-attention mechanism)과 통합될 수 있도록 설계되었습니다. 실험 결과는 본 모델이 두 개의 다른 데이터셋인 ReCoRD (상식 추론 강조)와 WikiHop (다단계 추론 과제 집중)에서 최신 LUKE-Graph 모델과 베이스라인 LUKE 모델 모두를 능가한다는 것을 입증하였습니다.