
트랜스포머 모델이 기계 독해 이해 작업에서 상당한 진전을 이루었음에도 불구하고, 입력 시퀀스에 명시적인 지식이 부족하여 복잡한 추론 작업을 처리하는 데 여전히 한계가 있습니다. 이러한 제한을 해결하기 위해 최근 많은 연구에서는 외부 지식을 모델에 주입하는 방법을 제안하였습니다. 그러나 관련 외부 지식의 선택, 그 가용성 보장, 그리고 추가적인 처리 단계가 여전히 어려움으로 남아 있습니다. 본 논문에서는 외부 지식에 의존하지 않고 이질 그래프에서 유도된 추론 지식을 트랜스포머 아키텍처에 통합하는 새로운 주의 패턴을 소개합니다. 제안된 주의 패턴은 세 가지 핵심 요소로 구성됩니다: 글로벌-로컬 주의(attention)를 위한 단어 토큰(word tokens), 그래프 주의를 위한 엔티티 토큰(entity tokens) (그래프에서 연결된 토큰보다 연결되지 않은 토큰에 더 강한 주의를 나타내며), 그리고 각 엔티티 토큰과 단어 토큰 사이의 관계 유형 고려입니다. 이는 관계가 존재할 경우 두 토큰 간의 최적화된 주의를 생성합니다. 이 패턴은 특수 상대 위치 라벨(relative position labels)과 결합되어 LUKE의 엔티티 인지 자기-주의 메커니즘(entity-aware self-attention mechanism)과 통합될 수 있도록 설계되었습니다. 실험 결과는 본 모델이 두 개의 다른 데이터셋인 ReCoRD (상식 추론 강조)와 WikiHop (다단계 추론 과제 집중)에서 최신 LUKE-Graph 모델과 베이스라인 LUKE 모델 모두를 능가한다는 것을 입증하였습니다.