Logiformer: 해석 가능한 논리적 추론을 위한 이중 브랜치 그래프 트랜스포머 네트워크

기계 독해 이해는 모델의 텍스트 이해 잠재력을 탐구하기 때문에 널리 주목받고 있다. 기계에 추론 능력을 더하기 위해, 도전적인 논리 추론 작업이 제안되었다. 기존의 논리 추론 연구들은 다양한 측면에서 논리 단위를 추출하기 위한 전략들을 제안해 왔다. 그러나 논리 단위 간의 장거리 종속성 모델링은 여전히 해결되지 않은 과제이다. 또한 텍스트의 논리 구조를 밝혀내고, 이산적인 논리 정보를 연속적인 텍스트 임베딩에 융합하는 것은 매우 요구되는 과제이다. 이러한 문제들을 해결하기 위해, 본 연구에서는 텍스트의 논리 추론을 위한 양분 그래프 트랜스포머 네트워크를 활용하는 엔드투엔드 모델인 Logiformer을 제안한다. 먼저, 텍스트를 두 가지 다른 논리 단위 집합으로 분할하기 위해 다양한 추출 전략을 도입하고, 각각 논리 그래프와 구문 그래프를 구축한다. 논리 그래프는 논리 분지에서 인과 관계를 모델링하고, 구문 그래프는 구문 분지에서 동시 발생 관계를 포착한다. 둘째, 장거리 종속성을 모델링하기 위해 각 그래프의 노드 시퀀스를 완전 연결 그래프 트랜스포머 구조에 입력한다. 두 개의 인접 행렬은 그래프 트랜스포머 계층의 어텐션 편향으로 간주되며, 이는 이산적인 논리 구조를 연속적인 텍스트 임베딩 공간으로 매핑하는 역할을 한다. 셋째, 답변 예측 전에 동적 게이트 메커니즘과 질문 인식 자기 어텐션 모듈을 도입하여 특징을 업데이트한다. 추론 과정은 인간 인지와 일치하는 논리 단위를 활용함으로써 해석 가능성(해석가능성)을 제공한다. 실험 결과는 제안된 모델의 우수성을 입증하며, 두 개의 논리 추론 벤치마크에서 최신 기술(SOTA) 단일 모델을 모두 상회함을 보였다.