자기 설명 구조는 NLP 모델 성능을 향상시킨다

자연어처리(NLP) 분야에서 딥러닝 모델을 설명하기 위한 기존 접근법은 일반적으로 두 가지 주요한 한계를 가지고 있다. 첫째, 주요 모델과 설명 모델이 분리되어 있다. 즉, 기존 모델의 해석을 위해 별도의 탐사(probing) 모델이나 대체(surrogate) 모델을 사용하기 때문에 기존의 설명 도구는 자기 설명(self-explainable)이 불가능하다. 둘째, 탐사 모델은 개별 단어의 중요도를 계산하는 샐런시(saliency) 점수를 기반으로 저수준 특징 위에서만 설명이 가능하며, 구문, 문장, 단락과 같은 고수준 텍스트 단위에 대해서는 설명이 부자연스럽고 비효율적이다. 이러한 두 가지 문제를 해결하기 위해 본 논문에서는 자연어처리 분야의 딥러닝 모델을 위한 간단하면서도 일반적이고 효과적인 자기 설명 프레임워크를 제안한다. 제안하는 프레임워크의 핵심은 기존의 어떤 NLP 모델 위에 추가적인 레이어, 즉 '해석 레이어(interpretation layer)'를 배치하는 것이다. 이 레이어는 각 텍스트 스팬(text span)에 대한 정보를 요약하고, 각 스팬에 특정한 가중치를 부여한 후, 가중된 조합을 최종 예측을 위해 소프트맥스(softmax) 함수에 입력한다. 제안된 모델은 다음과 같은 장점을 갖는다. (1) 스팬별 가중치를 통해 모델은 자기 설명이 가능하며, 해석을 위해 별도의 탐사 모델이 필요하지 않다. (2) 제안된 모델은 일반적이며, 기존의 어떤 딥러닝 구조에도 쉽게 적용 가능하다. (3) 각 텍스트 스팬에 부여된 가중치는 구문, 문장과 같은 고수준 텍스트 단위에 대한 직접적인 중요도 점수를 제공한다. 본 연구에서는 해석 가능성과 성능 간의 트레이드오프가 존재하지 않음을 처음으로 입증한다. 자기 설명 기능을 갖춘 신경망 모델은 자기 설명 기능이 없는 동일한 모델보다 더 높은 성능을 달성하였으며, SST-5에서 59.1의 새로운 최고 성능(SOTA), SNLI에서는 92.3의 새로운 최고 성능(SOTA)을 기록하였다.