
초록
본 논문에서는 문장 쌍 모델링을 위한 여러 신경망 설계(그 변형들 포함)를 분석하고, 패러프레이즈 식별, 의미적 텍스트 유사성, 자연어 추론, 그리고 질문 응답 작업을 포함하는 여덟 개의 데이터셋에서 성능을 광범위하게 비교합니다. 이들 모델 대부분이 최신 성능을 주장하고 있지만, 원래 논문들은 종종 한두 개의 선택된 데이터셋에 대해서만 보고되었습니다. 우리는 체계적인 연구를 제공하여 (i) LSTM을 통해 맥락 정보를 인코딩하고 문장 간 상호작용을 고려하는 것이 중요하다는 점, (ii) Tree-LSTM이 이전에 주장한 만큼 도움이 되지 않지만 놀랍게도 트위터 데이터셋에서 성능이 향상된다는 점, (iii) 대규모 데이터셋에 있어서 Enhanced Sequential Inference Model(강화 순차 추론 모델)이 현재까지 가장 우수하며, 데이터가 적은 경우에는 Pairwise Word Interaction Model(대응 단어 상호작용 모델)이 가장 좋은 성능을 보인다는 점을 보여줍니다. 또한 우리의 구현물을 오픈 소스 도구로 공개합니다.