질문은 정확히 무엇을 묻는가? MFAE: 다중 융합 질문 강조를 통한 중복 질문 식별
중복 질문 식별(Duplicate Question Identification, DQI)은 대규모 커뮤니티 기반 질문-답변 시스템 및 자동 질문-답변 시스템의 처리 효율성과 정확도를 향상시키는 데 기여한다. DQI 작업의 목적은 쌍으로 주어진 두 질문이 의미적으로 동치인지 여부를 판단하는 것이다. 그러나 쌍으로 주어진 질문 내에서 동의어 또는 동음이의어를 구분하는 것은 여전히 도전적인 과제이다. 기존 대부분의 연구는 단어 수준 또는 구문 수준의 의미 차이에 주목해왔다. 본 연구에서는 질문의 '질문 강조점(asking emphasis)'을 DQI에서 핵심 요소로 탐색하는 최초의 접근을 제안한다. 질문 강조점은 두 질문 간의 의미적 동치성을 연결하는 다리 역할을 한다. 본 논문에서는 다중 융합 질문 강조(Multi-fusion Asking Emphasis, MFAE)를 갖춘 주의(attention) 모델을 제안한다. 먼저, BERT를 활용하여 동적 사전 훈련된 단어 임베딩을 얻는다. 이후, 상호 주의(inter-attention)와 자기 주의(self-attention)를 각각 합산함으로써 상호 및 내부 질문 강조점을 추출한다. 이 아이디어의 핵심은, 단어가 다른 단어들과 더 많은 상호작용을 할수록 그 단어가 더 중요하다는 점에 있다. 마지막으로, 8가지 조합 방식을 활용하여 다중 융합 질문 강조점과 다중 융합 단어 표현을 생성한다. 실험 결과, 제안 모델은 Quora Question Pairs 및 CQADupStack 데이터셋에서 모두 최신 기준(SOTA) 성능을 달성함을 입증하였다. 또한, 본 모델은 SNLI 및 MultiNLI 데이터셋에서 자연어 추론(Natural Language Inference) 작업의 성능 향상에도 기여함을 확인하였다. 코드는 다음 URL에서 공개되어 있다: https://github.com/rzhangpku/MFAE.