
초록
명명된 실체와 그 관계의 공동 추출은 실체 정보와 관계 정보 간의 밀접한 상호작용에서 큰 이점을 얻는다. 따라서 이러한 다중 모달 상호작용을 효과적으로 모델링하는 것이 최종 성능에 결정적인 영향을 미친다. 기존 연구들은 교차 모달 인스턴스 간의 거시적 의미 융합을 위해 단순한 방법, 예를 들어 레이블-특성 연결을 사용해 왔지만, 토큰 공간과 레이블 공간 내에서 미세한 상관관계를 포착하지 못해 상호작용이 부족한 문제가 있었다. 본 논문에서는 공동 실체 및 관계 추출을 위한 깊이 있는 다중 모달 주의망(Deep Cross-Modal Attention Network, CMAN)을 제안한다. 이 네트워크는 토큰-레이블 공간에서 밀집된 상호작용을 충분히 모델링하기 위해 깊이 있게 여러 주의 단위(attention unit)를 반복적으로 구성하였으며, 두 가지 기본 주의 단위를 제안하여 다양한 모달 간의 미세한 상관관계(예: 토큰-토큰, 레이블-토큰)를 명시적으로 포착한다. CoNLL04 데이터셋에서의 실험 결과, 본 모델은 실체 인식에서 90.62%의 F1 점수, 관계 분류에서 72.97%의 F1 점수를 달성하여 최신 기술 수준의 성능을 보였다. ADE 데이터셋에서는 기존 방법들을 초과하여 관계 분류에서 1.9% 이상 높은 F1 점수를 기록하였다. 추가적인 광범위한 분석을 통해 본 방법의 효과성이 더욱 확인되었다.