2달 전
다중 모드 검색을 이용한 명명된 개체 및 관계 추출
Xinyu Wang; Jiong Cai; Yong Jiang; Pengjun Xie; Kewei Tu; Wei Lu

초록
다중 모드 명명된 개체 인식(NER) 및 관계 추출(RE)은 관련 이미지 정보를 활용하여 NER 및 RE의 성능을 향상시키는 것을 목표로 합니다. 기존의 대부분 연구는 이미지에서 잠재적으로 유용한 정보(예: 픽셀 수준 특성, 식별된 객체, 연결된 캡션)를 직접 추출하는 데 중점을 두었습니다. 그러나 이러한 추출 과정은 지식 인식이 부족할 수 있어, 결과적으로 매우 관련성이 높지 않은 정보가 생성될 가능성이 있습니다. 본 논문에서는 새로운 다중 모드 검색 기반 프레임워크(MoRe)를 제안합니다. MoRe는 텍스트 검색 모듈과 이미지 기반 검색 모듈을 포함하며, 각각 입력 텍스트와 이미지에 대한 관련 지식을 지식 코퍼스에서 검색합니다. 다음으로, 검색 결과는 각각 텍스트 모델과 시각적 모델에 전달되어 예측을 수행합니다. 마지막으로, 전문가 혼합(Mixture of Experts, MoE) 모듈은 두 모델의 예측 결과를 결합하여 최종 결정을 내립니다. 실험 결과, 우리의 텍스트 모델과 시각적 모델은 네 개의 다중 모드 NER 데이터셋과 하나의 다중 모드 RE 데이터셋에서 최신 수준의 성능을 달성하였습니다. MoE를 통해 모델 성능이 더욱 향상되었으며, 분석 결과는 이러한 작업에 있어 텍스트와 시각적 신호를 통합하는 것이 가지는 이점을 입증하고 있습니다.