LLMs를 통한 다리 구축: 지반 다중 모드 명명된 실체 인식의 재구성

지상 다중 모드 명명된 개체 인식(GMNER)은 이미지와 텍스트에서 명명된 개체, 개체 유형 및 해당 시각적 영역을 식별하는 새로운 다중 모드 작업입니다. GMNER 작업은 두 가지 도전적인 특성을 나타냅니다: 1) 소셜 미디어에서 이미지-텍스트 쌍 간의 약한 상관관계로 인해 상당 부분의 명명된 개체가 지상화할 수 없습니다. 2) 유사한 작업(예: 구문 위치 확인, 참조 표현 이해)에서 일반적으로 사용되는 대략적인 참조 표현과 세부적인 명명된 개체 사이에 차이가 존재합니다.본 논문에서는 LLMs(Large Language Models)를 연결 다리로 활용하여 GMNER을 통합 MNER-VE-VG 작업으로 재구성하는 RiVEG(Rewriting into Visual Entailment and Grounding) 프레임워크를 제안합니다. 이 재구성은 두 가지 이점을 가져옵니다: 1) 최적의 MNER 성능을 유지하면서 객체 검출 방법을 사용하여 지역 특징을 사전 추출할 필요성을 제거하여, 기존 GMNER 방법의 두 가지 주요 한계를 자연스럽게 해결합니다. 2) 개체 확장 표현과 시각적 연역(VE, Visual Entailment) 모듈의 도입으로 시각적 지상화(VG, Visual Grounding)와 개체 지상화(EG, Entity Grounding)를 통합합니다. 이를 통해 RiVEG는 현재나 미래의 어떤 다중 모드 사전 학습 모델에서도 시각적 연역과 시각적 지상화 능력을 쉽게 계승할 수 있습니다.다양한 실험 결과는 RiVEG가 기존 GMNER 데이터셋에서 최신 방법들을 능가하며, 모든 세 가지 하위 작업에서 각각 절대적인 우위를 보였음을 입증하였습니다. 이는 10.65%, 6.21%, 그리고 8.83%의 성능 향상을 의미합니다.