2달 전

ITA: 이미지-텍스트 정렬을 이용한 다중 모달 네임드 엔티티 인식

Xinyu Wang; Min Gui; Yong Jiang; Zixia Jia; Nguyen Bach; Tao Wang; Zhongqiang Huang; Fei Huang; Kewei Tu
ITA: 이미지-텍스트 정렬을 이용한 다중 모달 네임드 엔티티 인식
초록

최근, 다중 모드 명명된 개체 인식(MNER)이 많은 주목을 받고 있습니다. 대부분의 연구는 사전 훈련된 객체 검출기에서 얻은 지역 수준의 시각적 표현을 통해 이미지 정보를 활용하고, 이미지와 텍스트 표현 간의 상호작용을 모델링하기 위해 주의 메커니즘(attention mechanism)에 의존합니다. 그러나, 이미지와 텍스트 표현은 각각의 모달리티 데이터에서 별도로 훈련되기 때문에 같은 공간에서 정렬되지 않아 이러한 상호작용을 모델링하는 것이 어렵습니다. 텍스트 표현이 MNER에서 가장 중요한 역할을 하므로, 본 논문에서는 이미지 특성을 텍스트 공간으로 정렬하여 트랜스포머 기반 사전 훈련된 텍스트 임베딩에서 주의 메커니즘이 더 잘 활용될 수 있도록 {\bf I}mage-{\bf t}ext {\bf A}lignments (ITA)를 제안합니다.ITA는 먼저 이미지를 지역 객체 태그, 이미지 수준의 캡션 및 광학 문자(Optical Characters)로 시각적 맥락으로 정렬한 후, 이를 입력 텍스트와 연결하여 새로운 크로스모달 입력을 생성합니다. 그런 다음 이 입력을 사전 훈련된 텍스트 임베딩 모델에 전달합니다. 이렇게 하면 두 모달리티가 모두 텍스트 공간에서 표현되기 때문에 사전 훈련된 텍스트 임베딩 모델의 주의 모듈이 두 모달리티 간의 상호작용을 모델링하는 것이 더 쉬워집니다. ITA는 또한 크로스모달 입력과 텍스트 입력 뷰에서 예측된 출력 분포를 추가로 정렬하여 MNER 모델이 단일 텍스트 입력만 있는 경우에도 더 실용적으로 대응하고, 이미지로부터 발생하는 노이즈에 대해 강건(robusness)해질 수 있도록 합니다.실험 결과, ITA 모델들은 이미지 정보 없이도 다중 모드 명명된 개체 인식 데이터셋에서 최신 기술(state-of-the-art) 수준의 정확도를 달성할 수 있음을 보였습니다.

ITA: 이미지-텍스트 정렬을 이용한 다중 모달 네임드 엔티티 인식 | 최신 연구 논문 | HyperAI초신경