2달 전
RpBERT: 텍스트-이미지 관계 전파 기반의 BERT 모델을 이용한 다중모달 NER
Lin Sun; Jiquan Wang; Kai Zhang; Yindu Su; Fangsheng Weng

초록
최근 다중 모드 명명된 개체 인식(MNER)은 트윗에서 NER의 정확도를 향상시키기 위해 이미지를 활용하고 있습니다. 그러나 대부분의 다중 모드 방법들은 텍스트와 이미지가 관련이 있는지 여부에 상관없이 주의 메커니즘을 사용하여 시각적 단서를 추출합니다. 실제로, 트윗에서 관련성이 없는 텍스트-이미지 쌍들이 큰 비율을 차지하고 있습니다. 텍스트와 관련이 없는 시각적 단서는 다중 모드 모델 학습에 불확실하거나 심지어 부정적인 영향을 미칠 수 있습니다. 본 논문에서는 다중 모드 BERT 모델에 텍스트-이미지 관계 전파 방법을 도입합니다. 우리는 소프트 또는 하드 게이트를 통합하여 시각적 단서를 선택하고, MNER 데이터셋에서 학습할 수 있는 다중 작업 알고리즘을 제안합니다. 실험에서는 텍스트-이미지 관계 전파 기법 적용 전후의 시각적 주의 변화를 깊이 분석하였습니다. 우리의 모델은 MNER 데이터셋에서 최고 수준의 성능을 달성하였습니다.