17일 전
ERNIE-ViL: 장면 그래프를 통한 지식 강화된 시각-언어 표현
Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

초록
우리는 시각-언어의 공동 표현을 학습하기 위해 장면 그래프(semantic graphs)를 통해 얻은 구조화된 지식을 통합하는 지식 강화형 접근법인 ERNIE-ViL을 제안한다. ERNIE-ViL은 시각과 언어 간의 세부적인 의미적 연결(객체, 객체의 속성, 객체 간 관계)을 구축하려는 목표를 가지고 있으며, 이는 시각-언어 다모달 작업에 있어 필수적인 요소이다. 시각적 장면의 장면 그래프를 활용하여, 사전 훈련 단계에서 장면 그래프의 노드를 예측하는 작업, 즉 객체 예측(Object Prediction), 속성 예측(Attribute Prediction), 관계 예측(Relationship Prediction) 작업을 구성한다. 구체적으로 이 예측 작업들은 문장에서 파싱된 장면 그래프 내의 서로 다른 유형의 노드를 예측함으로써 구현된다. 이를 통해 ERNIE-ViL은 시각과 언어 간의 세부적인 의미 정렬을 특징짓는 공동 표현을 학습할 수 있다. 대규모 이미지-텍스트 쌍 데이터셋에서 사전 훈련을 거친 후, ERNIE-ViL의 효과성을 5개의 다모달 후속 작업에서 검증하였다. ERNIE-ViL은 모든 작업에서 최상의 성능을 기록하였으며, VCR 리더보드에서 절대적 개선율 3.7%를 기록하며 1위를 달성하였다.