2달 전

R-VQA: 시맨틱 어텐션을 활용한 시각적 관계 사실 학습을 위한 시각 질문 응답

Pan Lu; Lei Ji; Wei Zhang; Nan Duan; Ming Zhou; Jianyong Wang
R-VQA: 시맨틱 어텐션을 활용한 시각적 관계 사실 학습을 위한 시각 질문 응답
초록

최근 시각적 질문 응답(VQA)은 시각적 및 텍스트 모달리티를 모두 이해해야 하기 때문에 다중모달 학습에서 가장 중요한 작업 중 하나로 부상하고 있습니다. 기존 방법들은 주로 이미지와 질문의 특징을 추출하여 다중모달 융합 또는 주의 메커니즘을 통해 그들의 결합된 특징 임베딩을 학습하는 데 의존합니다. 최근 일부 연구에서는 이미지 내 후보 엔티티나 속성을 감지하기 위해 VQA와 독립적인 외부 모델을 활용하는데, 이는 VQA 작업에 보완적인 의미 지식으로 작용합니다. 그러나 이러한 후보 엔티티나 속성은 VQA 작업과 관련이 없거나 의미 용량이 제한될 수 있습니다. 이미지 내 의미 지식을 더 효과적으로 활용하기 위해, 우리는 VQA를 위한 시각적 관계 사실을 학습하는 새로운 프레임워크를 제안합니다. 구체적으로, Visual Genome 데이터셋을 기반으로 의미 유사성 모듈을 통해 Relation-VQA (R-VQA) 데이터셋을 구성하였습니다. 각 데이터는 이미지, 해당 질문, 올바른 답변 및 지원 관계 사실로 구성됩니다. 정확하게 정의된 관계 검출기를 사용하여 시각적 질문과 관련된 관계 사실을 예측합니다. 또한, 시각적 주의와 의미 주의를 순차적으로 구성한 다단계 주의 모델을 제안하여 관련 시각적 지식과 의미 지식을 추출합니다. 우리는 두 개의 벤치마크 데이터셋에서 포괄적인 실험을 수행하였으며, 우리의 모델이 최신 성능을 달성하며 시각적 관계 사실 고려의 이점을 확인하였습니다.

R-VQA: 시맨틱 어텐션을 활용한 시각적 관계 사실 학습을 위한 시각 질문 응답 | 최신 연구 논문 | HyperAI초신경