2달 전
MUREL: 시각적 질문 응답을 위한 다중 모드 관계 추론
Remi Cadene; Hedi Ben-younes; Matthieu Cord; Nicolas Thome

초록
다중모드 주의 네트워크는 실제 이미지를 포함하는 시각적 질문 응답(VQA) 작업에서 현재 최신 모델입니다. 주의 메커니즘은 질문과 관련된 시각적 내용에 초점을 맞출 수 있지만, 이 간단한 메커니즘이 VQA나 다른 고차 작업에 필요한 복잡한 추론 특성을 모델링하기에는 충분하지 않다고 주장됩니다.본 논문에서는 실제 이미지에서 추론을 수행하도록 엔드투엔드로 학습되는 다중모드 관계망(MuRel)을 제안합니다. 첫 번째 기여는 질문과 이미지 영역 간의 상호작용을 풍부한 벡터 표현으로 나타내고, 영역 간 관계를 쌍별 조합으로 모델링하는 원자적인 추론 기본 단위인 MuRel 셀을 소개하는 것입니다. 두 번째로, 이 셀을 전체 MuRel 네트워크에 통합하여 시각적 및 질문 상호작용을 점진적으로 개선하고, 단순 주의 맵보다 더 세밀한 시각화 방식을 정의할 수 있도록 합니다.우리는 다양한 축소 연구(ablation studies)를 통해 우리의 접근법의 적절성을 검증하였으며, VQA 2.0, VQA-CP v2 및 TDIUC 세 데이터셋에서 주의 기반 방법보다 우수함을 보였습니다. 우리의 최종 MuRel 네트워크는 이 도전적인 환경에서 최신 결과와 경쟁하거나 그 이상의 성능을 보입니다.코드는 다음과 같이 제공됩니다: https://github.com/Cadene/murel.bootstrap.pytorch