2달 전
Bilinear Graph Networks for Visual Question Answering 비선형 그래프 네트워크를 이용한 시각적 질문 응답
Dalu Guo; Chang Xu; Dacheng Tao

초록
본 논문은 시각적 질문 응답 작업에서 그래프 관점으로 양선형 주의 네트워크를 재검토합니다. 기존의 양선형 주의 네트워크는 질문 내 단어와 이미지 내 객체의 결합 표현을 추출하기 위해 양선형 주의 맵을 구축하지만, 복잡한 추론을 위한 단어 간 관계를 충분히 탐색하지 못한다는 한계가 있습니다. 이에 대비하여, 우리는 단어와 객체의 결합 임베딩 컨텍스트를 모델링하기 위해 양선형 그래프 네트워크를 개발하였습니다. 두 가지 유형의 그래프, 즉 이미지-그래프와 질문-그래프를 조사하였습니다. 이미지-그래프는 감지된 객체들의 특징을 관련 쿼리 단어로 전달하여 출력 노드들이 의미적 정보와 사실적 정보를 모두 갖도록 합니다. 질문-그래프는 이미지-그래프에서 생성된 출력 노드들 사이에서 정보를 교환하여 객체들 간에 암시적이지만 중요한 관계를 강화합니다. 이 두 가지 유형의 그래프는 서로 협력하여, 우리의 최종 모델은 객체들 간의 관계와 의존성을 모델링할 수 있으며, 이를 통해 다단계 추론이 가능해집니다. VQA v2.0 검증 데이터셋에서 수행한 실험 결과는 우리 방법이 복잡한 질문을 처리하는 능력을 입증하였습니다. 테스트 표준 세트에서는 우리의 최고 단일 모델이 최신 성능을 달성하여 전체 정확도를 72.41%까지 끌어올렸습니다.