
초록
본 논문은 시각적 질문 응답(VQA)을 장면 내용과 질문의 구조화된 표현을 통해 개선하는 방법을 제안합니다. VQA에서 핵심적인 도전 과제는 시각적 영역과 텍스트 영역 간의 병합 추론이 필요하다는 점입니다. 현재 주류인 CNN/LSTM 기반 VQA 접근 방식은 장면과 질문 형태의 구조를 대부분 무시하는 단일 벡터 표현으로 인해 제한됩니다. CNN 특징 벡터는 여러 객체 인스턴스와 같은 간단한 상황조차 효과적으로 포착하지 못하며, LSTM은 질문을 단어 시퀀스로 처리하여 언어 구조의 진정한 복잡성을 반영하지 않습니다. 대신 우리는 장면 객체와 질문 단어 사이에 그래프를 구축하고, 이러한 표현의 구조를 활용하는 딥 뉴럴 네트워크를 설명합니다. 이 방법은 LSTM의 순차적 처리보다 상당한 이점을 보여줍니다. 우리의 접근 방식의 전반적인 효율성은 "추상적 장면" 다중 선택 벤치마크에서 정확도가 71.2%에서 74.4%로, 그리고 "균형 잡힌" 장면 쌍(즉, 세밀한 차이점과 동일한 질문에 대해 반대되는 yes/no 답변을 가진 이미지)에서 정확도가 34.7%에서 39.1%로 크게 향상됨으로써 입증되었습니다.