2달 전
질문 안내 하이브리드 컨볼루션을 이용한 시각적 질문 응답
Peng Gao; Pan Lu; Hongsheng Li; Shuang Li; Yikang Li; Steven Hoi; Xiaogang Wang

초록
본 논문에서는 시각적 질문 응답(VQA)을 위한 새로운 질문 안내형 하이브리드 컨볼루션(QGHC) 네트워크를 제안합니다. 대부분의 최신 VQA 방법들은 신경망에서 추출한 고차원 텍스트 및 시각적 특성을 융합하지만, 다중 모달 특성을 학습할 때 시각적 공간 정보를 포기하는 경향이 있습니다. 이러한 문제들을 해결하기 위해, 입력 질문으로부터 생성된 질문 안내형 커널들이 시각적 특성과 컨볼루션을 수행하여 초기 단계에서 텍스트와 시각적 관계를 포착하도록 설계되었습니다. 질문 안내형 컨볼루션은 텍스트와 시각적 정보를 밀접하게 결합할 수 있지만, 커널을 학습할 때 더 많은 매개변수를 도입할 수도 있습니다. 이에 우리는 그룹 컨볼루션(질문 독립적인 커널과 질문 종속적인 커널로 구성됨)을 적용하여 매개변수 크기를 줄이고 과적합을 완화하였습니다. 하이브리드 컨볼루션은 적은 매개변수로 차별화된 다중 모달 특성을 생성할 수 있습니다. 제안된 접근법은 기존의 이차원 풀링 융합 및 주의 기반 VQA 방법들과 보완적이며, 이를 통합하면 성능을 더욱 향상시킬 수 있습니다. 공개 VQA 데이터셋에 대한 광범위한 실험 결과는 QGHC의 효과성을 검증하였습니다.