2달 전

스택된 주의 네트워크를 이용한 이미지 질문 응답

Zichao Yang; Xiaodong He; Jianfeng Gao; Li Deng; Alex Smola
스택된 주의 네트워크를 이용한 이미지 질문 응답
초록

본 논문은 이미지에서 자연어 질문에 답하기 위해 스택된 주의 네트워크(Stacked Attention Networks, SANs)를 제시합니다. SANs는 질문의 의미 표현을 쿼리로 사용하여 이미지 내에서 답변과 관련된 영역을 검색합니다. 우리는 이미지 질문 응답(Question Answering, QA)이 종종 여러 단계의 추론을 필요로 한다고 주장합니다. 따라서, 답변을 점진적으로 유추하기 위해 이미지를 여러 번 쿼리하는 다중층 SAN을 개발하였습니다. 네 가지 이미지 QA 데이터 세트에서 수행한 실험 결과, 제안된 SANs가 기존 최신 접근법보다 크게 우수함을 입증하였습니다. 주의층의 시각화는 SAN이 층별로 관련 시각적 단서를 찾아가는 과정을 보여줍니다.