2달 전

자연 이미지에서 객체를 세는 법을 배우기 위한 시각적 질문 응답

Yan Zhang; Jonathon Hare; Adam Prügel-Bennett
자연 이미지에서 객체를 세는 법을 배우기 위한 시각적 질문 응답
초록

시각적 질문 응답(VQA) 모델은 지금까지 자연 이미지에서 객체를 세는 데 어려움을 겪어왔습니다. 우리는 이러한 모델에서 부드러운 주의(soft attention)로 인한 근본적인 문제를 원인으로 파악하였습니다. 이 문제를 해결하기 위해, 객체 제안(object proposals)에서 강건한 카운팅을 가능하게 하는 신경망 구성요소를 제안합니다. 장난감 작업에 대한 실험 결과, 이 구성요소의 효과가 입증되었으며, VQA v2 데이터셋의 숫자 범주에서 최신 기술(state-of-the-art) 정확도를 달성하였으며, 다른 범주에 부정적인 영향을 주지 않으면서 심지어 앙상블 모델보다 단일 모델로 더 우수한 성능을 보였습니다. 어려운 균형 쌍 지표에서, 이 구성요소는 강력한 기준모델(baseline) 대비 6.6%의 실질적인 개선을 가져왔습니다.

자연 이미지에서 객체를 세는 법을 배우기 위한 시각적 질문 응답 | 최신 연구 논문 | HyperAI초신경