
초록
시각적 질문 및 답변(VQA) 문제는 여러 연구 분야에서 점차 더 많은 관심을 받고 있습니다. VQA 문제를 해결하기 위해서는 제시된 이미지나 비디오의 시각적 내용을 이해하는 컴퓨터 비전 기술과 질문의 의미를 이해하고 답변을 생성하는 자연어 처리 기술이 필요합니다. 시각적 내용 모델링에 관해서는 대부분의 기존 VQA 방법들이 이미지나 비디오에서 전역 특징을 추출하는 전략을 채택하고 있어, 여러 객체의 공간 구성 등 세부 정보를 포착하는 데 실패할 수밖에 없습니다. 일부 지역 기반 이미지 인식 방법들이 자동 생성된 영역에서 특징을 추출하지만, 이는 본질적으로 이 문제를 해결하지 못하며 질문과 관련 없는 과도한 특징을 도입할 수 있습니다. 본 연구에서는 이러한 문제를 개선하기 위해 새로운 주목력 동적 주의(Focused Dynamic Attention, FDA) 모델을 제안합니다. FDA는 질문의 핵심 단어를 인식하여 상용 객체 검출기를 활용해 중요한 영역을 식별하고, LSTM 유닛을 통해 해당 영역과 전역 특징의 정보를 융합합니다. 이렇게 생성된 질문 주도적인 표현은 질문 표현과 결합되어 답변 생성을 위한 추론 유닛으로 입력됩니다. 대규모 벤치마크 데이터셋인 VQA에서 수행한 광범위한 평가는 FDA가 잘 알려진 기준 모델들보다 우수한 성능을 보임을 명확히 입증하였습니다.