한 달 전

다중 모드 차별 네트워크를 이용한 시각적 질문 생성

Badri N. Patro; Sandeep Kumar; Vinod K. Kurmi; Vinay P. Namboodiri

초록

이미지에서 자연스러운 질문을 생성하는 것은 시각적 및 언어 모달리티를 사용하여 다중모달 표현을 학습해야 하는 의미론적 작업입니다. 이미지는 장소, 캡션, 태그 등 질문 생성에 관련된 여러 시각적 및 언어적 맥락을 가질 수 있습니다. 본 논문에서는 이러한 관련 맥락을 얻기 위해 예시(exemplars)의 사용을 제안합니다. 우리는 다중모달 차분 네트워크(Multimodal Differential Network)를 사용하여 자연스럽고 흥미로운 질문을 생성함으로써 이를 달성합니다. 인간 연구를 통해 검증된 결과, 생성된 질문은 자연스러운 질문과 놀라울 정도로 유사한 것으로 나타났습니다. 또한, 제안된 접근 방식이 기존 최신 벤치마크(BLEU, METEOR, ROUGE, CIDEr)의 정량적 지표에서 크게 개선되는 것을 확인할 수 있었습니다.