2달 전
속성과 외부 지식을 기반으로 한 이미지 캡셔닝 및 시각적 질문 응답
Qi Wu; Chunhua Shen; Anton van den Hengel; Peng Wang; Anthony Dick

초록
최근 시각-언어 문제에서 많은 진전이 컨볼루션 신경망(CNNs)과 순환 신경망(RNNs)의 조합을 통해 이루어졌습니다. 이 접근 방식은 고차원적인 의미 개념을 명시적으로 표현하지는 않지만, 이미지 특징을 텍스트로 직접 변환하는 것을 목표로 합니다. 본 논문에서는 먼저 성공적인 CNN-RNN 접근 방식에 고차원적 개념을 통합하는 방법을 제안하고, 이를 통해 이미지 캡셔닝과 시각적 질문 응답에서 기존 최고 수준의 성능을 크게 개선할 수 있음을 보여줍니다. 또한, 동일한 메커니즘이 외부 지식을 통합하는 데 사용될 수 있으며, 이는 고차원적인 시각적 질문에 대한 답변이 중요하다는 점을 입증합니다. 구체적으로, 우리는 이미지 내용의 내부 표현과 일반 지식 기반에서 추출된 정보를 결합하여 다양한 이미지 기반 질문에 답할 수 있는 시각적 질문 응답 모델을 설계하였습니다. 특히 이 모델은 이미지 자체가 완전한 답변을 포함하지 않더라도 그 내용에 대해 질문할 수 있게 해줍니다. 우리의 최종 모델은 여러 벤치마크 데이터셋에서 이미지 캡셔닝과 시각적 질문 응답 모두에서 가장 우수한 결과를 보고하였습니다.