2달 전

이미지 캡셔닝 및 시각적 질문 응답을 위한 하향식 및 상향식 주의력

Peter Anderson; Xiaodong He; Chris Buehler; Damien Teney; Mark Johnson; Stephen Gould; Lei Zhang
이미지 캡셔닝 및 시각적 질문 응답을 위한 하향식 및 상향식 주의력
초록

상향식(Bottom-up) 시각 주의 메커니즘과 하향식(Top-down) 시각 주의 메커니즘이 이미지 캡셔닝 및 시각적 질문 응답(VQA)에서 광범위하게 사용되어 세부 분석을 통해 심층적인 이미지 이해를 가능하게 하고, 심지어 여러 단계의 추론까지도 가능하게 합니다. 본 연구에서는 객체와 다른 눈에 띄는 이미지 영역 수준에서 주의를 계산할 수 있는 상향식과 하향식 주의 메커니즘을 결합한 새로운 접근법을 제안합니다. 이는 주의를 고려하는 자연스러운 기반이 됩니다. 제안된 접근법 내에서 상향식 메커니즘(Faster R-CNN 기반)은 각각 특징 벡터가 연결된 이미지 영역을 제안하며, 하향식 메커니즘은 이러한 특징들의 가중치를 결정합니다. 이 접근법을 이미지 캡셔닝에 적용한 결과, MSCOCO 테스트 서버에서 CIDEr / SPICE / BLEU-4 점수가 각각 117.9, 21.5, 36.9로 새로운 최고 성능(SOTA)을 달성하였습니다. 또한 이 방법의 폭넓은 적용 가능성을 보여주기 위해 동일한 접근법을 VQA에 적용하였으며, 2017 VQA 챌린지에서 1등을 차지하였습니다.

이미지 캡셔닝 및 시각적 질문 응답을 위한 하향식 및 상향식 주의력 | 최신 연구 논문 | HyperAI초신경