18일 전

시각 질문 응답을 위한 격자 특징의 방어

Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, Xinlei Chen
시각 질문 응답을 위한 격자 특징의 방어
초록

최근 시각-언어 과제, 예를 들어 시각 질문 응답(VQA)에서 '상향식(bottom-up)' 주목(attention)으로 알려진 경계상자(bounding box) 또는 영역(region) 기반 시각적 특징이 기존의 격자(grid)-기반 컨볼루션 특징을 초월하여 사실상의 표준으로 자리 잡았다. 그러나 상향식 주목의 성공이 영역 특징의 장점(예: 더 나은 위치 정확도) 때문인지 여부는 명확하지 않다. 본 논문에서는 VQA를 위해 다시 격자 기반 특징을 탐구하여, 예측 훈련 방식이 유사하게 이루어진다면 정확도는 동일하면서도 속도가 10배 이상 빠르게 작동함을 발견했다. 광범위한 실험을 통해 이 관찰이 다양한 VQA 모델, 데이터셋에 걸쳐 유효함을 확인하였으며, 이미지 캡셔닝 같은 다른 과제에도 잘 일반화됨을 보였다. 특히, 격자 기반 특징은 모델 설계와 훈련 과정을 훨씬 간단하게 만들어, 종단간(end-to-end) 훈련이 가능하며 더 유연한 네트워크 아키텍처를 활용할 수 있도록 한다. 우리는 픽셀에서 직접 답변에 이르는 종단간 VQA 모델을 학습하며, 사전 훈련 단계에서 영역 주석(region annotations)을 전혀 사용하지 않아도 강력한 성능을 달성할 수 있음을 보여준다. 본 연구 결과가 VQA의 과학적 이해와 실용적 응용을 더욱 발전시키는 데 기여하기를 기대한다. 코드와 특징은 공개될 예정이다.