2달 전
다중 모드 컴팩트 빌리니어 풀링을 이용한 시각적 질문 응답 및 시각적 근거 찾기
Akira Fukui; Dong Huk Park; Daylen Yang; Anna Rohrbach; Trevor Darrell; Marcus Rohrbach

초록
최근 몇 년 동안, 대규모 언어 또는 시각 데이터셋에서 학습된 벡터 표현을 사용하여 텍스트나 시각 정보를 모델링하는 것이 성공적으로 연구되어 왔습니다. 그러나 시각 질문 응답과 같은 작업은 이러한 벡터 표현들을 서로 결합해야 하는 필요성을 제기합니다. 다중 모달 풀링의 접근 방식에는 요소별 곱셈이나 합산, 그리고 시각적과 텍스트 표현의 연결(concatenation)이 포함됩니다. 우리는 이러한 방법들이 시각적 및 텍스트 벡터의 외적(outer product)만큼 표현력이 뛰어나지 않다고 가정합니다. 외적은 차원이 매우 높아 일반적으로 실현 가능하지 않은 경우가 많으므로, 우리는 대신 다중 모달 컴팩트 빌리니어 풀링(Multimodal Compact Bilinear pooling, MCB)을 활용하여 효율적이면서도 표현력 있게 다중 모달 특징을 결합하는 방법을 제안합니다. 우리는 MCB를 시각 질문 응답과 그라운딩 작업에 대해 광범위하게 평가하였습니다. MCB를 포함하지 않는 변형(ablation)들과 비교하여 MCB의 이점을 일관되게 보여주었습니다. 시각 질문 응답에 대해서는, 공간 특징에 대한 주의를 예측하기 위해 한 번, 그리고 주의가 적용된 표현과 질문 표현을 결합하기 위해 다시 한 번 MCB를 사용하는 아키텍처를 제시합니다. 이 모델은 Visual7W 데이터셋과 VQA 챌린지에서 최신 기술(state-of-the-art)을 능가하는 성능을 보였습니다.