17일 전

시각 질문 응답을 위한 컴팩트 삼선형 상호작용

Tuong Do, Thanh-Toan Do, Huy Tran, Erman Tjiputra, Quang D. Tran

초록

시각적 질문 응답(VQA)에서는 답변이 질문의 의미와 시각적 콘텐츠와 매우 강한 상관관계를 가진다. 따라서 이미지, 질문, 답변 정보를 선택적으로 활용하기 위해, 이 세 입력 간의 고수준 상호작용을 동시에 학습할 수 있는 새로운 삼선형 상호작용 모델을 제안한다. 또한 상호작용의 복잡성을 극복하기 위해, 다중모달 텐서 기반의 PARALIND 분해를 도입하여 세 입력 간의 삼선형 상호작용을 효율적으로 파라미터화한다. 더불어, 자유형 개방형 VQA에서 처음으로 지식 증류(knowledge distillation) 기법을 적용한다. 이는 계산 비용과 메모리 요구량을 줄이는 데 그치지 않고, 삼선형 상호작용 모델로부터 이선형 상호작용 모델로 지식을 전달하는 데에도 기여한다. TDIUC, VQA-2.0, Visual7W와 같은 기준 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 컴팩트한 삼선형 상호작용 모델이 단일 모델로 세 데이터셋 모두에서 최신 기술 수준(SOTA)의 성능을 달성함을 확인할 수 있었다.