17일 전

시각 질문 응답을 위한 컴팩트 삼선형 상호작용

Tuong Do, Thanh-Toan Do, Huy Tran, Erman Tjiputra, Quang D. Tran
시각 질문 응답을 위한 컴팩트 삼선형 상호작용
초록

시각적 질문 응답(VQA)에서는 답변이 질문의 의미와 시각적 콘텐츠와 매우 강한 상관관계를 가진다. 따라서 이미지, 질문, 답변 정보를 선택적으로 활용하기 위해, 이 세 입력 간의 고수준 상호작용을 동시에 학습할 수 있는 새로운 삼선형 상호작용 모델을 제안한다. 또한 상호작용의 복잡성을 극복하기 위해, 다중모달 텐서 기반의 PARALIND 분해를 도입하여 세 입력 간의 삼선형 상호작용을 효율적으로 파라미터화한다. 더불어, 자유형 개방형 VQA에서 처음으로 지식 증류(knowledge distillation) 기법을 적용한다. 이는 계산 비용과 메모리 요구량을 줄이는 데 그치지 않고, 삼선형 상호작용 모델로부터 이선형 상호작용 모델로 지식을 전달하는 데에도 기여한다. TDIUC, VQA-2.0, Visual7W와 같은 기준 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 컴팩트한 삼선형 상호작용 모델이 단일 모델로 세 데이터셋 모두에서 최신 기술 수준(SOTA)의 성능을 달성함을 확인할 수 있었다.

시각 질문 응답을 위한 컴팩트 삼선형 상호작용 | 최신 연구 논문 | HyperAI초신경