2달 전

MUTAN: 시각적 질문 응답을 위한 다중 모드 텐서 융합

Hedi Ben-younes; Rémi Cadene; Matthieu Cord; Nicolas Thome
MUTAN: 시각적 질문 응답을 위한 다중 모드 텐서 융합
초록

이중선형 모델은 시각적 질문 응답(VQA) 작업에서 정보를 혼합하고 통합하는 매력적인 프레임워크를 제공합니다. 이 모델들은 질문의 의미와 이미지 내의 시각적 개념 간의 고차원 연관성을 학습하는 데 도움을 주지만, 차원성 문제로 인해 어려움을 겪습니다. 우리는 MUTAN(다중모드 텐서 기반 투커 분해)을 소개하여 시각적 및 텍스트 표현 간의 이중선형 상호작용을 효율적으로 매개화합니다. 투커 프레임워크 외에도, 상호작용 순위를 명시적으로 제약하기 위해 저순위 행렬 기반 분해를 설계하였습니다. MUTAN을 통해 복잡성을 제어하면서도 해석 가능한 융합 관계를 유지할 수 있습니다. 우리는 MUTAN 모델이 최신 VQA 아키텍처들을 일반화하며, 최고 수준의 결과를 제공함을 보여드립니다.

MUTAN: 시각적 질문 응답을 위한 다중 모드 텐서 융합 | 최신 연구 논문 | HyperAI초신경