2달 전
블록: 시각적 질문 응답 및 시각적 관계 검출을 위한 이중선형 초대각 융합
Hedi Ben-younes; Rémi Cadene; Nicolas Thome; Matthieu Cord

초록
다중 모드 표현 학습은 딥 러닝 커뮤니티에서 점점 더 많은 관심을 받고 있습니다. 이항 모델은 모드 간의 미묘한 조합을 찾는 흥미로운 프레임워크를 제공하지만, 입력 차원에 따라 매개변수의 수가 2차적으로 증가하여 전통적인 딥 러닝 파이프라인 내에서의 실제 구현이 어려워집니다. 본 논문에서는 블록-슈퍼대각선 텐서 분해를 기반으로 하는 새로운 다중 모드 융합 방법인 BLOCK을 소개합니다. 이 방법은 이미 다중 모드 융합에 사용되었던 텐서의 순위와 모드 순위 개념을 일반화하는 블록 항 순위(BLOCK-term ranks) 개념을 활용합니다. 이를 통해 융합 모델의 표현력과 복잡성 사이의 균형을 최적화하는 새로운 방식을 정의할 수 있으며, 매우 세부적인 모드 간 상호작용을 표현하면서도 강력한 단일 모드 표현을 유지할 수 있습니다. 우리는 BLOCK을 두 가지 도전적인 작업인 시각적 질문 응답(VQA) 및 시각적 관계 검출(VRD)에 적용하여, 이들 작업 간의 관련 상호작용을 표현하기 위한 엔드투엔드 학습 가능한 아키텍처를 설계함으로써 우리 융합 모델의 실용성을 입증합니다. 광범위한 실험을 통해 BLOCK이 VQA와 VRD 작업 모두에서 최신 다중 모드 융합 모델들과 비교하여 우수한 성능을 보임을 확인하였습니다. 우리의 코드는 https://github.com/Cadene/block.bootstrap.pytorch 에서 이용 가능합니다.