15일 전
VLCDoC: 다중 모달 문서 분류를 위한 시각-언어 대조 사전 학습 모델
Souhail Bakkali, Zuheng Ming, Mickael Coustaty, Marçal Rusiñol, Oriol Ramos Terrades

초록
최근 문서 데이터로부터 다중모달 학습이 큰 성공을 거두고 있으며, 이는 의미론적으로 유의미한 특징을 사전 학습하여 학습 가능한 하류 작업에 사전 지식으로 활용할 수 있도록 해주기 때문이다. 본 논문에서는 언어와 시각적 신호를 통해 다중모달 표현을 학습하고, 모달 내 및 모달 간 관계를 고려함으로써 문서 분류 문제에 접근한다. 서로 다른 모달의 특징을 단일 표현 공간에 병합하는 대신, 제안하는 방법은 고차원적 상호작용을 활용하여 모달 내 및 모달 간의 효과적인 주의 흐름에서 관련 의미 정보를 학습한다. 제안하는 학습 목적은 모달 내 및 모달 간 정렬 작업 사이에 설계되며, 각 작업에 대해 긍정 샘플 쌍은 수축시키고 동시에 부정 샘플은 함께 표현 공간에서 대조함으로써 유사도 분포를 계산한다. 공개 문서 분류 데이터셋에 대한 광범위한 실험을 통해 제안 모델이 저규모 및 대규모 데이터셋 모두에서 효과적이고 일반화 능력이 뛰어남을 입증하였다.