15일 전

이미지-텍스트 매칭을 위한 심층 크로스 모달 프로젝션 학습

{Huchuan Lu, Ying Zhang}
이미지-텍스트 매칭을 위한 심층 크로스 모달 프로젝션 학습
초록

이미지-텍스트 매칭의 핵심은 시각적 입력과 텍스트 입력 간의 유사도를 정확히 측정하는 방법에 있다. 깊이 있는 다중모달 임베딩과 양방향 순위 손실을 결합한 기술은 큰 진전을 이뤘지만, 실질적인 응용에서 유용한 트리플릿을 탐색하는 전략 개발과 적절한 마진을 선택하는 것은 여전히 도전 과제로 남아 있다. 본 논문에서는 구분 능력 있는 이미지-텍스트 임베딩을 학습하기 위해 다중모달 투영 매칭(CMPM) 손실과 다중모달 투영 분류(CMPC) 손실을 제안한다. CMPM 손실은 미니배치 내 모든 긍정 샘플과 부정 샘플을 기반으로 정의된 정규화된 매칭 분포와 투영 적합성 분포 사이의 KL 발산을 최소화한다. CMPC 손실은 개선된 노름-소프트맥스 손실을 활용하여 한 모달리티의 표현 벡터를 다른 모달리티로 투영하는 과정을 분류함으로써 각 클래스의 특징 밀도를 더욱 향상시키려는 시도를 한다. 다양한 데이터셋에서 수행한 광범위한 분석과 실험을 통해 제안된 방법의 우수성을 입증하였다.

이미지-텍스트 매칭을 위한 심층 크로스 모달 프로젝션 학습 | 최신 연구 논문 | HyperAI초신경