15일 전

NAPReg: 명사의 대체 정규화를 통한 의미 인지형 다중모달 임베딩

{Venu Govindaraju, Srirangaraj Setlur, Naji Mohamed Ali, Deen Dayal Mohan, Bhavin Jawade}
NAPReg: 명사의 대체 정규화를 통한 의미 인지형 다중모달 임베딩
초록

크로스모달 검색은 다양한 실용적 응용 분야를 가진 핵심 비전-언어 작업이다. 텍스트에서 이미지로의 매칭은 크로스모달 검색의 가장 일반적인 형태로, 대규모 이미지 데이터베이스와 텍스트 쿼리가 주어졌을 때 관련성이 높은 이미지 집합을 검색하는 것을 목표로 한다. 기존 방법들은 이중 인코더( dual encoder )와 주의 메커니즘(attention mechanism), 그리고 순위 손실(ranking loss)을 활용하여 코사인 유사도 기반 검색에 사용할 수 있는 임베딩을 학습한다. 이러한 방법들은 맞춤형 주의 메커니즘을 통해 시각적 영역과 텍스트 단어 간의 의미적 정렬을 시도하지만, 학습 목표에서 이러한 정렬을 명시적으로 유도하는 지도 신호는 존재하지 않는다. 이를 해결하기 위해 우리는 고수준의 의미적 실체(즉, 명사)를 임베딩 공간에 공유 가능한 학습 가능한 프록시로 투영하는 새로운 정규화 형식인 NAPReg(Noun-based Proxy Regularization)을 제안한다. 본 연구에서는 이러한 형식이 주의 메커니즘이 더 나은 단어-영역 정렬을 학습할 수 있도록 하며, 다른 샘플의 영역 정보를 활용하여 의미 개념에 대한 보다 일반화된 잠재 표현을 구축할 수 있음을 보여준다. MS-COCO, Flickr30k, Flickr8k의 세 가지 벤치마크 데이터셋에서의 실험 결과, 제안한 방법이 텍스트-이미지 및 이미지-텍스트 검색 작업에서 크로스모달 메트릭 학습 분야에서 최고의 성능을 달성함을 입증하였다. 코드: https://github.com/bhavinjawade/NAPReg

NAPReg: 명사의 대체 정규화를 통한 의미 인지형 다중모달 임베딩 | 최신 연구 논문 | HyperAI초신경