11일 전

검색 전 정렬: 정확한 다중모달 스폰서드 검색을 위한 광고 이미지와 텍스트의 정렬

Yuanmin Tang, Jing Yu, Keke Gai, Yujing Wang, Yue Hu, Gang Xiong, Qi Wu
검색 전 정렬: 정확한 다중모달 스폰서드 검색을 위한 광고 이미지와 텍스트의 정렬
초록

다중 모달 소싱 검색은 사용자가 검색 엔진에서 자연어 질의를 통해 원하는 제품을 찾을 때, 다양한 형태의 광고(다중 모달 광고)를 표시하는 방식이다. 다중 모달 광고는 질의와 광고 간 매칭을 위해 서로 보완적인 정보를 제공하므로, 이미지와 텍스트 내 광고 고유 정보를 정확히 정렬하는 능력은 정확하고 유연한 소싱 검색을 위해 핵심적이다. 기존 연구는 주로 이미지와 텍스트 간의 암묵적 상관관계를 모델링하는 관점에서 질의-광고 매칭을 다루었으며, 구체적인 제품 정보의 정렬을 간과함으로써 최적의 검색 성능을 달성하지 못하고 있었다. 본 연구에서는 광고 이미지 내 세부 시각적 요소를 해당 텍스트와 직접적으로 매핑할 수 있도록 하는 간단한 정렬 네트워크를 제안한다. 이 방법은 시각적 공간과 언어 공간 간 공존 구조의 일관성을 활용하며, 비용이 큰 레이블링된 학습 데이터를 요구하지 않는다. 또한, 두 가지 별도의 과정을 통해 다중 모달 정렬과 질의-광고 매칭을 효과적으로 수행하는 새로운 모델을 제안한다. 이를 통해 다중 모달 입력을 동일한 언어 공간 내에서 매칭함으로써, 학습 데이터의 절반만으로도 우수한 성능을 달성할 수 있다. 대규모 상용 데이터셋에서 기존 최고 성능 모델보다 2.57% 높은 성능을 기록하였다. 본 연구의 정렬 방법은 소싱 검색 외에도 일반적인 다중 모달 검색에 적용 가능하다. MSCOCO 데이터셋에서 대표적인 다중 모달 검색 작업을 수행한 결과, 일관된 성능 향상이 나타나며 본 방법의 일반화 능력을 입증하였다. 코드는 다음 링크에서 공개되어 있다: https://github.com/Pter61/AlignCMSS/

검색 전 정렬: 정확한 다중모달 스폰서드 검색을 위한 광고 이미지와 텍스트의 정렬 | 최신 연구 논문 | HyperAI초신경