18일 전

전자상거래 이미지에서 텍스트는 주목을 끌까? 새로운 시각적 주목 예측 데이터셋과 방법

{Bo Huang, Yichen Guo, Se Lei, Mai Xu, Shengxi Li, Yifei Li, Lai Jiang}
전자상거래 이미지에서 텍스트는 주목을 끌까? 새로운 시각적 주목 예측 데이터셋과 방법
초록

전자상거래 이미지는 온라인 유통 및 쇼핑 과정에서 사람들의 주목을 끌기 위해 핵심적인 역할을 하며, 정확한 주목 예측은 고객과 유통업체 모두에게 매우 중요하다. 그러나 이 분야의 연구는 아직 시작 단계에 있다. 본 논문에서는 전자상거래 이미지의 주목성(saliency)을 예측하기 위한 학습이 가능하도록 하는 최초의 데이터셋인 SalECI(Saliency E-commerce Images)를 구축한다. 또한 전자상거래 이미지의 독특한 특징—예를 들어, 국소성의 부재 및 텍스트 영역과의 상관관계—를 강조하여 전문적이고 철저한 분석을 수행한다. 이를 바탕으로, 비국소성(non-locality)과 자기주의(self-attention) 메커니즘의 장점을 활용하여, 주목성 예측을 위한 SWin-Transformer 기반 아키텍처를 제안하며, 주목성과 텍스트 탐지라는 두 가지 작업을 동시에 수행하는 다중 작업 학습(multi-task learning) 구조를 도입한다. 더불어 두 작업 간의 정보 흐름을 최적화하기 위한 정보 흐름 메커니즘을 제안한다. 실험 결과는 본 연구가 전자상거래 환경에서 최신 기술 수준의 성능을 달성함을 입증하였다.