17일 전
커링넷: 패션 IQ 데이터에 대한 이미지와 텍스트 간의 구성적 학습
Youngjae Yu, Seunghwan Lee, Yuncheol Choi, Gunhee Kim

초록
우리는 이미지-텍스트 임베딩의 구성에 대한 의미적 거리를 측정할 수 있는 접근법인 CurlingNet을 제안한다. 패션 도메인의 데이터를 위한 효과적인 이미지-텍스트 구성 학습을 위해, 본 모델은 다음과 같은 두 가지 핵심 구성 요소를 제안한다. 첫째, Delivery는 소스 이미지를 임베딩 공간 내에서 전이하는 역할을 한다. 둘째, Sweeping은 임베딩 공간 내에서 쿼리와 관련된 패션 이미지의 구성 요소를 강조한다. 이를 가능하게 하기 위해 채널별 게이팅 메커니즘을 활용한다. 제안하는 단일 모델은 TIRG 및 FiLM을 포함한 기존 최상위 이미지-텍스트 구성 모델들을 초월하는 성능을 보였다. 우리는 ICCV 2019에서 개최된 최초의 패션-IQ 챌린지에 참가하였으며, 본 모델의 앙상블은 최고 성능 중 하나를 달성하였다.