18일 전
CoSMo: 텍스트 피드백을 활용한 이미지 검색을 위한 콘텐츠-스타일 조절
{Bohyung Han, Dongwan Kim, Seungmin Lee}

초록
텍스트 피드백을 활용한 이미지 검색 작업에 도전하며, 참조 이미지와 수정 텍스트를 결합하여 원하는 대상 이미지를 식별하는 것을 목표로 한다. 본 연구에서는 다중 모달 입력을 통합하여 대상 이미지와 유사한 표현을 생성하는 이미지-텍스트 복합기(이미지-텍스트 컴포지터) 설계에 집중한다. 제안하는 알고리즘인 컨텐츠-스타일 모듈레이션(CoSMo)은 심층 신경망 기반의 두 가지 모듈, 즉 컨텐츠 모듈레이터와 스타일 모듈레이터를 도입하여 이 문제를 해결한다. 컨텐츠 모듈레이터는 참조 이미지의 스타일을 정규화한 후, 이미지 특징에 국소적인 업데이트를 수행하며, 분리된 다중 모달 비국소 블록을 활용하여 원하는 컨텐츠 수정을 달성한다. 이후 스타일 모듈레이터는 업데이트된 특징에 전역적인 스타일 정보를 재도입한다. 본 알고리즘의 구조와 설계 선택에 대해 심층적으로 분석하고, 다양한 이미지-텍스트 검색 벤치마크에서 뛰어난 성능을 달성함을 보여준다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/postBG/CosMo.pytorch