MagicLens: 오픈 엔디드 지시어를 사용한 자기 감독 이미지 검색

이미지 검색, 즉 참조 이미지를 주어졌을 때 원하는 이미지를 찾는 것은 시각적 측정만으로 포착하기 어려운 풍부하고 다면적인 검색 의도를 내재적으로 포함합니다. 최근 연구들은 사용자가 검색 의도를 더 자유롭게 표현할 수 있도록 텍스트 지시문을 활용하고 있습니다. 그러나 이들 연구는 주로 시각적으로 유사하거나 소수의 사전 정의된 관계로 특징화될 수 있는 이미지 쌍에 초점을 맞추고 있습니다. 본 논문의 핵심 주제는 텍스트 지시문이 시각적 유사성 이상의 풍부한 관계를 가진 이미지를 검색할 수 있게 한다는 것입니다. 이를 보여주기 위해, 우리는 오픈-엔디드 지시문을 지원하는 자기 감독형 이미지 검색 모델 시리즈인 MagicLens(마직렌즈)를 소개합니다. MagicLens는 중요한 새로운 통찰력에 기반하여 구축되었습니다: 자연스럽게 동일한 웹 페이지에서 발생하는 이미지 쌍은 다양한 암묵적 관계(예: 내부 보기)를 포함하며, 이러한 암묵적 관계를 기초 모델을 통해 지시문을 생성함으로써 명시적으로 만들 수 있다는 것입니다. 3670만 개의 (질의 이미지, 지시문, 대상 이미지) 트리플렛으로 구성된 데이터셋에서 다양한 의미론적 관계를 추출하여 학습된 MagicLens는 여덟 가지 다른 이미지 검색 작업 벤치마크에서 이전 최고 성능과 비교할 만한 또는 더 나은 결과를 달성하면서, 모델 크기가 현저히 작은 상태에서도 높은 매개변수 효율성을 유지합니다. 140만 개의 미확인 이미지 코퍼스에 대한 추가적인 인간 분석은 MagicLens가 지원하는 검색 의도의 다양성을 더욱 입증합니다. 코드와 모델은 공개적으로 https://open-vision-language.github.io/MagicLens/ 에서 제공됩니다.