2달 전

통일된 텍스트 기반 개인 검색을 위한: 대규모 다중 속성 및 언어 검색 벤치마크

Yang, Shuyu ; Zhou, Yinan ; Wang, Yaxiong ; Wu, Yujiao ; Zhu, Li ; Zheng, Zhedong
통일된 텍스트 기반 개인 검색을 위한: 대규모 다중 속성 및 언어 검색 벤치마크
초록

본 논문에서는 텍스트 기반 사람 검색을 위한 대규모 다중 속성 및 언어 검색 데이터셋인 MALS(Multi-Attribute and Language Search)를 소개하고, 속성 인식과 이미지-텍스트 매칭 작업을 동시에 사전 학습하는 것의 타당성을 탐구합니다. 특히, MALS는 1,510,330개의 이미지-텍스트 쌍을 포함하고 있으며, 이는 기존의 CUHK-PEDES보다 약 37.5배 크며 모든 이미지는 27개의 속성으로 주석이 달려 있습니다. 개인 정보 보호와 주석 비용 문제를 고려하여, 우리는 오프더셀프 디퓨전 모델을 활용하여 데이터셋을 생성하였습니다.생성된 데이터에서 학습하는 것이 가능한지 확인하기 위해, 속성과 텍스트 간의 공유 지식을 고려한 새로운 공동 속성 프롬프트 학습 및 텍스트 매칭 학습(APTM: Attribute Prompt Learning and Text Matching Learning) 프레임워크를 개발하였습니다. 이름 그대로 APTM은 속성 프롬프트 학습 스트림과 텍스트 매칭 학습 스트림으로 구성됩니다. (1) 속성 프롬프트 학습은 이미지-속성 일치를 위해 속성 프롬프트를 활용하며, 이는 텍스트 매칭 학습을 강화합니다. (2) 텍스트 매칭 학습은 세부적인 특징에 대한 표현 학습을 촉진시키고, 다시 속성 프롬프트 학습을 높입니다.다양한 실험 결과를 통해 MALS에서의 사전 학습 효과가 입증되었으며, APTM은 세 가지 어려운 실제 벤치마크에서 최고 수준의 검색 성능을 달성하였습니다. 특히, APTM은 CUHK-PEDES, ICFG-PEDES, RSTPReid 데이터셋에서 각각 +6.96%, +7.68%, +16.95% Recall@1 정확도를 명확한 차이로 개선하였습니다.

통일된 텍스트 기반 개인 검색을 위한: 대규모 다중 속성 및 언어 검색 벤치마크 | 최신 연구 논문 | HyperAI초신경