자동 합성 데이터 및 세부 적응형 특징 정렬을 이용한 복합 인물 검색

개인 검색이 점차 주목을 받고 있습니다. 기존 방법은 주로 이미지 전용과 텍스트 전용 두 가지 검색 모드로 나뉩니다. 그러나 이러한 방법들은 사용 가능한 정보를 충분히 활용하지 못하며, 다양한 응용 요구사항을 충족시키는 데 어려움이 있습니다. 위의 제한 사항들을 해결하기 위해, 우리는 시각적 및 텍스트 쿼리를 결합하여 대규모 개인 이미지 데이터베이스에서 관심 있는 개인을 식별하는 새로운 Composed Person Retrieval (CPR) 작업을 제안합니다. 그러나 CPR 작업의 가장 큰 난점은 적절한 주석이 달린 데이터셋의 부족입니다. 따라서, 먼저 복잡한 다중 모달 데이터 생성을 텍스트 쿼드러플 생성과 세부 조정된 생성 모델을 사용한 동일 인물 이미지 합성으로 분해하는 확장 가능한 자동 데이터 합성 파이프라인을 소개합니다. 동시에, 다중 모달 필터링 방법을 설계하여 결과 SynCPR 데이터셋이 115만 개의 고품질이고 완전히 합성된 트리플릿을 유지하도록 합니다.또한, 복합적인 개인 쿼리 표현을 개선하기 위해, 우리는 세밀한 동적 정렬과 마스크 특징 추론을 통해 새로운 Fine-grained Adaptive Feature Alignment (FAFA) 프레임워크를 제안합니다. 더욱이, 객관적인 평가를 위해 Image-Text Composed Person Retrieval (ITCPR) 테스트셋에 대해 수작업으로 주석을 달았습니다. 광범위한 실험들은 SynCPR 데이터셋의 효과성과 제안된 FAFA 프레임워크가 최신 기술들과 비교하여 우수함을 입증하였습니다. 모든 코드와 데이터는 https://github.com/Delong-liu-bupt/Composed_Person_Retrieval 에 제공될 예정입니다.