2달 전

전체 범위 표현을 활용한 문맥적 비국소 정렬을 이용한 텍스트 기반 사람 검색

Gao, Chenyang ; Cai, Guanyu ; Jiang, Xinyang ; Zheng, Feng ; Zhang, Jun ; Gong, Yifei ; Peng, Pai ; Guo, Xiaowei ; Sun, Xing
전체 범위 표현을 활용한 문맥적 비국소 정렬을 이용한 텍스트 기반 사람 검색
초록

텍스트 기반 사람 검색은 해당 사람에 대한 설명 문장을 사용하여 이미지 갤러리에서 목표 사람을 검색하는 것을 목표로 합니다. 이는 모달 간의 차이가 차별적인 특징을 효과적으로 추출하는 것을 더욱 어렵게 만들기 때문에 매우 도전적입니다. 또한 보행자 이미지와 설명 모두 클래스 간 변동성이 작습니다. 따라서 모든 스케일에서 시각적 및 텍스트 정보를 정렬하기 위해 포괄적인 정보가 필요합니다. 기존 방법들은 대부분 단일 스케일 내에서 이미지와 텍스트 사이의 로컬 정렬만 고려하고 각 스케일에서 별도로 정렬을 구축합니다(예: 전역 스케일만 또는 부분 스케일만). 이 문제를 해결하기 위해, 우리는 모든 스케일에서 적응적으로 이미지와 텍스트 특징을 정렬할 수 있는 방법, 즉 NAFS(Non-local Alignment over Full-Scale representations, 전역 스케일 표현에 대한 비국소 정렬)를 제안합니다. 첫째, 새로운 계단형 네트워크 구조를 제안하여 더 나은 로컬성으로 전역 스케일 특징을 추출합니다. 둘째, 로컬성 제약 주의 메커니즘을 적용한 BERT를 제안하여 다양한 스케일에서 설명의 표현을 얻습니다. 그리고 각 스케일에서 별도로 특징을 정렬하는 대신, 새로운 문맥 비국소 주의 메커니즘이 적용되어 모든 스케일에서 잠재적인 정렬을 동시에 발견합니다. 실험 결과, 우리의 방법은 텍스트 기반 사람 검색 데이터셋에서 최상위 1개(top-1) 및 최상위 5개(top-5) 검색 성능 측면에서 기존 최고 성능 방법들보다 각각 5.53%, 5.35% 개선된 것으로 나타났습니다. 코드는 https://github.com/TencentYoutuResearch/PersonReID-NAFS 에서 확인할 수 있습니다.

전체 범위 표현을 활용한 문맥적 비국소 정렬을 이용한 텍스트 기반 사람 검색 | 최신 연구 논문 | HyperAI초신경