2달 전

VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search VGSG: 시각 지도된 의미 그룹 네트워크를 이용한 텍스트 기반 사람 검색

He, Shuting ; Luo, Hao ; Jiang, Wei ; Jiang, Xudong ; Ding, Henghui
VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search
VGSG: 시각 지도된 의미 그룹 네트워크를 이용한 텍스트 기반 사람 검색
초록

텍스트 기반 사람 검색(TBPS)은 텍스트 설명에 의해 지시된 대상 보행자의 이미지를 검색하는 것을 목표로 합니다. TBPS에서는 세부적인 지역 특징을 추출하고 모달 간에 정렬하는 것이 필수적입니다. 기존 방법들은 모달 간 세부 특징의 명시적 정렬을 위해 외부 도구나 복잡한 모달 간 상호작용을 활용하지만, 이는 비효율적이며 시간이 소요됩니다. 본 연구에서는 텍스트 기반 사람 검색을 위해 잘 정렬된 세부 시각적 및 텍스트 특징을 추출하는 비전 안내형 의미 그룹 네트워크(VGSG)를 제안합니다. 제안된 VGSG에서 우리는 의미 그룹 텍스트 학습(SGTL) 모듈과 비전 안내형 지식 전송(VGKT) 모듈을 개발하여 시각적 지역 단서의 안내 하에 텍스트 지역 특징을 추출합니다.SGTL에서는 언어 표현의 의미 신호를 바탕으로 채널 차원에서 텍스트 특징을 그룹화하여 지역 텍스트 표현을 얻습니다. 이는 유사한 의미 패턴이 외부 도구 없이 암묵적으로 그룹화되도록 유도합니다. VGKT에서는 비전 안내형 주의 메커니즘이 사용되어 시각적으로 관련된 텍스트 특징(비전 안내형 텍스트 특징이라고도 함)을 추출하는데, 이는 본질적으로 시각적 단서와 일치합니다.또한, 관계 지식 전송이라는 개념을 설계하였는데, 이는 비전-언어 유사성 전송과 클래스 확률 전송을 포함하며, 비전 안내형 텍스트 특징의 정보를 의미 그룹 텍스트 특징으로 적응적으로 전파하도록 합니다. 관계 지식 전송 덕분에 VGKT는 외부 도구나 복잡한 쌍별 상호작용 없이 의미 그룹 텍스트 특징과 해당 시각적 특징을 정렬할 수 있습니다. 두 가지 어려운 벤치마크에서 수행된 실험 결과는 이 방법이 최신 기술보다 우월함을 입증하였습니다.

VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search VGSG: 시각 지도된 의미 그룹 네트워크를 이용한 텍스트 기반 사람 검색 | 최신 연구 논문 | HyperAI초신경