15일 전

비디오 기반 보행자 검색을 위한 트랜스포머의 다방향 및 다스케일 피라미드

{Xianghao Zang; Ge Li; Wei Gao}
비디오 기반 보행자 검색을 위한 트랜스포머의 다방향 및 다스케일 피라미드
초록

영상 감시에서 보행자 검색(또는 사람 재식별, person re-identification)은 핵심적인 과제이다. 이 과제는 겹치지 않는 카메라 간에서 관심 대상 보행자를 검색하는 것을 목표로 한다. 최근 트랜스포머 기반 모델이 이 과제에서 상당한 성과를 거두었으나, 여전히 세부적인 부분 정보를 무시하는 문제가 존재한다. 본 논문은 이 문제를 해결하기 위해 다중 방향 및 다중 해상도 피라미드 구조를 갖춘 트랜스포머(PiT)를 제안한다. 트랜스포머 기반 아키텍처에서는 각 보행자 이미지가 여러 개의 패치로 분할된 후, 이러한 패치들이 트랜스포머 레이어에 입력되어 이미지의 특징 표현을 추출한다. 세부적인 정보를 탐색하기 위해 본 논문은 이러한 패치들에 수직 및 수평 방향으로 분할을 적용하여 다양한 방향의 인체 부위를 생성한다. 이러한 부위는 더 세밀한 정보를 제공한다. 또한, 다중 해상도 특징 표현을 융합하기 위해, 전역 수준 정보와 다양한 해상도에서 얻은 다수의 국부 수준 정보를 포함하는 피라미드 구조를 제안한다. 동일한 영상에서 생성된 모든 보행자 이미지의 특징 피라미드를 융합하여 최종적인 다중 방향 및 다중 해상도 특징 표현을 형성한다. MARS 및 iLIDS-VID와 같은 두 가지 도전적인 영상 기반 벤치마크에서의 실험 결과는 제안된 PiT가 최신 기술 수준의 성능을 달성함을 보여준다. 광범위한 아블레이션 연구를 통해 제안된 피라미드 구조의 우수성이 입증되었다. 코드는 https://git.openi.org.cn/zangxh/PiT.git 에서 공개되어 있다.

비디오 기반 보행자 검색을 위한 트랜스포머의 다방향 및 다스케일 피라미드 | 최신 연구 논문 | HyperAI초신경