11일 전

기반 Transformer의 다중 크기 특징을 활용한 비지도 인물 재식별

Jiachen Li, Menglin Wang, Xiaojin Gong
기반 Transformer의 다중 크기 특징을 활용한 비지도 인물 재식별
초록

컨볼루션 신경망(CNN)에서 추출한 다중 해상도 특징은 감독형 사람 재식별(Re-ID) 작업에서 뛰어난 구분 능력을 보여왔다. 이러한 성과에 영감을 받아, 본 연구는 레이블이 없는 그러나 훨씬 더 도전적인 비감독형 Re-ID 문제를 해결하기 위해 순수한 트랜스포머 네트워크로부터 다중 해상도 특징을 추출하는 방법을 탐구한다. 이를 위해, 수정된 비전 트랜스포머(ViT) 기반의 이중 브랜치 네트워크 아키텍처를 구축하였다. 각 브랜치에서 출력되는 국소 토큰은 재구성된 후 균일하게 여러 스트라이프로 분할되어 부분 수준의 특징을 생성하고, 두 브랜치의 전역 토큰은 평균화하여 전역 특징을 생성한다. 또한, 최고 성능을 기록한 비감독형 Re-ID 방법인 오프라인-온라인 연관 카메라 인식 프록시(O2CAP)를 기반으로, 전역 특징과 부분 수준 특징에 대해 각각 오프라인 및 온라인 대비 학습 손실을 정의하여 비감독 학습을 수행한다. 세 가지 사람 Re-ID 데이터셋에서 실시한 광범위한 실험 결과, 제안한 방법은 최신 비감독 방법들보다 상당한 성능 차이를 보이며, 감독형 방법과의 격차를 크게 완화함을 확인하였다. 코드는 곧 https://github.com/RikoLi/WACV23-workshop-TMGF 에 공개될 예정이다.

기반 Transformer의 다중 크기 특징을 활용한 비지도 인물 재식별 | 최신 연구 논문 | HyperAI초신경