
초록
컨볼루션 신경망(CNN)에서 추출한 다중 해상도 특징은 감독형 사람 재식별(Re-ID) 작업에서 뛰어난 구분 능력을 보여왔다. 이러한 성과에 영감을 받아, 본 연구는 레이블이 없는 그러나 훨씬 더 도전적인 비감독형 Re-ID 문제를 해결하기 위해 순수한 트랜스포머 네트워크로부터 다중 해상도 특징을 추출하는 방법을 탐구한다. 이를 위해, 수정된 비전 트랜스포머(ViT) 기반의 이중 브랜치 네트워크 아키텍처를 구축하였다. 각 브랜치에서 출력되는 국소 토큰은 재구성된 후 균일하게 여러 스트라이프로 분할되어 부분 수준의 특징을 생성하고, 두 브랜치의 전역 토큰은 평균화하여 전역 특징을 생성한다. 또한, 최고 성능을 기록한 비감독형 Re-ID 방법인 오프라인-온라인 연관 카메라 인식 프록시(O2CAP)를 기반으로, 전역 특징과 부분 수준 특징에 대해 각각 오프라인 및 온라인 대비 학습 손실을 정의하여 비감독 학습을 수행한다. 세 가지 사람 Re-ID 데이터셋에서 실시한 광범위한 실험 결과, 제안한 방법은 최신 비감독 방법들보다 상당한 성능 차이를 보이며, 감독형 방법과의 격차를 크게 완화함을 확인하였다. 코드는 곧 https://github.com/RikoLi/WACV23-workshop-TMGF 에 공개될 예정이다.