14일 전
비디오 인물 재식별을 위한 경쟁적 스크립트-유사도 집계 및 공-주의 스크립트 임베딩
{Tong Xiao, Dapeng Chen, Hongsheng Li, Xiaogang Wang, Shuai Yi}

초록
본 논문에서는 경쟁적 스니펫 유사도 집계와 공통 주의력 기반 스니펫 임베딩을 활용한 영상 기반 사람 재식별 문제를 다룬다. 제안하는 방법은 긴 사람 시퀀스를 여러 개의 짧은 비디오 스니펫으로 분할하고, 상위 순위의 스니펫 유사도를 집계하여 시퀀스 유사도를 추정한다. 이 전략을 통해 각 샘플의 내부 사람 시각적 변동성을 최소화하면서도, 다양한 외형적 특징과 시간 정보를 유지할 수 있다. 스니펫 유사도는 새로운 시간적 공통 주의력(temoral co-attention)을 갖춘 딥 신경망을 통해 추정되며, 이 주의력 가중치는 LSTM 네트워크를 통해 전체 프로브 스니펫에서 학습된 쿼리 특징을 기반으로 산출된다. 이로 인해 노이즈가 포함된 프레임의 영향을 줄일 수 있는 보다 안정적인 임베딩이 생성된다. 게일러리 스니펫은 프로브 스니펫과 동일한 쿼리 특징을 공유하므로, 프로브 스니펫과 비교할 때 더 관련성이 높은 특징을 표현할 수 있으며, 결과적으로 더 정확한 스니펫 유사도를 도출할 수 있다. 광범위한 아블레이션 연구를 통해 경쟁적 스니펫 유사도 집계 및 시간적 공통 주의력 기반 임베딩의 효과성이 검증되었으며, 제안된 방법은 다양한 데이터셋에서 기존 최고 성능 기법들을 크게 능가한다.