다중모달 정보 감독 하에서 전이 가능한 보행자 표현 학습

최근의 비지도(person re-identification, reID)에 관한 연구들은, 레이블이 없는 인체 이미지에 대해 사전 훈련을 수행하는 것이 ImageNet에 대한 사전 훈련보다 하류의 reID 작업에서 더 우수한 성능을 달성함을 보여주었다. 그러나 이러한 사전 훈련 기법들은 reID에 특화되어 있어 다른 보행자 분석 작업에 유연하게 적용하기 어려운 한계를 가지고 있다. 본 논문에서는 다중 모달 정보를 활용하여 다양한 보행자 분석 작업의 성능을 향상시키기 위해 전이 가능한 표현을 학습하는 새로운 프레임워크 VAL-PAT을 제안한다. 본 프레임워크를 훈련하기 위해 세 가지 학습 목표를 도입한다. 즉, 자기지도 대조 학습(self-supervised contrastive learning), 이미지-텍스트 대조 학습(image-text contrastive learning), 다중 속성 분류(multi-attribute classification)이다. 자기지도 대조 학습은 보행자의 내재적 특성을 효과적으로 학습하도록 도와주며, 이미지-텍스트 대조 학습은 모델이 보행자의 외형 정보에 집중하도록 유도한다. 동시에 다중 속성 분류는 세부적인 보행자 정보를 탐색하기 위해 속성을 인식하도록 모델을 유도한다. 본 연구에서는 각 이미지에 텍스트 및 속성 레이블이 포함된 LUPerson-TA 데이터셋에서 사전 훈련을 수행한 후, 학습된 표현을 다양한 하류 작업, 즉 보행자 reID, 보행자 속성 인식, 텍스트 기반 보행자 검색 등에 전이한다. 광범위한 실험 결과는 제안하는 프레임워크가 일반적인 보행자 표현을 효과적으로 학습할 수 있음을 보여주며, 다양한 보행자 분석 작업에서 유망한 성능을 달성함을 입증한다.