16일 전

다중모달 정보 감독 하에서 전이 가능한 보행자 표현 학습

Liping Bao, Longhui Wei, Xiaoyu Qiu, Wengang Zhou, Houqiang Li, Qi Tian
다중모달 정보 감독 하에서 전이 가능한 보행자 표현 학습
초록

최근의 비지도(person re-identification, reID)에 관한 연구들은, 레이블이 없는 인체 이미지에 대해 사전 훈련을 수행하는 것이 ImageNet에 대한 사전 훈련보다 하류의 reID 작업에서 더 우수한 성능을 달성함을 보여주었다. 그러나 이러한 사전 훈련 기법들은 reID에 특화되어 있어 다른 보행자 분석 작업에 유연하게 적용하기 어려운 한계를 가지고 있다. 본 논문에서는 다중 모달 정보를 활용하여 다양한 보행자 분석 작업의 성능을 향상시키기 위해 전이 가능한 표현을 학습하는 새로운 프레임워크 VAL-PAT을 제안한다. 본 프레임워크를 훈련하기 위해 세 가지 학습 목표를 도입한다. 즉, 자기지도 대조 학습(self-supervised contrastive learning), 이미지-텍스트 대조 학습(image-text contrastive learning), 다중 속성 분류(multi-attribute classification)이다. 자기지도 대조 학습은 보행자의 내재적 특성을 효과적으로 학습하도록 도와주며, 이미지-텍스트 대조 학습은 모델이 보행자의 외형 정보에 집중하도록 유도한다. 동시에 다중 속성 분류는 세부적인 보행자 정보를 탐색하기 위해 속성을 인식하도록 모델을 유도한다. 본 연구에서는 각 이미지에 텍스트 및 속성 레이블이 포함된 LUPerson-TA 데이터셋에서 사전 훈련을 수행한 후, 학습된 표현을 다양한 하류 작업, 즉 보행자 reID, 보행자 속성 인식, 텍스트 기반 보행자 검색 등에 전이한다. 광범위한 실험 결과는 제안하는 프레임워크가 일반적인 보행자 표현을 효과적으로 학습할 수 있음을 보여주며, 다양한 보행자 분석 작업에서 유망한 성능을 달성함을 입증한다.

다중모달 정보 감독 하에서 전이 가능한 보행자 표현 학습 | 최신 연구 논문 | HyperAI초신경